안녕하세요, 데이블 AI팀 Research 파트에서 일하고 있는 이동준입니다. 
이번 글에서는 “사용자의 상품 구매 가능성 예측을 위해 사용자 행동 시퀀스를 어떻게 모델링할 수 있을까?”에 대한 내용을 공유드리려 합니다. 해당 글은 WSDM 2026에서 발표된 Abacus 논문을 따라가면서 리뷰하고, 실제 사내 데이터를 활용한 오프라인 환경에서 진행한 실험 결과를 함께 담았습니다.
1. 사용자 행동 시퀀스 모델링이란?
구매 가능성 예측은 "이 사용자가 미래에 상품을 구매할 가능성"을 추정하는 것입니다. 이를 위해 사용자의 특성을 잘 표현해야 하는데, 가장 직관적인 방법 중 하나는 사용자의 과거 행동 이력을 활용하는 것입니다.
이 사용자가 최근 어떤 앱을 실행했고, 어떤 광고를 클릭했으며, 어떤 카테고리에 관심을 보였는지 — 이 이벤트 로그의 흐름이 사용자 행동 시퀀스입니다.
사용자 시퀀스 모델링의 예시. “Desktop 좋아요 → 마우스 장바구니 → 프린터 좋아요” 순서의 행동을 보인 사용자가 다음에 상품 구매를 할 가능성을 예측하는 것
위 그림을 예시로 들어보겠습니다. 어떤 사용자에 대한 최근 행동 이력이 “Desktop 좋아요 → 마우스 장바구니 → 프린터 좋아요” 순서로 이어졌다고 가정하겠습니다. 이 사용자는 IT 기기들에 관심을 보이고 있네요. 그러면 이 사용자는 가까운 미래에 어떤 상품을 구매하게 될까요?
이런 사용자의 과거 행동 이력 정보를 기반으로, 사용자의 현재 관심사와 의도를 포착하고 다음 행동 예측에 활용할 수 있습니다.
2. 전통적인 사용자 행동 시퀀스 모델링
가장 전통적인 방법은 행동 시퀀스를 직접 다루는 대신, 집계 통계를 사용하는 것입니다. "최근 7일간 게임 앱 실행 횟수", "최근 30일간 광고 클릭 수"와 같은 정보를 모델에 전달하는 방식이 이에 해당합니다.
이런 정보를 “카운터 피처 (Counter Feature)”라 부르며, 구현이 간단하고 해석이 쉽습니다. 하지만 다음과 같은 한계가 있습니다.
•
정보 손실: 행동의 순서, 맥락, 아이템 간 상호 관계가 사라집니다.
•
시간 창 설계 비용: 7일? 14일? 30일? 어떤 기간이 중요한지 사람이 직접 결정해야 합니다. 이 시간 창은 유튜브와 같이 매일 방문하는 사용자가 많은 플랫폼, 쇼핑몰과 같이 정기적으로 혹은 간헐적으로 방문하는 사용자가 많은 플랫폼에 따라 설계가 달라지게 됩니다.
•
확장성: 행동 유형과 집계 방식이 늘어날수록 피처 공간이 폭발적으로 증가합니다.
최근 딥러닝을 활용해 수행되는 시퀀스 모델링은 이 한계를 극복하기 위한 시도들이라 해석할 수 있습니다. 모델이 시퀀스 자체를 보고 스스로 중요한 패턴을 학습하도록 하는 것이죠.
3. Abacus 프레임워크
3.0 딥러닝 기반 사용자 행동 모델링
앞서 언급한 바와 같이 카운터 피처로 얻을 수 없는 시간 순서에 따른 사용자 행동을 세밀하게 다루기 위해 자연어 처리 (NLP) 분야의 아이디어들이 도입되었습니다.
GRU4Rec, SASRec, BERT4Rec 같은 모델들이 그 예시입니다. 이 모델들은 카운터 피처만으로는 알 수 없는 “어떤 순서로 사용자가 행동을 했는가?”에 대한 정보를 활용하여 행동 시퀀스 자체를 인코딩하는 방식으로 동작합니다.
이런 모델들은 다음 아이템을 예측(Next Item Prediction)하거나 마스킹된 아이템을 맞추는(Masked Modeling) 식입니다. 이 방법들은 모두 자연어 처리 분야에서 제안된 학습 방법에 영감을 받아 제안되었습니다.
그런데 추천 시스템 도메인의 사용자 행동 시퀀스는 자연어와 성격이 다릅니다.
•
입력되는 토큰의 순서가 엄격하지 않습니다. 즉, “문법”의 개념을 갖지 않습니다.
•
같은 행동이 짧게 반복되는 패턴으로 자주 관측됩니다.
이 외에도 다양한 도메인 성격의 차이가 있습니다. 이에 따라 순서보다 빈도와 패턴이 의미를 더 잘 담을 때가 많습니다. 그러므로 자연어 처리 분야에서 영감을 받은 접근 방법들이 광고 도메인에서도 그대로 유효한지는 별개의 질문입니다.
Abacus는 이러한 관찰에서 출발합니다.
"사용자 행동 시퀀스를 잘 다루기 위해서는 빈도 분포를 함께 다룰 필요가 있다."
3.1 Abacus 모델 구조
Abacus 논문에 포함된 전체 학습 파이프라인. 중앙 노란 타워: Distributional Pretraining, 중앙 파란 타워: Masked Sequence Modeling, 중앙 녹색 타워: Barlow Twins. 우측 주황 타워: Finetuning
Abacus 모델의 구성 요소는 다음과 같습니다.
•
입력: (event_id, timestamp) 쌍으로 이루어진 사용자 행동 시퀀스를 입력받아, 각각의 이벤트를 차원으로 임베딩합니다.
◦
여기서 는 이벤트 ID이며, 는 정규화된 타임스탬프 값을 의미합니다.
이 이벤트 ID는 임베딩 계층을 통해 차원으로 매핑됩니다.
•
모델: GRU, BERT와 같은 시간 순서를 학습하는 모델을 활용하여 입력되는 사용자 행동 시퀀스를 인코딩합니다.
◦
BERT 모델 활용 시 타임스탬프와 함께 positional embedding을 활용하여 시간 정보를 모델링합니다.
•
예측 헤드: 모델의 출력인, 인코딩된 사용자 행동 시퀀스를 활용하여 다양한 예측 결과를 출력합니다.
•
학습 목표 (Stage 1):
1.
해당 사용자가 특정 기간 동안 각 행동을 얼마나 했는지의 경험적 빈도 분포(empirical frequency distribution)를 예측
2.
사용자 행동 시퀀스에서 일부 행동을 마스킹한 뒤, 행동 정보를 복원
3.
사용자 행동 시퀀스에서 일부 행동을 마스킹한 두 개의 뷰로부터 대조 학습
•
학습 목표 (Stage 2):
◦
Stage 1에서 학습된 인코더를 활용하여 사용자 행동 시퀀스로부터 사용자의 미래 구매 가능성을 예측
논문에서는 Stage 1에서 제안하는 학습 목표 조합을 실험에 따라 보고하고 있습니다.
그러면 각각의 학습 목표에 대해 조금 더 자세히 알아봅시다.
3.2 Distributional Pretraining
Distributional Pretraining의 세 가지 변형.
Abacus는 데이터 증강 전략에 따라 세 가지 변형을 제안합니다.
변형 | 증강 방식 | 특징 |
Abacus | 없음 | 원본 시퀀스로 히스토그램 예측 |
Abacus-R | Random Permutation | 순서를 무작위로 섞어 순서 의존성 제거 |
Abacus-M | Masking | 일부 이벤트를 마스킹하여 강건성 향상 |
•
Abacus는 원본 시퀀스에 있는 각 이벤트의 빈도수를 예측하도록 합니다.
•
Abacus-R(andom permutation)은 시퀀스의 일부를 무작위로 섞어 각 이벤트의 빈도수를 예측하도록 합니다. 이를 통해 모델이 시퀀스 내에 있는 순서 정보로부터 빈도수를 예측하는 것을 방지합니다.
•
Abacus-M(asking)은 시퀀스의 일부 아이템을 마스킹한 시퀀스로부터 빈도수를 예측하도록 합니다. 이를 통해 일부 이벤트에 대한 정보가 없을 때에도 강건한 예측을 목표로 합니다.
히스토그램 예측은 BERT의 경우 [CLS] 토큰을 별도의 작은 MLP에 입력하여 예측하도록 설계되었습니다. GRU의 경우에는 마지막 Hidden State를 MLP의 입력으로 삼습니다.
논문에서는 이 세 가지 변형을 각각 수행하며 어떤 증강 방식이 가장 효과적인지 비교합니다.
3.3 Masked Sequence Modeling
BERT4Rec에서 제안된 Masked Sequence Modeling.
이 논문에서는 Distributional Pretraining만을 학습 신호로 삼지 않고, 다양한 추가 학습 신호를 활용하려는 시도를 보여줍니다. 특히, 실험에서 Masked Sequence Modeling (MSM)을 함께 학습에 활용합니다.
Masked Sequence Modeling은 행동 시퀀스에 일부 행동 정보를 마스킹하여 모델에 입력함으로써 시퀀스를 인코딩합니다. 이후 모델은 “마스킹한 위치의 이벤트가 어떤 이벤트였을지”와 “마스킹한 위치의 타임스탬프 값”을 각각 예측합니다.
이벤트와 타임스탬프 예측 또한 Masked Sequence Modeling을 위한 별도의 Projection Head를 활용하여 진행됩니다. 이를 통해 사용자의 행동 변화를 모델링하도록 합니다.
3.4 Barlow Twins
Enhancing User Sequence Modeling through Barlow Twins-based Self-Supervised Learning 논문에서 포함된 Barlow Twins 학습 방법
Abacus는 Barlow Twins 목적함수와 함께 Multi-Task Learning(MTL) 방식으로 결합할 수 있습니다.
Barlow Twins는 동일한 입력의 두 가지 증강 뷰(view)를 만들고, 두 뷰의 특징 벡터 간 교차 상관 행렬(cross-correlation matrix)을 단위 행렬(identity matrix)에 가깝게 만드는 방식으로 표현을 학습합니다.
즉, 대각 성분은 1에 가깝게(동일한 데이터의 두 뷰가 같은 정보를 표현하도록 불변성 확보), 비대각 성분은 0에 가깝게(차원 간 중복 정보 제거) 만드는 두 가지 목표를 동시에 최적화합니다.
3.5 Finetuning
Finetuning 단계에서는 앞서 사전학습으로 얻은 시퀀스 인코더와 임베딩을 다운스트림 작업에 맞추어 학습하게 됩니다. 즉, 사전 학습에 활용하였던 예측 헤드는 모두 제거하고, 다운스트림 작업을 위한 헤드와 함께 추론을 진행합니다.
4. 실험 결과
4.1 오프라인 실험 결과
Taobao dataset에 대한 오프라인 실험 결과.
Criteo private dataset에 대한 오프라인 실험 결과.
실험은 Taobao(공개 이커머스 데이터셋)와 private Dataset, 두 가지를 대상으로 진행되었습니다. 두 데이터셋의 성격이 달라 결과를 비교하는 것 자체가 흥미롭습니다.
•
Taobao는 구매 이벤트가 전체의 약 1.3%에 불과한 극도로 희소한 환경
•
Private 데이터셋은 이벤트 종류의 다양성이 훨씬 높음
결과에서 눈에 띄는 점 세 가지를 짚어봅시다.
“단순한 사전학습이 오히려 해로울 수 있습니다.”
•
"다음 이벤트를 예측(NEP, Next Event Prediction)"하는 방식은 일부 설정 (Taobao + GRU 조합) 에서 -7.72%의 성능 하락을 보였습니다.
◦
자연어 처리에서 당연하게 쓰이는 "다음 토큰 예측" 방식을 광고 행동 시퀀스에 그대로 적용하면, 오히려 finetuning 성능 하락을 유발할 수 있습니다.
GRU가 BERT보다 기본 성능이 높지만, 사전학습 혜택은 BERT가 더 큽니다.
•
논문은 이 이유가 자연어 처리 도메인과 달리, 추천 시스템 도메인에서의 “짧은 시퀀스 길이”, “작은 Vocabulary”, “Local temporal dynamics”에 있다고 설명하고 있습니다.
◦
Transformer의 장점인 장거리 문맥 포착은 제대로 활용되지 못하고 오히려 과적합 위험이 커진다는 것입니다.
Hybrid MTL이 안정적으로 최고 성능을 냅니다.
•
GRU 모델에 대해 Abacus-R과 Barlow Twins를 함께 학습하는 Hybrid 방식이 단일 방식 대비 최고 성능을 기록했습니다. BERT에 대해서는 Abacus-R + Masked Sequence Modeling + Barlow Twins 모두를 함께 활용하는 방식이 가장 우수한 성능을 보였습니다.
◦
표준편차도 감소해 안정성이 높아지는 점도 주목할 만합니다.
4.2 실제 서비스에 사용자 행동 모델 도입하기
4.2.1 실험 설계
Abacus 논문의 아이디어를 실제 서비스 데이터에 적용하기 위해 데이블의 환경에서 오프라인 실험을 진행했습니다.
공개 데이터셋과 실제 서비스 데이터의 가장 큰 차이는 데이터 규모입니다. 논문은 최대 1.7M건의 데이터를 사용했지만, 데이블 시스템에서는 더 많은 데이터를 학습에 활용하고 있습니다. 이에 따라 데이터 규모에 따른 성능 향상을 관측하기 위해 다양한 데이터 규모로 실험을 반복했습니다.
4.2.2 실험 과정에서의 고려사항
실제 데이터에 시퀀스 모델을 적용할 때 논문 구현과 다른 부분들이 있었습니다. 그중 대표적인 것은 입력 데이터입니다.
실제 데이터에서는 사용자에 대한 다양한 정보를 함께 입력할 수 있습니다. 이를테면 사용자의 연령, 위치 등을 함께 입력으로 활용할 수 있겠네요.
사용자 행동 시퀀스만 모델링하여 사용자 행동 시퀀스의 효과를 검증하는 방식보다는 실제 시스템에서 활용할 수 있는 정보를 모두 활용하여 사용자에게 더 좋은 추천을 제공할 필요가 있습니다.
4.2.3 오프라인 실험 결과
약 20M건의 학습 데이터에서 baseline 대비 다음과 같은 성능 향상을 달성할 수 있었습니다.
•
CVR: +0.16%p
수치만 보면 작아 보일 수 있으나 광고 시스템에서 CTR이나 CVR의 0.1% 단위 개선은 실제 서비스 성과에 의미 있는 영향을 줄 수 있습니다.
이러한 실험 결과를 통해, Abacus에서 제안한 사전학습 방법이 모델의 한계를 보완하면서도 대규모 추천 시스템에서도 실용적으로 적용될 수 있음을 입증하였습니다.
5. 마치며
이 글에서는 Abacus를 통해 “사용자 행동 시퀀스를 어떻게 모델링할 것인가"라는 질문에 접근하는 방식을 살펴봤습니다.
핵심 메시지는 간단합니다. 자연어 처리에서 검증된 순서 기반 학습 방식이 광고 도메인에서는 그대로 작동하지 않을 수 있다는 것, 그리고 그 이유는 광고 사용자 행동 시퀀스가 자연어와 본질적으로 다른 특성을 갖기 때문입니다.
Abacus는 이 문제를 "무엇이 다음에 올지 맞추는" 방식 대신, "어떤 이벤트가 얼마나 자주 일어났는지의 분포를 학습하는" 방식으로 풀었습니다. 그 결과 공개 데이터셋 (Taobao) 에서 최대 +5.49% AUC 향상을 달성했고, 실제 서비스 데이터에서도 의미 있는 성능 개선을 확인했습니다.
사용자 행동 모델링은 아직 풀리지 않은 문제들이 많은 영역입니다. 데이블 AI팀도 이 방향에서 꾸준히 탐색을 이어가고 있습니다. 이 글이 비슷한 고민을 하시는 분들께 작은 단서가 되었으면 합니다.
참고자료
관련된 글 더 보기

.jpg&blockId=3455bbc0-e5c2-803f-833c-fac6479b1a4e&width=3600)







.jpg&blockId=3455bbc0-e5c2-803f-833c-fac6479b1a4e&width=1024)





.jpg&blockId=1075bbc0-e5c2-803c-858a-ce244174a512&width=1024)


