
이 문서는 메타(Meta)가 어떻게 강화 학습(RL)을 사용하여 페이스북의 광고 문구 생성 기능을 개선했는지에 대한 연구를 다룹니다. 특히, 광고 성과 데이터를 보상 신호로 활용하는 새로운 사후 학습(Post-training) 방법인 RLPF(Reinforcement Learning with Performance Feedback) 를 통해 LLM(대규모 언어 모델) 'AdLlama'를 훈련시켰습니다. 2024년 초 10주간 진행된 대규모 A/B 테스트에서 AdLlama는 기존 모델 대비 클릭률(CTR)을 6.7% 향상시켰으며, 광고주 만족도 또한 높였습니다. 이는 생성형 AI의 실제 비즈니스 영향력을 정량적으로 보여주는 중요한 결과입니다.
생성형 AI는 콘텐츠 제작, 교육, 의료, 의사결정 등 다양한 산업 분야에서 혁신적인 잠재력을 인정받고 있으며, 경제적으로도 큰 영향을 미칠 것으로 기대되고 있습니다. 특히, 대규모 언어 모델(LLM)은 방대한 텍스트 데이터를 통해 일반적인 언어 패턴을 학습하는 사전 학습(Pre-training) 단계를 거칩니다. 하지만 실제 환경에 적용하려면 특정 작업을 위해 모델을 정교하게 조정하고 정렬하는 사후 학습(Post-training) 이 필수적입니다.
그동안 LLM의 영향력에 대한 연구는 많았지만, 사후 학습 단계의 구체적인 경제적 영향은 상대적으로 덜 탐구되었습니다. 이 논문은 온라인 광고 산업을 통해 강화 학습(RL)을 활용한 사후 학습의 실제 영향을 분석합니다. 2025년 기준 전 세계 온라인 광고 지출은 5,130억 달러에 달하며, 전체 글로벌 광고 수익의 63%를 차지할 것으로 예상될 만큼 중요한 시장입니다.
메타의 텍스트 생성(Text Generation) 제품은 광고주가 직접 작성한 광고 문구를 기반으로 LLM을 사용하여 다양한 광고 문구 변형을 생성하는 기능입니다. 이 기능을 통해 광고주는 메타의 광고 전달 시스템을 활용하여 가장 성과가 좋은 광고 문구를 선택할 수 있습니다. 초기 텍스트 생성 제품은 큐레이팅된 광고를 모방하도록 지도 학습(SFT) 방식으로 파인튜닝된 LLM을 사용했습니다.
이 연구의 목표는 텍스트 생성 LLM을 개선하여 더욱 매력적인 광고 문구를 작성하고, 이를 통해 광고주의 성과를 측정 가능하게 향상시키는 것입니다. 이를 위해 광고 성과(클릭률)를 직접 보상 신호로 사용하는 RLPF(Reinforcement Learning with Performance Feedback) 라는 새로운 접근 방식을 도입했습니다. RLPF는 각 광고 노출에 대한 사용자 행동(클릭 또는 미클릭)을 수천 명의 인간이 제공하는 작은 형태의 피드백으로 간주하여, 기존의 RLHF(인간 피드백을 통한 강화 학습)를 확장한 개념입니다.
저자들은 RLPF 훈련 모델과 기존의 SFT 기반 모방 모델을 비교하는 대규모 온라인 A/B 테스트를 진행했습니다. 2024년 초 10주간 약 3만 5천 명의 광고주와 64만 개의 광고 변형을 대상으로 진행된 이 테스트 결과, RLPF 모델을 사용한 광고주들의 클릭률(CTR)이 기존 모방 모델 대비 6.7% 증가하는 놀라운 성과를 보였습니다. 또한, 광고주들이 생성하는 광고 변형의 수도 18.5% 증가하여, 광고주들이 AdLlama의 결과물에 더 높은 만족도를 보인다는 것을 시사합니다.
이러한 결과는 여러 가지 중요한 의미를 가집니다. 첫째, 비즈니스 활용 사례에서 LLM의 사후 학습을 위한 강화 학습의 효과를 강조합니다. 둘째, 온라인 광고 분야에서 RL 기반 LLM 사후 학습의 이점을 정량적으로 제시함으로써, 생성형 AI의 광범위한 영향력을 이해하는 데 중요한 기여를 합니다. 이 연구는 지금까지 보고된 생성형 AI의 실제 환경 적용 사례 중 가장 대규모 연구로 알려져 있습니다.
그림 1: 연구 기여도 개요. 왼쪽 패널은 RLPF를, 오른쪽 패널은 대규모 A/B 테스트 결과를 보여줍니다.
메타의 텍스트 생성(Text Generation) 제품은 광고주가 다양한 버전의 광고 문구를 실험할 수 있도록 돕는 생성형 AI 기능입니다. 이 기능은 광고주의 원본 광고 문구를 입력으로 받아, LLM이 새로운 변형을 제안하는 방식으로 작동합니다. 예를 들어, 핵심 판매 포인트를 강조하거나 창의적인 메시지를 추가할 수 있습니다.
텍스트 생성 제품의 사용자 인터페이스는 광고 제작 과정에서 나타납니다. 광고주는 먼저 원본 광고 문구를 입력합니다. 그러면 LLM이 여러 텍스트 변형을 생성하여 표시하고, 광고주는 이 중에서 사용하고 싶은 변형을 선택하거나 직접 수정할 수 있습니다. 심지어 "텍스트 옵션 추가" 버튼을 통해 자신만의 맞춤형 변형을 추가할 수도 있습니다.
예를 들어, "이번 주말은 새로운 책과 함께! 오늘 서점에 방문하세요."와 같은 원본 광고 문구를 입력하면, LLM은 다음과 같은 변형들을 제안할 수 있습니다.
- "이번 주말, 새로운 책으로 당신의 시간을 풍요롭게 만드세요! 지금 바로 서점을 방문하세요."
- "지루한 주말은 이제 그만! 서점에서 당신을 기다리는 특별한 책들을 만나보세요."
- "책과 함께하는 완벽한 주말을 꿈꾼다면? 서점으로 오세요!"
광고주는 원본 문구와 AI가 생성한 변형을 포함하여 최대 5가지의 텍스트 변형을 선택하여 사용자에게 전달할 수 있습니다. "더 생성하기" 버튼을 통해 추가적인 텍스트 변형을 계속 생성할 수도 있습니다.
여기서 중요한 점은 광고주가 AI가 작성한 광고를 반드시 선택할 필요가 없다는 것입니다. 광고주는 AI의 제안을 완전히 무시하고 원본 텍스트를 사용하거나, AI의 제안을 참고하여 자신만의 여러 문구를 직접 작성하거나, AI가 작성한 광고를 수정하여 사용하거나, AI가 생성한 문구를 영감 삼아 새로운 문구를 작성할 수도 있습니다. 따라서 LLM은 광고주가 최종적으로 어떤 문구를 선택하든 관계없이 광고 문구 형성에 미묘하지만 중요한 역할을 합니다.
그림 2: 메타 텍스트 생성 제품의 사용자 인터페이스. 광고주가 입력한 원본 문구를 바탕으로 AI가 다양한 변형을 제안하고, 광고주는 이 중에서 원하는 것을 선택하거나 수정할 수 있습니다.
텍스트 생성 LLM의 초기 버전인 모방 LLM v1은 2023년 11월에 출시되었습니다. 이 LLM은 메타의 오픈소스 기반 언어 모델인 Llama 2 Chat의 70억(7B) 파라미터 버전을 기반으로 합니다. 이 모델은 사전에 큐레이팅된 광고 세트의 스타일을 모방하도록 지도 학습(SFT) 방식으로 사후 학습되었습니다.
이후 모방 LLM v2라는 개선된 버전이 출시되었는데, 이는 더 높은 품질의 데이터를 사용한 것이 특징입니다. v1의 훈련 데이터셋은 대규모 LLM에서 합성으로 생성된 데이터에 전적으로 기반했지만, v2 데이터에는 사람이 직접 작성한(즉, 계약직 직원이 작성한) 예시가 추가되었습니다. 이러한 훈련 예시들은 "문구 변경 및 축약", "명확하게 만들기", "실행 가능하게 만들기", "공감 유발", "질문 형식으로 만들기", "판매 포인트 집중"과 같은 특정 지침에 따라 기존 광고를 LLM 또는 사람이 다시 작성하도록 하여 큐레이팅되었습니다.
이 논문에서 제시하는 작업은 텍스트 생성 제품의 초기 출시 이후에 이루어진 것입니다. 우리의 목표는 기존의 모방 기반 텍스트 생성 LLM을 개선하여, 클릭률(CTR) 측면에서 광고주 성과를 정량적으로 향상시키는 것입니다. 이를 위해 집계된 성과 피드백 신호에 강화 학습을 적용하는 새로운 아이디어를 활용했습니다.
이 섹션에서는 새로운 텍스트 생성 LLM인 AdLlama를 훈련하기 위한 방법론(데이터 준비, 보상 모델 설계, 강화 학습 포함)을 설명합니다. 또한, 새로운 모델과 기존 모방 모델의 성능 개선을 정량화하기 위해 사용된 A/B 테스트의 설계를 다룹니다.
사전 학습된 LLM은 방대한 지식을 습득했지만, 일반적으로 광범위하게 사용되기에는 부족합니다. 사용자에게 배포하기 전에 모델을 특정 작업에 정렬(align) 하는 중요한 단계가 필요합니다. LLM 정렬의 주요 접근 방식은 인간 라벨러로부터 선호도 데이터를 수집하는 것입니다. 이들은 두 가지 응답을 비교하여 어떤 것이 더 나은지 표시하고, 모델은 이 선호도 데이터를 기반으로 파인튜닝되어 인간이 선호하는 응답과 더 유사한 응답을 생성하도록 유도됩니다. 이 과정은 RLHF(Reinforcement Learning with Human Feedback) 로 알려져 있습니다. 개방형 대화나 창의적 글쓰기와 같은 많은 LLM 작업의 "품질"은 주관적이고 정량화하기 어렵기 때문에, 인간 선호도에 기반한 훈련은 잘 정의된 최적화 목표에 가장 근접한 방법입니다.
저자들의 핵심 통찰력은 광고 문구 작성이라는 작업이 측정 가능한 정량적 목표, 즉 광고의 클릭률(CTR) 과 명확하게 연관될 수 있다는 점입니다. 이러한 설정은 온라인 광고뿐만 아니라 전자상거래, AI 고객 지원 에이전트, 교육 기술 등 구체적인 성과 지표가 존재하는 모든 분야에 적용될 수 있습니다. 저자들은 RLHF의 지표 기반 확장이라고 할 수 있는 다음과 같은 일반적인 접근 방식을 제안합니다.
CTR 기반 성과 보상 모델을 훈련하는 방법은 다음과 같습니다. 텍스트 생성 제품이 출시되기 전에도 광고주들은 메타의 "다중 텍스트 최적화" 도구를 사용하여 단일 광고에 대해 여러 (사람이 작성한) 텍스트 변형을 테스트하는 관행이 있었습니다. 이러한 관행 덕분에 텍스트를 제외한 광고의 모든 다른 요소(이미지, 제목, 타겟팅 기준 등)는 일정하게 유지되는 과거 광고 데이터를 관찰할 수 있었습니다. 이를 다중 텍스트(multitext) 데이터라고 합니다.
다중 텍스트 데이터로부터 클릭률이 높은 텍스트를 "더 선호하는" 것으로, 클릭률이 낮은 텍스트를 "덜 선호하는" 것으로 표시하는 선호도 쌍을 구성할 수 있습니다. 이는 표준 브래들리-테리(Bradley-Terry) 선호도 기반 보상 모델 훈련 접근 방식을 지원하는 쌍대(pairwise) 데이터셋이라고 합니다. 또한, 각 행이 단순히 광고 텍스트와 그 결과 클릭률인 점대점(pointwise) 데이터셋을 통해 더 단순한 보상 모델링 접근 방식을 고려했지만, 점대점 보상 모델은 유사한 광고 텍스트 간의 순서(또는 순위)를 식별하는 능력이 떨어지는 것으로 나타났습니다. 이는 순수한 CTR 예측보다 궁극적으로 더 중요합니다. 최종 RM 훈련 데이터셋에는 약 7백만 개의 선호도 쌍이 포함되었습니다.
훈련된 보상 모델을 바탕으로, LLM을 고성능 광고 텍스트와 정렬하기 위해 근접 정책 최적화(PPO) 알고리즘을 사용했습니다. 모델이 너무 긴 광고 텍스트를 생성하는 경향을 상쇄하기 위해 길이 페널티를 추가했습니다.
저자들은 RLPF 기술을 사용하여 모방 LLM v2를 개선했고, 이 모델을 AdLlama라고 명명했습니다. AdLlama는 7B Llama 2 Chat 모델을 기반으로 하며, 훈련 방식(RLPF vs. SFT)과 훈련 데이터(과거 광고 성과 vs. 큐레이팅된 예시)에서 기존 모방 모델과 차이가 있습니다.
그림 4: AdLlama와 모방 LLM v2의 비교. AdLlama는 RLPF와 과거 광고 성과 데이터로 추가 학습된 반면, 모방 LLM v2는 큐레이팅된 예시로만 SFT 학습되었습니다.
저자들은 RLPF 훈련이 광고주 성과에 미치는 영향을 평가하기 위해 AdLlama 모델과 모방 LLM v2를 비교하는 대규모 A/B 테스트(무작위 대조 시험)를 수행했습니다. 이 A/B 테스트는 2024년 2월 16일부터 2024년 4월 25일까지 10주 동안 미국의 광고주 N=34,849명을 대상으로 진행되었습니다. 광고주 수준에서 무작위로 할당하여, 각 광고주는 (1) 모방 LLM v2("대조군") 또는 (2) RLPF로 훈련된 AdLlama LLM("실험군") 중 하나를 사용하도록 했습니다.
그림 5: A/B 테스트 타임라인. 2023년 11월 23일 모방 LLM v1 출시 후, 2024년 2월 16일부터 4월 25일까지 10주간 A/B 테스트가 진행되었습니다.
주요 초점은 광고주의 투자 수익률 개선 방안을 이해하기 위한 광고주 수준 성과였습니다. 특히, 다음 지표들을 중심으로 분석했습니다.
이 모든 지표는 10주간의 실험 기간 동안 페이스북 모바일 피드에서 광고주 수준으로 집계되었습니다. 또한, 광고주의 사전 실험 평생 CTR, 신규 광고주 여부, 초기 텍스트 생성 기능 출시 이후 광고 생성 행동(2023년 11월~2024년 2월) 등 다양한 광고주 공변량(covariates)도 기록했습니다. 이러한 공변량은 광고주의 업종, 전문성 수준, 예산 수준, 비즈니스 계정 상태, 계정 연령 등을 포함했습니다. 분석 결과, 두 그룹 간에 통계적으로 유의미한 불균형은 관찰되지 않아 샘플 특성이 균형을 이루고 있음을 보여주었습니다.
저자들은 AdLlama와 모방 LLM v2가 광고주 수준의 클릭률(CTR)에 미치는 영향을 평가하기 위해 로그-이항 회귀 모델을 사용했습니다. 이 모델은 클릭률 모델링에 적합하며, 로그 연결 함수를 사용하여 CTR의 비율로 직접 해석할 수 있는 상대적 위험을 도출합니다.
주요 회귀 분석 결과는 다음과 같습니다.
이러한 결과의 견고성을 검증하기 위해 여러 견고성 검사를 수행했습니다.
저자들은 AdLlama와 모방 LLM v2가 광고주의 텍스트 생성 제품 사용에 미치는 영향에도 관심을 가졌습니다. 두 가지 결과, 즉 실험 기간 동안 생성된 광고 변형 수와 광고 수를 고려했습니다.
동일한 공변량을 사용한 선형 회귀 분석 결과는 다음과 같습니다.
이는 광고주들이 AdLlama에서 제안하는 텍스트 생성 제품의 제안을 모방 LLM v2에 비해 더 기꺼이 사용했음을 시사합니다.
이 연구는 성과 피드백을 통한 강화 학습(RLPF)이 LLM을 훈련하여 광고주와 사용자 모두에게 효과적인 광고 문구를 생성할 수 있음을 보여줍니다. 메타의 텍스트 생성 제품에 대한 대규모 A/B 테스트 결과, RLPF 기반 모델이 광고주 수준의 클릭률(CTR)을 크게 증가시켰고, 광고주들이 기꺼이 사용하는 광고 텍스트 변형의 수도 늘어났습니다. 이러한 결과는 인간 평가자의 선호도 피드백이나 규칙 기반 보상에만 의존하는 대신, 실제 세계의 집계된 성과 지표에 파인튜닝 프로세스를 고정하는 개념을 지지합니다.
저자들은 연구의 몇 가지 한계점을 인정합니다.
이 연구 결과는 LLM의 영향력을 이해하는 데 기여합니다. 온라인 광고에서 RL 기반 사후 학습의 이점을 정량화함으로써, 이러한 모델이 관련 성과 지표를 활용하여 실제 비즈니스에 영향을 미칠 수 있는 잠재력을 강조하는 구체적인 데이터를 제공합니다. 더욱 매력적인 광고 콘텐츠를 생성하는 능력은 기존 광고주의 투자 수익률을 개선할 뿐만 아니라, 광범위한 마케팅 전문 지식과 자원의 필요성을 줄여 신규 및 비숙련 광고주(예: 소규모 기업)의 진입 장벽을 낮출 수 있습니다.
이 방법론은 온라인 광고에만 국한되지 않습니다. RLPF의 원리는 집계된 성과 지표를 사용할 수 있는 다른 분야에도 적용될 수 있습니다. 성과 데이터를 피드백 메커니즘으로 사용함으로써, 조직은 LLM을 파인튜닝하여 원하는 결과를 최적화할 수 있습니다. 예를 들어, 핵심 방법론은 개인화된 이메일 캠페인이나 전자상거래 제품 설명과 같이 밀접하게 관련된 설정으로 쉽게 확장될 수 있습니다. RLPF는 해결률, 만족도 점수 또는 사용자 응답 시간과 같은 지표를 사용하여 AI 고객 지원 에이전트와 같이 여러 라운드의 대화형 피드백이 있는 설정으로도 확장될 수 있습니다.
덜 명확한 설정에서도 RLPF가 적용될 수 있습니다. 예를 들어, 온라인 학습 플랫폼에서는 학생 성과 데이터(시험 점수 및 참여 지표)가 적응형 학습 콘텐츠 생성을 안내할 수 있으며, 특정 공공 인식 캠페인(예: 백신 접종, 에너지 소비)에서는 성과 데이터가 LLM이 의도된 대상에게 더 잘 공감할 수 있도록 커뮤니케이션 자료를 다시 작성하는 데 도움이 될 수 있습니다.
이 연구는 집계된 성과 피드백으로 보강된 RL의 잠재력을 입증하는 첫걸음에 불과합니다. 저자들은 이것이 고성능 언어 모델과 실질적인 결과 사이의 간극을 메울 수 있는 유망하고 일반화 가능한 접근 방식이라고 믿습니다.
메타의 이번 연구는 RLPF(Reinforcement Learning with Performance Feedback) 가 단순히 이론적인 개념을 넘어 실제 비즈니스 환경에서 대규모 언어 모델(LLM)의 성능을 혁신적으로 개선할 수 있음을 명확하게 보여주었습니다. 광고 문구 생성에 AdLlama를 도입함으로써 달성된 6.7%의 CTR 증가와 광고주들의 18.5% 높은 광고 변형 채택률은 강화 학습이 비즈니스 목표와 직접적으로 연동될 때 얼마나 강력한 도구가 될 수 있는지를 입증합니다.
이 연구는 생성형 AI가 단순한 콘텐츠 생성을 넘어 측정 가능한 비즈니스 가치를 창출하는 데 핵심적인 역할을 할 수 있음을 시사합니다. 특히, 온라인 광고와 같이 명확한 성과 지표가 존재하는 분야에서 RLPF는 기존의 인간 피드백 기반 모델의 한계를 넘어설 수 있는 강력한 대안을 제시합니다.
물론, 오프라인 학습의 한계나 다중 목표 최적화의 필요성 등 앞으로 해결해야 할 과제들도 남아있습니다. 하지만 이번 연구는 RLPF가 다양한 산업 분야에서 LLM의 잠재력을 최대한 발휘하고, 궁극적으로 기업의 투자 수익률을 높이는 데 기여할 수 있는 새로운 성공 방정식이 될 수 있음을 시사합니다. 앞으로 RLPF의 온라인 적용과 다중 목표 최적화를 통한 발전이 기대됩니다.