
요약:
네이버 HyperCLOVA의 김성현이 새로운 호스트로 합류하며, 빅테크가 집중하는 '추론과 에이전트의 시대'를 탐색합니다. AI 프론티어의 핵심 이슈와 당면 과제, 그리고 기술 발전의 불확실성을 심층적으로 분석합니다. 마지막으로, 힌튼의 'The Fog of Progress' 개념을 통해 앞으로 1~2년 안에 우리가 맞닥뜨릴 수도 있는 AI의 미래 변화를 통찰합니다.
이날 방송에서 네이버 HyperCLOVA 김성현이 새로운 진행자로 참여합니다. 기존의 진행자인 체스터 로와 최승준은 김성현에 대해 "새로운 논문이나 리포트가 나오면, 내가 읽기 전에 먼저 이 분이 SNS에 요약한 것을 본다"며 그 내공을 높게 평가했죠. 이런 기대와 함께 오늘의 주제가 시작됩니다.
"실제로 프런티어에서 무슨 일이 일어나고 있는지 아는 것은 매우 중요합니다. 완벽하게 진실일 필요는 없더라도, 그 방향성을 짚는 것이 의미 있습니다."
김성현은 오늘 이야기의 마지막에서 언급될 'The Fog of Progress'란 힌튼(Geoffrey Hinton)의 강연 용어를 소개하며, 이 이야기를 통해 점차 AI 프론티어 이슈를 차근차근 풀겠다고 말합니다.
작년 한 해를 뜨겁게 달궜던 Q*와 Strawberry 논란을 예로 들어, 프런티어의 이슈를 외부에서 추측하는 게 얼마나 어려운지 짚어봅니다.
"Q*와 Strawberry의 정체를 두고 온갖 추측이 난무했지만, 진실은 프런티어 내부자들만 알 수 있었습니다."
"심지어 AI 업계 사람들도 거의 다 틀렸어요. 결국 맞는 방향을 제시한 건 Denny Zhou처럼 프런티어에 아주 가까운 소수였죠."
이 과정에서 일반인과 외부 전문가의 '추측'이 실제론 많이 빗나가더라도 문제의 방향성만 제대로 잡으면 의미 있다는 교훈을 강조합니다.
현재 AI 업계에서 가장 뜨거운 화두는 '추론(reasoning)'과 '에이전트(agent)'입니다.
"요즘 빅테크가 중요하게 여기는 문제는 거의 자명합니다. 대부분이 '추론'과 '에이전트'에 집중하고 있어요."
과거에는 멀티모달리티(여러 형태의 데이터—예: 텍스트·이미지·영상 동시 처리)가 AGI(범용 인공지능)에 필수라는 인식이 강했지만, 최근엔 이를 잠시 뒤로 미뤄두고, 텍스트 기반 reasoning과 에이전트 구축에 올인하는 분위기입니다. 거대한 회사만이 영상·이미지를 다루고, 나머지는 텍스트 기반 문제 해결에 추력을 집중합니다.
"텍스트 자체가 지능에 가장 가까운 데이터이므로, 웹 텍스트에서 사전학습을 하면 수많은 태스크를 한 번에 배울 수 있습니다."
텍스트와 이미지의 본질적 차이도 강조됩니다. 이미지는 인간이 상징적으로 바라보는 경향이 강하지만, 실제 자연 이미지는 훨씬 복잡합니다. 반면 텍스트는 인간의 의도가 자연스럽게 스며들어 있고, 학습만 잘 시키면 인간에 잘 맞는 지능을 곧바로 구축하는 데 유리합니다.
AI 발전의 흐름에 대해 김성현은, 야오순위(Yao Shunyu)의 '전반전과 후반전' 이론을 인용해 설명합니다.
"이제는 '방법의 시대'가 끝나고 '평가의 시대'가 시작되었습니다. 평가 가능하면, 결국 어떤 문제든 해결할 수 있다고 보는 거죠."
과거엔 문제는 정해져 있고(예: 분류, 감정 예측 등) 어떻게 풀까에 집중했으나, 이제는 평가 자체를 새롭게 만들어내는 작업이 더 중요합니다. 이로 인해, 최근 OpenAI 등은 "벤치마크만 있으면 뭐든 풀 수 있다"는 자신감까지 보입니다.
하지만, Goodhart의 법칙처럼 "지표가 목표가 되면 지표만 올리기 위한 꼼수가 생기는" 문제, 즉 '평가 해킹(benchmark hacking)'의 위험도 매우 크다고 지적합니다.
본격적으로 환경 스케일링(environment scaling), 즉 RL(강화학습) 기반의 다양한 '환경'(gym)을 모델에 제공하는 트렌드를 내밀하게 설명합니다.
"요즘은 RL 체육관을 만든다는 스타트업들이 늘어났고, 빅테크와 협업해 환경을 공급하기도 합니다."
이런 환경은 단순 코드 문제풀이 외에도, 실제로 웹 개발·업무 자동화 등 실제 세계와 닮은 가상 공간을 만들어 코딩 실력을 기른다든가 하는 현실적 문제 해결로 진화 중입니다.
하지만 이 모든 환경을 하나하나 일일이 만들려면 천문학적인 인건비와 자원이 든다는 게 큰 고민거리입니다.
"Math Olympiad 수상자, STEM 박사들까지 데려다 데이터 라벨링을 시키고, 시급이 100불 넘게 나갑니다."
이에 대안으로 환경을 LLM이 알아서 합성하는 방법(예: Kimi K2, 알리바바 논문 등)도 시도되지만, 실제로 중요한 문제를 닥치면 결국은 사람이 직접 환경을 만드는 게 현실임을 솔직히 털어놓습니다.
정답이 여러 개인 열린 질문(open-ended question)이나 평가 기준이 애매한 문제를 다루기 위해 '루브릭(rubric)'이 강조됩니다.
"이제는 응답이 갖춰야 할 자질, 즉 '루브릭'(정확성, 창의성 등)을 기준별로 평가합니다."
이 '루브릭'을 바탕으로 모델이 자기 답변을 스스로 고치거나 재작성(rephrase·rewrite)할 수 있도록 피드백하는 방식이 퍼지고 있습니다.
특히 보상모델(reward model)을 reasoning 모델로 삼아 평가를 자동화하기 시작한 것이 큰 변화입니다.
"생성과 검증의 간극을 넘어, 검증이 쉬워지면 그 기준에 맞는 답변 생성능력을 증진할 수 있습니다."
에이전트가 더 복잡하고 긴 문제(예: ICPC 5시간 연속 프로그래밍)도 풀 수 있게 되면서, "컨텍스트 관리의 한계, 롱컨텍스트 문제"가 새 주요 이슈가 되었습니다.
"모델이 실제로 몇 시간 동안 생각해 문제를 푼다면, 그 안에서 사용되는 토큰, 문맥관리는 엄청난 도전입니다."
"컨텍스트 엔지니어링이란 개념까지 등장했죠. 대량의 정보(회사문서, 구전지식 등)를 모델이 잘 활용할 수 있을지가 에이전트 성능과 직결됩니다."
모델 크기가 커지고 reasoning 성능이 향상될수록 이 문제도 다소 호전되는 사례가 있지만, 여전히 어려운 영역으로 남아있습니다.
김성현은 최근 중국·미국 AI 프런티어 연구자들의 콘텐츠를 인용하며 앞으로 AI 발전에 있어 반드시 풀어야 할 6가지 핵심 과제들을 제시합니다.
"인간은 KPI만 보고 살지 않죠. 정보 탐색, 실험, 자기 동기 등이 인간 학습의 본질입니다."
"프로그래밍을 넘어서 Office 프로그램 전체를 만들려면, 하나의 에이전트가 아닌 여러 에이전트 협동 구조가 필요합니다."
마지막으로, 힌튼의 'The Fog of Progress(진보의 안개)' 비유를 들어 AI 발전의 '예측 가능 시간'이 얼마나 짧아졌는지를 강조합니다.
"불과 십수 년 전만 해도, 5~10년 앞은 예측할 수 있었고, 30년도 긴 미래였습니다. 하지만 이제는, 단 1~2년이 멀게 느껴질 만큼 예측 자체가 거의 불가능해졌죠. 짧게는 3~6개월 뒤까지만 파악할 수 있습니다."
"실제 프런티어 내부자들도 고작 6개월 정도 앞서 있을 뿐, 그 이상은 결국 모두가 안개 속에서 헤매는 상황입니다."
즉, 당분간은 환경 스케일링 등 지금 방식이 계속될 것이 확실해 보이나, 1~2년 뒤엔 완전히 새로운 AI 패러다임이 등장할 수도 있음을 경고합니다.
이런 불확실성은 특히 스타트업과 개인에게 무엇을 의미할까요?
"지금 만든 제품, 지금 투자하는 아이디어가 1~2년 뒤엔 전혀 의미 없어질 수도 있습니다. 그러나 오늘 하루라도 자신만의 '사과나무'를 심으라는 태도가 옳다고 생각합니다."
AI의 발전경쟁이 격화되면서, 하나의 혁신이 산업과 노동, 비즈니스 모델의 판을 갈아엎을 수도 있다는 덧붙임도 남깁니다.
새로운 호스트 김성현의 참여로 한층 깊어진 토론은, AI 프런티어의 흐름과 핵심 과제, 그리고 커지는 불확실성을 생생하게 다뤘습니다. 지금의 혁신을 따라잡기 위해 문제의 '방향성'을 파악하는 것이 중요하며, 내적 동기로 움직이는 에이전트, 롱컨텍스트, 멀티에이전트 등 수많은 난제가 우리 앞에 놓여있음을 다시금 확인할 수 있었습니다.
"방향만 맞게 파면, 방법이 조금 틀리더라도 그 과정은 충분히 의미 있었습니다."
앞으로 몇 년간 AI가 어디까지 진화할지, 모두가 '안개 속'에서 서로의 불빛을 더듬어가는 시대에 서 있음을 환기하며 방송은 마무리됩니다. 🚀