
이 강연은 앤트로픽의 공동 창업자 재러드 카플란이 AI 모델의 발전과 미래에 대해 설명하는 내용입니다. 그는 AI 모델의 두 가지 핵심 훈련 단계인 사전 학습(Pre-training)과 강화 학습(Reinforcement Learning)에서의 스케일링 법칙이 어떻게 AI 성능 향상을 이끌고 있는지 강조합니다. 또한, 인간 수준 AI(Human-Level AI)에 도달하기 위해 필요한 추가적인 요소들과 AI의 미래 활용 방안에 대한 통찰을 공유합니다.
재러드 카플란은 약 6년 전부터 AI 분야에 뛰어들었지만, 그전까지는 이론 물리학자로서 오랜 경력을 쌓았습니다. 그는 어린 시절 공상 과학 소설 작가였던 어머니의 영향으로 물리학을 시작했고, 우주의 작동 방식과 결정론, 자유 의지 같은 근본적인 질문에 깊은 관심을 가졌다고 합니다.
물리학 분야에서 입자 물리학, 우주론, 끈 이론 등 다양한 주제를 넘나들었지만, 충분한 진전을 느끼지 못해 점차 흥미를 잃었다고 고백합니다. 그러던 중 친구들이 AI의 중요성을 강조하기 시작했고, 처음에는 회의적이었지만 결국 AI 분야에 매료되어 앤트로픽의 공동 창업자들과 함께 일하게 되었다고 합니다. 그는 이 모든 과정이 "운이 좋게도 적절한 사람들을 알게 되었고, 나머지는 역사가 되었다"고 표현하며, 자신의 AI 여정을 간략하게 소개했습니다.
카플란은 현대 AI 모델, 예를 들어 클로드(Claude)나 챗GPT(ChatGPT)와 같은 모델의 훈련 과정을 크게 두 가지 단계로 설명합니다.
첫 번째 단계는 사전 학습(Pre-training)입니다. 이 단계에서 AI 모델은 인간이 작성한 방대한 양의 텍스트 데이터를 모방하고, 그 데이터에 내재된 상관관계를 이해하도록 훈련됩니다. 그는 2005년에서 2009년 학창 시절에는 SVM(Support Vector Machine) 같은 기술만 알았지만, 이제는 모델이 특정 단어 뒤에 어떤 단어가 올 가능성이 높은지 학습한다고 설명합니다. 초기 GPT-3 모델의 플레이그라운드 예시를 들며, "저널 클럽에서 발표자로서, 여러분은 아마도 코끼리(elephant)가 특정 말을 하도록 저를 유도할 것입니다"라는 문장에서 '코끼리'라는 단어가 나올 확률이 매우 낮다는 것을 모델이 학습하는 방식이라고 비유했습니다. 최근에는 텍스트뿐만 아니라 멀티모달 데이터까지 활용하여 모델이 더 넓은 범위의 정보를 이해하도록 훈련한다고 덧붙였습니다.
두 번째 단계는 강화 학습(Reinforcement Learning)입니다. 이 단계에서는 모델이 유용한 작업을 수행하도록 학습합니다. 카플란은 2022년 초창기 클로드 모델(클로드 제로 또는 클로드 마이너스 원)의 인터페이스를 예시로 들며, 사용자들이 클로드의 여러 응답 중 더 나은 것을 선택하면, 그 선택을 통해 모델이 유용하고, 정직하며, 무해한(helpful, honest, and harmless) 행동을 강화하고 나쁜 행동은 억제하도록 최적화된다고 설명했습니다.
결론적으로, AI 모델 훈련은 "다음 단어를 예측하는 것을 배우고, 유용한 작업을 수행하도록 강화 학습을 하는 것"이 전부라고 요약합니다. 놀랍게도 이 두 훈련 단계 모두에서 스케일링 법칙(Scaling Laws)이 발견되었다고 강조합니다.
카플란은 5~6년 전 자신들이 만든 그래프를 보여주며, AI의 사전 학습 단계를 확장할수록 모델 성능이 예측 가능하게 향상된다는 것을 발견했다고 말합니다. 물리학자로서 "가장 멍청한 질문"을 던지는 훈련을 받았기에, "데이터는 얼마나 커야 하는가? 얼마나 중요한가? 얼마나 도움이 되는가?"와 같은 질문을 던졌다고 합니다. 또한, 더 큰 AI 모델이 더 나은 성능을 보인다는 사실에 주목하여 "얼마나 더 나은가?"를 질문했다고 합니다.
그 결과, AI 훈련에 매우 정밀하고 놀라운 무언가가 깔려 있다는 것을 발견했습니다.
"이것은 우리를 정말 놀라게 했습니다. 물리학이나 천문학에서 볼 수 있는 어떤 것만큼이나 정밀한 멋진 경향들이 있다는 것을요."
이러한 발견은 AI가 매우 예측 가능한 방식으로 계속해서 똑똑해질 것이라는 강한 확신을 주었습니다. 2019년 당시 이미 컴퓨팅 자원, 데이터셋 크기, 신경망 크기 등 여러 면에서 수많은 자릿수(many many many orders of magnitude)에 걸쳐 이러한 경향이 나타났기 때문에, 앞으로도 오랫동안 이 법칙이 유효할 것이라고 예상했습니다.
강화 학습 단계에서도 스케일링 법칙이 나타난다는 사실은 4년 전 한 연구자가 알파고(AlphaGo)와 헥스(Hex)라는 보드 게임을 통해 발견했습니다. 엘로(ELO) 점수(체스 등급)를 사용하여 모델의 성능을 측정했는데, 훈련을 거듭할수록 성능이 직선적으로 향상되는 것을 확인했습니다. 카플란은 이러한 단순한 경향을 알아차리는 것이 과학의 기술이라고 말하며, 이 스케일링 행동이 충분히 빨리 주목받지 못했지만 결국 현실이 되었다고 언급합니다.
결론적으로, 컴퓨팅 자원을 사전 학습과 강화 학습 모두에 확장하면 점점 더 나은 성능을 얻을 수 있으며, 이것이 AI 발전의 근본적인 동력이라고 강조합니다.
"AI 연구자들이 정말 똑똑해졌거나 갑자기 똑똑해진 것이 아닙니다. AI를 체계적으로 더 좋게 만드는 매우 간단한 방법을 찾았고, 우리는 그 방법을 계속해서 돌리고 있는 것입니다."
카플란은 AI 능력을 두 가지 축으로 설명합니다.
덜 흥미롭지만 여전히 중요한 축은 AI의 유연성입니다. 이는 AI가 우리에게 맞춰줄 수 있는 능력, 즉 다양한 양식(modality)을 다룰 수 있는 능력을 의미합니다. 알파고를 예로 들면, 아무리 똑똑해도 바둑판이라는 제한된 우주에서만 작동할 수 있었습니다. 하지만 대규모 언어 모델의 등장 이후, AI는 인간이 다룰 수 있는 거의 모든 양식(텍스트, 이미지, 음성 등)을 처리할 수 있게 되었습니다. 그는 AI 모델이 아직 후각은 없지만, 그것도 곧 가능해질 것이라고 농담처럼 말합니다. Y축을 따라 올라갈수록 AI 시스템은 세상에서 더 많은 관련성 있는 일을 할 수 있게 됩니다.
더 흥미로운 축은 작업 시간입니다. 이는 AI 모델이 수행할 수 있는 작업에 사람이 걸리는 시간을 의미합니다. AI의 능력이 증가함에 따라 이 시간은 꾸준히 늘어나고 있습니다. 미터(Meter)라는 조직의 연구에 따르면, AI 모델이 수행할 수 있는 작업의 길이는 대략 7개월마다 두 배로 늘어나고 있다고 합니다.
이는 사전 학습과 강화 학습을 위한 컴퓨팅 스케일링을 통해 AI에 내재된 지능이 증가하면서, AI 모델이 점점 더 길고 복잡한 작업을 예측 가능하게 수행할 수 있게 된다는 것을 의미합니다. 카플란은 이러한 추세가 어디로 향할지 추측하며, AI 2027 보고서에 따르면 향후 몇 년 안에 AI 모델이 몇 분, 몇 시간뿐만 아니라 며칠, 몇 주, 몇 달, 심지어 몇 년이 걸리는 작업까지 수행할 수 있는 지점에 도달할 수 있다고 말합니다. 궁극적으로는 수백만 개의 AI 모델이 함께 작동하여 인간 조직 전체가 하는 일이나 전체 과학 커뮤니티가 현재 하는 일을 수행할 수 있을 것이라고 상상합니다.
"수학이나 이론 물리학의 좋은 점 중 하나는 생각만으로도 진전을 이룰 수 있다는 것입니다. 그래서 AI 시스템이 함께 작동하여 이론 물리학 커뮤니티가 50년 동안 이룰 진전을 며칠, 몇 주 만에 이룰 수 있다고 상상할 수 있습니다."
카플란은 스케일링만으로도 AI가 매우 멀리 갈 수 있지만, 인간 수준 AI를 광범위하게 구현하기 위해 필요한 몇 가지 추가적인 요소들이 있다고 말합니다.
카플란은 AI의 미래와 가능성에 대비하기 위한 몇 가지 조언을 제시합니다.
강연 후 이어진 대담에서 다이애나는 최근 출시된 클로드 4(Claude 4)가 앞으로 12개월 동안 어떤 변화를 가져올지 질문합니다. 카플란은 12개월 안에 더 나은 모델이 나오지 않으면 문제가 될 것이라고 농담하며, 클로드 4의 주요 개선 사항을 설명합니다.
그는 스케일링 법칙이 점진적인 발전을 보여준다고 강조하며, 클로드가 각 릴리스마다 다양한 방식으로 꾸준히 개선될 것이라고 말합니다. 궁극적으로 스케일링은 인간 수준 AI 또는 AGI(General Artificial Intelligence)를 향한 부드러운 곡선을 시사한다고 덧붙입니다.
다이애나는 클로드 4의 새로운 API 중 가장 기대되는 기능이 무엇인지 묻자, 카플란은 기억(memory)을 통해 더 긴 작업 시간(longer horizon tasks)을 가능하게 하는 것이라고 답합니다. 그는 시간이 지남에 따라 클로드가 점점 더 큰 작업 단위를 맡을 수 있는 협력자(collaborator)가 될 것이라고 예상합니다.
현재 AI는 소프트웨어 엔지니어링 작업에서 몇 시간 단위의 작업을 수행할 수 있는 수준이라고 합니다. 카플란은 AI 회의론자들이 AI가 "멍청한 실수"를 많이 한다고 지적하는 것이 옳다고 인정하면서도, AI의 지능 형태가 인간과 다르다고 설명합니다. 인간은 자신이 할 수 없는 일이라도 그것이 올바르게 수행되었는지 판단할 수 있지만, AI는 판단 능력과 생성 능력이 훨씬 더 가깝다고 말합니다. 따라서 AI와 상호작용하는 데 있어 인간의 주요 역할은 관리자로서 작업의 건전성을 확인(sanity check)하는 것이라고 제안합니다.
YC(Y Combinator)의 최근 배치에서 많은 스타트업들이 AI를 "코파일럿(co-pilot)"으로 판매하며 인간의 최종 승인을 필요로 했지만, 최근에는 AI 모델이 작업을 처음부터 끝까지(end to end) 수행할 수 있게 되면서 전체 워크플로우를 직접 대체하는 제품들이 등장하고 있다고 합니다.
카플란은 AI가 70~80%의 정확도로도 충분한 작업에 활용될 때 가장 재미있을 것이라고 말합니다. 하지만 AI의 신뢰성도 꾸준히 향상되고 있으므로, 점점 더 많은 작업이 AI로 대체될 것이라고 봅니다. 그는 가장 진보된 작업에서는 여전히 인간의 개입(humans in the loop)이 필요하겠지만, 장기적으로는 완전히 자동화될 수 있는 작업이 늘어날 것이라고 예상합니다.
다이애나는 다리오(Dario)의 "사랑과 은혜의 기계들(Machines of Love and Grace)" 에세이를 언급하며 인간-AI 협업의 미래에 대해 더 자세히 묻습니다. 카플란은 이미 생의학 연구 분야에서 최첨단 AI 모델을 활용하여 신약 개발을 위한 흥미롭고 가치 있는 통찰을 얻는 것이 가능해지고 있다고 말합니다.
그는 지능을 깊이(depth)를 요구하는 지능과 폭넓은(breadth) 지능으로 나눕니다. 수학에서 10년 동안 하나의 정리를 증명하는 것은 깊이 있는 문제 해결이지만, 생물학, 심리학, 역사와 같이 매우 많은 정보를 광범위하게 조합하는 것이 중요한 분야도 있다고 설명합니다. AI 모델은 사전 학습 단계에서 인류 문명의 모든 지식을 흡수하기 때문에, 어떤 한 인간 전문가보다 훨씬 더 많은 것을 알고 있습니다. 따라서 AI의 이러한 광범위한 지식을 활용하여 다양한 전문 분야의 지식을 결합함으로써 통찰력을 이끌어내는 것이 큰 잠재력을 가질 것이라고 예상합니다.
"우리는 어려운 코딩 문제, 어려운 수학 문제와 같은 더 깊은 작업에서 AI를 더 잘 만들고 있지만, 어떤 한 인간 전문가도 가지지 못할 지식을 결합하는 영역에서 특히 큰 잠재력이 있다고 생각합니다."
미래가 어떻게 펼쳐질지는 예측하기 매우 어렵지만, 스케일링 법칙은 "이러한 추세는 계속될 것"이라고 말해준다고 합니다. 경제나 GDP와 같은 장기적인 추세는 미래를 예측하는 신뢰할 수 있는 지표이지만, 세부적인 구현 방식은 예측하기 어렵다고 덧붙입니다.
다이애나는 코딩 작업 외에 새로운 모델로 빌더들이 뛰어들 수 있는 "그린 필드(green field)" 영역이 어디인지 묻습니다. 카플란은 자신이 연구 배경을 가지고 있어 사업에 대해 깊이 있는 말을 할 수는 없지만, 많은 기술을 요구하고 주로 컴퓨터 앞에서 데이터와 상호작용하는 모든 작업이 잠재적인 영역이라고 말합니다.
다이애나는 카플란의 물리학자로서의 광범위한 훈련이 스케일링 법칙을 관찰하고 측정하는 데 어떻게 도움이 되었는지 질문합니다. 카플란은 물리학적 관점에서 가장 유용했던 것은 가장 큰 그림, 가장 거시적인 추세를 찾고 그것을 가능한 한 정밀하게 만드는 것이었다고 답합니다.
"저는 '학습이 기하급수적으로 수렴한다'고 말하는 정말 똑똑한 AI 연구자들을 만났던 것을 기억합니다. 저는 '정말 기하급수적인가요? 거듭제곱 법칙일 수도 있지 않나요? 이차 함수인가요? 정확히 어떻게 수렴하고 있나요?'와 같은 정말 멍청한 질문을 던지곤 했습니다."
이러한 단순한 질문이 많은 성과를 가져왔으며, 여전히 큰 추세를 가능한 한 정밀하게 만드는 데 많은 잠재력이 있다고 말합니다. 스케일링 법칙에서 "더 나은 기울기(better slope)"를 찾는 것이 궁극적인 목표인데, 이는 더 많은 컴퓨팅 자원을 투입할 때 다른 AI 개발자들보다 더 큰 이점을 얻을 수 있음을 의미합니다. 추세가 무엇인지 정확히 파악해야만 그것을 어떻게 이길 수 있는지, 얼마나 이길 수 있는지 체계적으로 알 수 있다고 강조합니다.
물리학의 특정 도구(예: 양자장 이론)를 직접 적용한 것은 아니지만, 재규격화(renormalization)나 대칭(symmetry)과 같은 물리학적 발견법이 유용했는지 묻는 질문에, 그는 AI 모델이 매우 크고 수십억, 수조 개의 매개변수를 가진다는 점을 언급합니다. 신경망을 구성하는 행렬이 매우 클 때의 근사치를 연구하는 것이 유용했으며, 이는 물리학과 수학에서 잘 알려진 근사법이라고 설명합니다.
하지만 일반적으로는 매우 순진하고 멍청한 질문을 던지는 것이 큰 도움이 된다고 다시 한번 강조합니다. AI는 현재의 형태로 10~15년밖에 되지 않은 매우 새로운 분야이며, 해석 가능성(interpretability)과 같이 가장 기본적인 질문조차 아직 답을 찾지 못했다고 말합니다. 따라서 매우 복잡한 기술을 적용하기보다는 이러한 기본적인 수준에서 배울 것이 많다고 봅니다.
AI 모델의 해석 가능성에 물리학 도구를 적용하는지에 대한 질문에는, 해석 가능성은 물리학보다는 생물학이나 신경과학에 더 가깝다고 답합니다. 뇌의 특징을 이해하려는 것과 비슷하지만, AI는 뇌와 달리 모든 뉴런과 시냅스의 활동을 측정할 수 있어 역공학(reverse engineering)을 위한 훨씬 더 많은 데이터를 제공한다는 이점이 있다고 설명합니다.
다이애나는 스케일링 법칙이 5개 이상의 자릿수에 걸쳐 유지되었다는 점을 언급하며, 이 곡선이 변화하고 있다는 어떤 경험적 신호가 카플란을 설득할 것인지 묻습니다. 카플란은 이것이 정말 어려운 질문이라고 말하며, 자신은 주로 스케일링 법칙을 AI 훈련이 제대로 작동하는지 진단하는 데 사용한다고 답합니다.
"일단 어떤 것을 보고 그것이 매우 설득력 있는 추세라는 것을 알게 되면, 그것이 어디에서 실패하는지 살펴보는 것이 매우 흥미로워집니다. 하지만 제 첫 번째 생각은 스케일링 법칙이 실패한다면, 그것은 우리가 AI 훈련을 어떤 식으로든 망쳤기 때문일 것이라는 것입니다."
그는 지난 5년간 스케일링이 깨진 것처럼 보였던 수많은 경우에, 실제로는 자신들이 잘못하고 있었기 때문이었다고 말합니다. 따라서 스케일링이 더 이상 이러한 경험적 법칙 수준에서 작동하지 않는다는 것을 자신을 설득하려면 많은 증거가 필요할 것이라고 강조합니다.
컴퓨팅 자원이 점점 더 희소해지는 상황에서, FP4나 삼진법 표현(ternary representations)과 같은 더 낮은 정밀도를 탐색할 것인지에 대한 질문에, 카플란은 현재 AI가 매우 비효율적이라고 인정합니다. 최첨단 모델을 개발하는 데 큰 가치가 있기 때문에, 앤트로픽과 같은 회사들은 AI 훈련과 추론(inference) 효율성을 높이는 동시에 최첨단 기능을 개발하는 데 최대한 빠르게 움직이고 있다고 말합니다.
시간이 지남에 따라 AI가 더욱 널리 보급되면서 추론 및 훈련 비용이 극적으로 낮아질 것이라고 예상합니다. 현재는 알고리즘적으로나 컴퓨팅 스케일링, 추론 효율성 면에서 매년 3배에서 10배의 이득을 보고 있다고 합니다. 그는 "농담 삼아 컴퓨터가 다시 이진법으로 돌아갈 것"이라고 말하며, 추론 효율성을 높이기 위한 여러 방법 중 하나로 훨씬 낮은 정밀도를 보게 될 것이라고 예상합니다.
현재 AI 개발은 매우 불균형한(out of equilibrium) 상태에 있으며, AI는 매우 빠르게 개선되고 있고, 현재 모델의 잠재력조차 완전히 실현되지 않은 상태에서 더 많은 기능이 개발되고 있다고 설명합니다. AI가 더 이상 빠르게 변하지 않는 "균형 상태"가 되면 AI는 극도로 저렴해질 것이라고 예상하지만, AI가 너무 빨리 발전하여 지능 향상이 훨씬 더 많은 가치를 창출한다면, FP2와 같은 낮은 정밀도에 집중하기보다는 지능 향상에 계속 집중할 수도 있다고 말합니다.
다이애나는 이것이 제본스의 역설(Jevons paradox)과 같다고 지적합니다. 지능이 향상될수록 사람들이 그것을 더 원하게 되어 비용이 낮아지지 않는다는 역설입니다. 카플란은 이에 동의하며, AI 시스템이 점점 더 유능해지고 우리가 하는 일의 더 많은 부분을 수행할 수 있게 되면, 최첨단 기능에 비용을 지불할 가치가 있을 것이라고 말합니다.
그는 "모든 가치가 최첨단에 있는가, 아니면 덜 유능하지만 더 저렴한 시스템에도 많은 가치가 있는가?"라는 질문을 항상 가지고 있었다고 합니다. 작업 시간 그림이 이에 대한 한 가지 생각 방식일 수 있다고 말하며, 매우 간단하고 작은 작업을 많이 할 수 있지만, 인간이 훨씬 더 멍청한 모델을 조율하여 작업을 매우 작은 조각으로 나누고 다시 합치는 것보다 매우 복잡한 작업을 처음부터 끝까지 수행할 수 있는 AI 모델을 사용하는 것이 훨씬 더 편리하다고 봅니다. 따라서 대부분의 가치는 가장 유능한 모델에서 나올 것이라고 예상하지만, AI 통합자들의 효율적인 AI 활용 능력에 따라 달라질 수도 있다고 덧붙입니다.
다이애나는 청중이 대부분 경력 초기에 있는 젊은이들이라는 점을 언급하며, 미래에 모델이 너무나 훌륭해질 때 어떻게 관련성을 유지하고 좋은 일을 계속할 수 있을지에 대한 조언을 구합니다. 카플란은 앞서 언급했듯이, 모델이 어떻게 작동하는지 이해하고, 그것들을 효율적으로 활용하며 통합하는 능력에 큰 가치가 있다고 다시 한번 강조합니다. 또한 최첨단에서 무언가를 구축하는 것에도 큰 가치가 있다고 말하며 강연을 마무리합니다.
재러드 카플란의 강연은 AI 발전의 핵심 동력인 스케일링 법칙에 대한 깊이 있는 통찰을 제공했습니다. 물리학자로서의 배경을 바탕으로 AI 모델의 훈련 과정에서 발견된 예측 가능한 성능 향상 추세를 설명하며, AI가 인간 수준의 지능에 도달할 수 있다는 강력한 확신을 보여주었습니다.
그는 AI가 단순히 똑똑해지는 것을 넘어, 조직 지식, 기억, 그리고 미묘한 감독 능력을 갖추고 다양한 복잡한 작업을 수행할 수 있도록 발전해야 한다고 강조했습니다. 또한, 미래의 빌더들에게는 아직 완벽하지 않은 아이디어에 도전하고, AI를 활용하여 AI를 통합하며, AI 채택이 빠르게 일어날 수 있는 새로운 "그린 필드"를 탐색할 것을 조언했습니다.
클로드 4의 출시와 함께 AI는 더욱 유능한 협력자로 진화하고 있으며, 인간과 AI의 협업은 더욱 심화될 것입니다. 카플란은 AI가 인간 전문가의 깊이 있는 지식과 더불어 광범위한 지식을 통합하는 능력을 통해 새로운 과학적 발견과 혁신을 이끌어낼 것이라고 기대합니다. AI의 미래는 예측하기 어렵지만, 스케일링 법칙이 제시하는 꾸준한 발전 곡선은 우리가 상상하는 것 이상의 가능성을 열어줄 것임이 분명해 보입니다.