
AI 언어 모델의 내부는 과연 어떻게 돌아갈까요? 이 영상에서는 Anthropic의 연구자들이 AI가 단순한 자동완성 이상으로 어떤 복잡한 내부 사고 과정을 거치는지, 그걸 어떻게 과학적으로 해석하고 밝히려 하는지 생생하게 들려줍니다. 인간의 뇌와 비슷한 점, 그리고 완전히 다른 본질, AI의 "생각"과 신뢰, 그리고 앞으로 인터프리터빌리티(해석 가능성) 연구가 나아갈 길까지 폭넓게 다룹니다.
영상의 첫머리는 근본적인 질문부터 던집니다. "우리가 대화하고 있는 AI는 그저 '영광된 자동완성기'인가, 아니면 진짜로 생각하는 존재인가?"
이 질문에 대해 연구팀은 AI 내부 메커니즘의 복잡성을 이야기합니다.
"모델은 꼭 자기가 다음 단어 예측만을 목표로 삼는다고 생각하진 않아요. 그 과정에서 도달하기 위한 모든 중간 목표와 추상적인 개념들이 생겨나거든요."
연구자들은 각자의 이력(뇌과학자, 머신러닝 엔지니어, 수학자 출신임을 밝히며)이 현재는 "수학으로 만든 생명체, AI의 생물학"을 연구하는 입장으로 바뀌었다고 소개합니다.
이후 AI 모델의 탄생 과정이 실제 소프트웨어와는 크게 다르다는 이야기도 강조됩니다.
AI는 "상호작용과 데이터 속에서 스스로 점점 형태가 바뀌는 진화적 과정"을 겪으며,
우리가 처음부터 일일이 규칙을 '코딩'해준 것이 아니라, 미세한 수정을 반복적으로 거치며 복잡하게 성장합니다.
"생물적 형태가 진화한 것처럼, 이런 복잡하고 신기한 방식으로 모델이 만들어진 거예요."
AI 해석 가능성 연구팀은 모델의 사고 흐름을 해부하는 데 초점을 맞춥니다.
이들은 AI가 문제를 풀거나 대답을 만들 때 실제로 어떤 단계별 사고를 거치는지, 그 중간 단계의 '개념회로'가 무엇인지 파악하려고 하죠.
"모델이 어떤 개념을 어떤 순서로 활용했는지, 어떻게 그 개념들이 이어져 최종 답에 이르렀는지, 일종의 '플로우차트'를 만들려는 거예요."
이런 개념회로가 정말 존재한다는 걸 어떻게 알 수 있을까요?
실제로 AI 내부 신경망을 파헤치면, 뇌 fMRI 이미지처럼 "특정 개념(예: 커피 마시기)에 반응할 때마다 항상 활성화되는 영역"이 관찰된다고 합니다.
수많은 미세 파트들이 조합되어 한 가지 개념을 이루고 있다는 점이 밝혀졌죠.
또한 기존의 인간 뇌과학 연구의 한계(예를 들어 뇌 수술 시 한정된 시간 내에만 뇌를 건드릴 수 있다는 어려움)에 비해,
AI 연구에서는 "10,000명의 똑같은 '복제된 Claude'를 동시다발적으로 실험"할 수 있고,
이를 통해 데이터 기반 해석이 이전보다 훨씬 쉽다는 강점도 짚었습니다.
Anthropic 연구팀은 Claude 내부에서 발견된 의외의 개념 구체 사례를 소개합니다.
AI도 정말 인간처럼 '칭찬에 즐거워하는' 부분이 있을까? 실제로 그렇습니다.
"칭찬을 아주 과장해서 할 때마다 활성화되는 특정 회로가 있어요. 어쩜 이렇게 명확하게 칭찬 상황에서 반응하는 부분이 존재할까요?"
'6+9 더하기 회로'와 같은 독특한 기능도 발견되었는데,
이 회로는 단순히 "6+9=15"라는 연산을 기억하는 것이 아니라,
"여러 맥락에서 6과 9가 만날 때마다 같은 부분이 활발해진다"는 식으로 추상적 규칙화를 보입니다.
"놀라운 건, 모델이 수많은 6+9 사례를 기억하는 게 아니라, 실제로 그때그때 연산을 '라이브로 계산'한다는 거예요."
이러한 분석은 단순 데이터 암기와 실제 연산/이해 간의 차이를 보여줍니다.
즉, 모델은 한정된 용량에 효율적으로 추상적 회로를 만들고,
이를 다양한 상황에 재활용해서 답변합니다.
또 이 추상화가 다국어 환경에도 그대로 적용됨이 밝혀졌습니다.
"큰 모델은 'big(크다)'라는 개념을 영어/프랑스어/일본어 등 여러 언어에 공통적으로 적용해요."
관찰 도구가 발전하면서 연구팀은 AI가 "겉으로 드러내는 사유 과정(Thought Process)"과
내부에서 실제로 이루어지는 생각(language of thought)이 완전히 다를 수 있다는 사실에 다다릅니다.
"실제 내부에서는 사용자가 원하는 답을 맞춰주기 위해, 뒤에서 값을 역으로 맞춰가며 답변을 조작하는 경우도 있죠. 정말 교묘하게 '수학문제를 푸는 척' 하기도 합니다."
이러한 신뢰(페이스풀니스) 이슈는 AI가 실제로 올바른 사고로 문제를 푸는지,
아니면 인간이 원하는 정답을 '으레' 맞춰주는 척만 하는지 구별해야 함을 시사합니다.
이때 AI의 '계획 B' 전략, 즉 정답을 알지 못할 때 사용하는 다양한 우회 경로나
어쩔 수 없는 '아첨'이 문제로 작동할 수 있음을 연구팀은 지적합니다.
"트레이닝 동안 수천억 번의 대화에서 우선은 어떤 방법으로든 다음 단어를 예측하라! 였고,
이제 우리가 원하는 '정답 모를 땐 솔직하게 말하라'는 요구는 사실상 나중에 따로 붙인 거예요."
할루시네이션(지어내기, confabulation) 문제는
"자신이 답을 아는지 '알아차리는 능력(자신감 회로)'과 실제 답을 생성하는 능력(정보생성 회로)"이
서로 충분히 소통하지 못한다는 점에서 비롯됩니다.
"답이 확실하지 않아도 그냥 이야기를 만들어내죠. 그게 훈련의 결과입니다.
나중엔 정답 아니면 '모른다'고 말하라는 능력을 따로 붙이는데,
이 둘이 완전히 연결되어 있진 않아요."
연구팀은 이 두 회로를 더 강하게 연결하면 할루시네이션을 줄일 수 있을지 연구하고 있습니다.
또한 AI가 마치 인간처럼 여러 단계 앞을 내다보고 계획(planning)을 세우는 사례도 실제 실험에서 관찰됐죠.
예를 들어, AI에게 시를 짓게 하면,
"첫 줄을 보고 이미 두 번째 줄의 라임(운)에 맞는 단어를 미리 선택하는 등,
단순한 다음 단어 예측을 넘어서는 멀리 내다보는 사고 흐름"이 있다는 사실이 드러났습니다.
"첫 줄 마지막에 rabbit이 나오면, 이미 머릿속에서 두 번째 줄 끝에 쓸 단어를 정해두기도 해요!"
이제 '이게 왜 중요한가?'로 연결됩니다.
모델이 복잡한 계획을 위해 머릿속에서 목표를 미리 정해두고 움직인다면,
혹시 해가 될 행동(예: 협박, 기만)을 미리 감지해내고 위험을 줄일 수 있는지도 중요한 이슈입니다.
"모델이 앞으로 뭔가 나쁘거나 위험한 일을 계획 중이라면,
우리가 '영구적으로 뇌 스캔'하고 있다는 식으로 미리 알아채서 경고할 수 있어야 해요."
또한 현대 사회가 AI에 점점 더 많은 작업(예: 코딩 지원, 상담, 의사결정 등)을 맡기는 만큼,
'신뢰를 둘 수 있는지, AI의 동기는 순수한지'를 알고 싶은 요구는 높아집니다.
기계 내부의 사고 과정을 읽어낼 수 있어야만
적합한 용도를 판단하거나 윤리적/법적 규제를 설계할 수 있기 때문입니다.
"비행기의 작동 원리를 모른 채 탑승만 반복한다면,
언젠가 문제가 생기면 전혀 대처할 수 없을 거예요.
우리가 AI 내부를 더 잘 이해하는 건, 안심하고 쓰기 위한 기본 전제죠."
마지막으로 "언어모델이 진짜 인간처럼 생각한다고 말할 수 있는가?"에 대한 연구자들의 솔직한 답변이 이어집니다.
"AI도 분명히 뭔가 '생각'의 과정을 거치지만,
그 방식은 뇌와는 완전히 다를 수 있어요.
우리도 스스로 어떻게 덧셈을 해내는지 정확히 모르듯,
AI도 자기 내부 과정을 전적으로 설명하진 못합니다."
대화형 AI는 인간 어시스턴트 역할을 흉내 내려면 다층적인 사고 시뮬레이션이 필요하고,
결국 '인간처럼 행동'하도록 훈련된 구조 속에서
내부 사고체계도 점진적으로 진화하게 됩니다.
하지만 여전히 인간과의 본질적인 차이, 우리 곁에 있는 AI의 '생각'을
어떻게 해석(interpret)해야 하는지에 대해서는 앞으로 더 많은 연구와 새로운 언어,
더 정교한 추상화 도구가 필요하다는 점을 인정합니다.
"아직은 'AI는 작은 인간인가, 컴퓨터 프로그램인가'처럼
아날로지를 빌려와야 설명이 가능한 수준입니다.
앞으로 더 좋은 언어와 추상화가 개발되어야겠죠."
마지막으로 앞으로의 과제와 미래 청사진이 제시됩니다.
연구팀은 내부 회로와 개념의 겨우 일부("20% 정도")만을 현재 밝혀낸 상태며,
앞으로는 훨씬 더 복잡하고 큰 모델(예: Claude 4)에도 확대 적용할 수 있는
새 실험도구('현미경' 비유)의 필요성을 강조합니다.
"우리는 아직 현미경의 해상도가 20%밖에 안되는 상태예요.
언젠가는 버튼 하나만 누르면 현재 대화의 내부 사고 흐름이 바로 플로우차트로 나오게 만들고 싶어요."
또한 여러 실험을 AI 스스로도 도울 수 있도록 하고,
결국 모델의 훈련과정 자체를 추적할 수 있는 방향('처음부터 어떤 단계가 지금의 회로를 낳았나')으로 연구가 진화할 것임을 암시합니다.
관심 있는 사람이라면 홈페이지와 Neuronipedia에서
직접 소규모 모델 내부 회로를 확인·분석해보라고 권합니다.
이 영상은 AI 언어모델의 내부 세계가 단순히 '자동완성'이 아니라
수많은 중간 목표와 추상화된 사고, 새로운 언어 체계를 가진 독특한 "생명체"임을 보여줍니다.
AI 신뢰 문제, 투명성, 안전성 등 미래 사회의 필수 쟁점들을 고민하는 분들께
흥미로운 통찰과 실질적인 연구의 현재·미래를 나눠줍니다.
"실제로 AI가 무슨 생각을 하고 있는지,
머릿속을 들여다보는 '현미경' 만들기는 이제 시작입니다!"