AI의 쓰라린 교훈: 인간의 지식을 넘어서는 강화학습의 힘

AI 개발의 역사적 교훈: Harpy에서 HMM으로

1970년대 ARPA의 음성 인식 프로젝트로 탄생한 'Harpy'는 인간 전문가가 설계한 방대한 지식 그래프와 문법 규칙에 의존했음. 당시에는 괄목할 성과를 냈으나, 이후 데이터에서 확률을 스스로 학습하는 '은닉 마르코프 모델(HMM)'에 자리를 내주게 됨. 이는 인간의 언어학적 지식을 직접 주입하는 것보다, 데이터와 계산 능력을 활용하는 범용적인 방법이 결국 승리한다는 것을 보여준 첫 번째 사례임.

리처드 서튼의 '쓰라린 교훈'과 LLM의 역설

컴퓨터 과학자 리처드 서튼은 2019년 '쓰라린 교훈(The Bitter Lesson)'이라는 에세이에서, 인간의 지식을 시스템에 내재화하려는 시도는 단기적으로는 도움이 되지만 장기적으로는 발전을 저해한다고 주장함. 흥미로운 점은 2025년 인터뷰에서 서튼이 현재의 거대언어모델(LLM)을 '쓰라린 교훈'의 긍정적 사례가 아닌, 인간 지식(텍스트 데이터)에 과하게 의존하는 '부정적 사례'로 평가했다는 것임.

알파고를 통해 본 지식과 경험의 차이

구글 딥마인드의 알파고(AlphaGo) 시리즈는 인간 지식의 한계를 극복하는 과정을 명확히 보여줌.

알파고: 인간 고수들의 기보를 학습(지도 학습)한 후 강화학습을 거쳐 아마추어 수준을 벗어남.
알파고 제로: 인간의 기보 없이 오직 바둑의 규칙만으로 스스로 대국하며 학습하여 초인적인 성능을 달성함. 알파고 제로는 인간이 생각하지 못한 '외계인 같은' 수를 두며, 인간 지식의 틀에 갇히지 않을 때 더 높은 수준의 지능이 발현될 수 있음을 증명함.

지식 기반 AI의 탄생과 한계: Harpy 시스템

1971년 ARPA는 1,000단어를 90% 정확도로 인식하는 음성 인식 시스템 구축을 목표로 함. 카네기 멜런 대학 팀이 개발한 Harpy는 1,011단어를 95% 정확도로 인식하며 성공을 거둠.

Harpy의 작동 원리와 구조

지식 그래프: 14,000개 이상의 노드로 구성된 거대 그래프를 사용함. 각 노드는 미국 영어의 기본 음소(Phone)를 나타냄.
언어 전문가의 개입: 전문가가 설계한 형식 문법을 통해 유효한 문장 구조를 정의함.
음소 접합 규칙(Juncture Rules): 단어와 단어가 만날 때 소리가 변하는 현상(예: 'about China'에서 't' 탈락)을 전문가가 직접 규칙으로 제작함.

리처드 서튼의 쓰라린 교훈 (The Bitter Lesson)

리처드 서튼은 70년 AI 연구의 가장 큰 교훈으로 계산 능력을 활용하는 범용적인 방법이 결국 가장 효과적이라는 점을 꼽음.

주요 논점

인간 지식 주입의 함정: 인간의 지식을 AI에 넣으려는 시도는 초기 성능 향상에는 유리하나, 계산 능력이 기하급수적으로 늘어나는 장기적 관점에서는 오히려 확장을 방해함.
범용 방법의 승리: 검색(Search)과 학습(Learning)이라는 두 가지 범용적 방법이 체스, 바둑, 음성 인식 등 모든 분야에서 인간 전문가의 규칙을 압도함.

알파고 사례 연구: 지도 학습 vs 강화학습

바둑 AI인 알파고의 발전 단계는 '쓰라린 교훈'을 실전에서 증명한 대표적인 사례임.

핵심 기술: 가치 함수와 정책 네트워크

정책 네트워크 (Policy Network): 현재 상태에서 다음에 둘 최적의 수를 예측함.
가치 함수 (Value Function): 현재 형세가 승리할 확률이 얼마나 되는지 추정함.
몬테카를로 트리 탐색 (MCTS): 위 두 네트워크를 결합하여 최적의 경로를 탐색함.

LLM의 현재와 미래: 경험의 시대로

현재의 LLM은 인간이 작성한 텍스트를 기반으로 다음 토큰을 예측하는 '지도 학습'에 가깝기 때문에 리처드 서튼은 이를 진정한 의미의 '쓰라린 교훈' 실천으로 보지 않음.

LLM의 한계와 비판

인간 지식의 종속: 5,000년 전 데이터를 학습하면 애니미즘적으로 사고하고, 300년 전 데이터를 학습하면 뉴턴 물리학 수준에 머무르게 됨.
상호작용의 부재: 실제 환경과 상호작용하며 물리 법칙이나 새로운 논리를 스스로 발견하는 과정이 부족함.

새로운 패러다임: 경험 (Experience)

서튼과 데이비드 실버는 AI가 인간의 지식을 보존하는 그릇이 아니라, 스스로 발견하는 존재가 되어야 한다고 주장함.

자기 개선 루프: AI가 스스로 수학 문제를 만들고 강화학습으로 풀이법을 찾아내는 방식 등이 대안으로 제시됨.
실제 세계 보상: 비용, 건강 지표, 이익, 에너지 소비 등 실제 세계의 보상 신호를 통해 최적화하는 에이전트로 진화할 것임.

게임 개발자를 위한 인사이트

규칙 기반 시스템의 한계 인식: 게임 AI 설계 시 모든 예외 상황을 개발자가 코드로 제어하려는 '지식 주입' 방식은 확장에 한계가 있음.
강화학습의 가능성: 알파고 제로처럼 인간의 플레이 스타일을 모방하는 대신, 승리 조건만 부여하고 스스로 전략을 찾게 함으로써 플레이어에게 '외계인과 대전하는 듯한' 신선한 경험을 제공할 수 있음.
학습 데이터의 품질과 한계: LLM 기반 NPC를 개발할 때, 인간의 텍스트 데이터만 학습하면 인간의 편향과 지식 수준에 갇히게 됨을 인지해야 함.
검색과 계산의 힘: 복잡한 규칙을 짜는 대신, MCTS와 같은 강력한 탐색 알고리즘과 계산 자원을 활용하는 설계가 더 강력한 AI를 만들 수 있음.

학습 데이터	인간 고수의 기보 (지도 학습)	데이터 없음 (강화학습만 사용)
초기 성능	인간 전문가 모방 (아마추어 수준)	무작위 수에서 시작
최종 성능	세계 최정상급 (이세돌 격파)	알파고를 압도하는 초인적 수준
플레이 스타일	인간적인 수의 연장선	인간이 이해하기 힘든 혁신적 스타일