AI 지능의 수학적 법칙: 오차 역전파(Back Propagation)의 원리와 Llama 3.2 적용

인공지능의 근본 법칙, 오차 역전파의 재발견

1970년대 폴 워보스가 발견한 오차 역전파(Back Propagation)는 현대 AI의 뉴턴 역학과 같은 근본 법칙임. 초기에는 마빈 민스키 등 거물 학자들에게 복잡한 것을 배울 수 없다는 비판을 받았으나, 80년대 자율 주행, 90년대 필기 인식, 2010년대 이미지 분류를 거쳐 현재 Llama 3.2와 같은 거대 언어 모델(LLM) 학습의 중추가 됨.

모델 학습의 시각적 이해

Llama 3.2 모델은 입력 텍스트가 주어지면 다음 토큰을 예측하며, 오차 역전파는 모델의 12억 개 파라미터를 수정하여 정답에 대한 확신을 높임. 이 과정은 단순히 수치를 조정하는 것이 아니라, 모델 내부의 주의 집중(Attention) 패턴을 수정하여 문맥상 중요한 단어에 더 집중하게 만드는 과정임.

수학적 접근: 단순 모델에서 LLM까지

복잡한 LLM의 원리를 이해하기 위해 GPS 좌표로 도시를 예측하는 단순 모델을 활용함.

선형 모델: 각 뉴런은 $y = mx + b$ 형태의 단순 선형 결합으로 작동함.
Softmax와 손실 함수: 출력값을 확률로 변환하고, 정답과의 차이를 교차 엔트로피 손실로 측정함.
연쇄 법칙(Chain Rule): 미분을 통해 각 파라미터가 손실에 미치는 영향을 계산하며, 복잡한 계산식은 결국 예측값과 실제값의 차이( $\hat{y} - y$ )라는 단순한 형태로 귀결됨.

확장성과 고차원 공간의 기하학

오차 역전파는 단순한 평면 구분에서 시작해, 벨기에와 네덜란드의 복잡한 국경선 같은 비선형 문제까지 해결할 수 있음. LLM에서도 수천 차원의 벡터 공간 내에서 유사한 개념(예: 파리 조약, 미국의 파리인 등)을 클러스터링하며 언어의 구조를 스스로 재구성함.

인공지능의 근본 법칙, 오차 역전파의 재발견

모델 학습의 시각적 이해

수학적 접근: 단순 모델에서 LLM까지

확장성과 고차원 공간의 기하학

검열관 메모 (0)

시리즈: How Models Learn (Welch Labs)