
AI 콘텐츠가 유발하는 인터넷의 악순환
'배틀그라운드'의 창시자 브렌단 그린은 최근 인터뷰에서 AI 생성 콘텐츠가 인터넷을 망치고 있다고 강력히 비판함. 그는 현재 상황을 자기 강제 급식 또는 루프라고 표현함. 거대 언어 모델(LLM)이 인터넷상의 저질 AI 생성 데이터를 스캔하고, 이를 다시 진실로 학습하면서 전체적인 정보의 질이 하락하는 현상이 발생하고 있음. 그린은 이를 두고 쓰레기의 중간 지점을 향한 경주와 같다고 평함.
지능은 규모의 문제가 아님
그린은 단순히 데이터 센터를 늘리고 연산 능력을 키운다고 해서 범용 인공지능(AGI)과 같은 진정한 지능에 도달할 수 없다고 주장함. 현재의 LLM은 다음에 올 단어를 예측하는 통계 모델일 뿐이며, 비결정론적인 특성 때문에 결과물을 신뢰하기 어렵다는 점을 지적함. 특히 답변 하단에 "팩트 체크가 필요하다"는 문구가 붙는 시스템을 어떻게 신뢰할 수 있느냐며 환각 현상(Hallucination)의 위험성을 강조함.
로컬 컴퓨팅과 도메인 특화 모델의 중요성
그는 클라우드 기반의 대규모 AI 서비스 대신 로컬 환경에서 구동되는 기술의 중요성을 강조함. 대규모 서버 기반 작업은 환경 오염과 사회적 갈등을 유발하므로, 특정 영역에 특화된 데이터를 활용한 결정론적 머신러닝 모델이 더 효율적이고 안전한 대안이 될 수 있다고 설명함.
1
검열관 메모 (2)
Brendan Greene은 배틀그라운드의 제작자로 그의 닉네임이 게임이름에 박혀 있습니다.
PLAYERUNKNOWN'S BATTLEGROUNDS (PUBG)s
"도메인 특화 머신러닝 (ML)"은 본문을 보면 여전히 LLM을 이야기 하는데 아마도 RAG 처럼 쓰겠다는 것 같습니다.
게임에서 RAG을 가지고 뭘 하려고 하는지 궁금하네요. 보험이나 금융 과 같은 도메인 처럼 QnA가 필요한 곳에서는 적극 도입하는 것 같은데 게임에서는 어떻게 활용하려는 건지궁금하네요.
보통 결정론은 Computer Science에선 좀 더 엄밀하게 정의하는데 (RAG도 엄밀한 의미에서는 비결정론), 여기서는 할루시를 상대적으로 적게 일으킨다라는 의미로 쓰인것 같습니다.
news please의 백엔드를 gemini 로 옮기면서 본건데 Google이 RAG도 SaaS로 제공하는 것 같았습니다.
cloud.google.com/use-cases/retrieval-augmented-generation
약간 별개의 이야기지만..
최근의 클로드, 제미나이, GPT모두 웹 검색 기능을 활용하는데
이것도 웹을 일종의 RAG 과 비슷한 형태로 사용한다고 볼 수 있을 것 같습니다.
덕분에 최근엔 할루시가 많이 줄어든것 같습니다.
할루시를 줄이기 위해서, 어떤 내용이 검색이 필요한가에 대해 룰 베이스와, 추론 베이스로 판단하고,
검색이 필요하다고 판단되면, 웹페이치를 서치후, 그 내용을 기반으로 텍스트를 제너레이션하는 식으로..
검색 결과에 따라 LLM의 품질이 달라지니, 이런건 아무래도 구글이 유리할것 같아요.