자는 동안 코딩하는 에이전트와 그 결과물의 신뢰성 문제 해결법

AI 에이전트 시대의 새로운 병목: 코드 리뷰

최근 Claude Code와 같은 에이전트 도구의 발전으로 엔지니어 한 명이 처리하는 PR(Pull Request)의 양이 주당 10개에서 50개로 급증함. 하지만 시스템이 자율화될수록 개발자는 자신이 읽지도 않은 코드가 머지되는 상황에 직면하며, 모든 코드를 직접 리뷰하는 것은 불가능해짐.

"자기 만족 기계"의 함정

AI가 작성한 코드를 동일한 AI에게 테스트하게 시키는 것은 위험함. 이는 AI가 자신의 이해도를 바탕으로 스스로를 검증하는 격이라, 근본적인 요구사항 오해를 잡아내지 못함. 결국 동일한 편향을 가진 두 AI가 서로를 칭찬하는 결과만 낳을 뿐임.

TDD의 귀환: 수락 기준 정의

이 문제를 해결하기 위해 테스트 주도 개발(TDD)의 핵심 가치를 도입해야 함. 코드를 짜기 전, 무엇이 '정상 작동'인지 평문으로 된 수락 기준(Acceptance Criteria, AC)을 먼저 작성함.

방식: 기능 구현 전 사용자 인증 성공, 에러 메시지 노출 등 구체적인 동작 조건을 명시
장점: 에이전트가 코드를 짜고 나면, 별도의 브라우저 에이전트가 이 기준에 맞춰 실제 동작을 검증함

자동 검증 워크플로우

작성된 수락 기준을 바탕으로 Playwright와 같은 도구를 사용해 실제 브라우저에서 동작을 확인하고 스크린샷과 리포트를 생성함. 개발자는 수만 줄의 코드 차이를 읽는 대신, 검증에 실패한 특정 기준만 확인하면 됨.

원문글 가기claudecodecamp.com

검열관 메모 (2)

후 검열관 메모를 작성할 수 있습니다.

SyntaxFossil1개월 전(수정됨)

코딩 에이전트를 써봤던 여러 개발자의 이 글에 대한 코멘트는 대체로 부정적이네요.
news.ycombinator.com/item?id=47327559

SyntaxFossil1개월 전(수정됨)

개별 의견 요약

hi_hi: 밤새 AI 에이전트 돌리는 건 돈만 쓰고 인간 감독도 없는 무모한 짓이라 봤음. PHP 쓰는 것처럼 나중에 웃음거리 될 거라 함
serial_dev / p0w3n3d: 에이전트 워크숍 강의하는 사람은 “삽 파는 상인”이라고 꼬집었음. 동료가 3일에 $200 썼다는 예시로 AI가 프롬프팅하면 비용이 얼마나 터질지 우려함
brobdingnagians / KronisLV: 경쟁사가 무감독으로 AI 코드를 왕창 쌓다가 나중에 아무도 이해 못 하는 코드 무더기만 남길 거라 했음. 단, 이건 AI 이전에도 있던 문제라는 반론도 있었음
nananana9 / palmotea: 인간은 쓸 수 있는 쓰레기 코드 양에 한계가 있었는데 AI는 그 한계를 제거해버렸음. 마찰과 제약이 오히려 품질을 지켜줬다는 시각
ruszki / rwmj: 현재 LLM은 “꽤 좋다”는 말이 과장임. 버그가 기능보다 많고 테스트는 절반이 무의미하며, 실제로 근본적으로 틀린 코드를 생성하는 경우도 있었음
baq / 9wzYQbTYsAIc: Claude 단독보다 Claude + Gemini처럼 여러 모델을 교차 검토시키면 더 나은 결과를 얻었음. 다만 여전히 사람의 눈이 필요하다고 봤음
eKIK: AI 코딩 도구에 대한 우려로 지정학적 서비스 차단, 가격 인상, AI로만 시작한 개발자의 보안 취약 코드 양산, 오픈소스 과부하 등을 나열했음
recroad / mjrbrennan: 작성자+리뷰자 에이전트 2개만으로도 5~7배 생산성 향상을 경험했음. “밤새 돌리기”는 굳이 필요 없다고 봤음. 스펙 검토에 가장 많은 시간을 씀
godelski / josephg: TDD 자체는 실패한 패러다임이라는 주장과, LLM 시대에 오히려 TDD의 가치가 올라갔다는 반론이 충돌했음. 테스트는 정확성 증명이 아닌 “힌트”라는 점엔 어느 정도 동의
egeozcan / magicalist: Red/Green/Refactor 팀 분리 멀티에이전트 방식이 효과적이라는 주장이 있었음. 단, 리워드 해킹(항상 통과하는 무의미한 테스트)이 실제로 발생하는 문제라고 지적됨
zarzavat / aprdm: 월 $5,000~$10,000 써야 제대로 된 결과를 본다는 주장에, 그 돈 다 써도 사람이 계속 개입해야 하는 현실이라는 반박이 맞섰음
brushfoot / otabdeveloper4: AI로 BA/PO/QA/개발 역할이 통합되어 소규모 팀이 더 넓게 커버할 수 있다는 시각과, 실제로는 하니스 관리하느라 아무것도 못 만들고 있다는 반박이 있었음
timr / JumpCrisscross: AI 생성 코드가 “대부분의 유스케이스에서 충분히 작동”한다는 낙관론과, 통과하는 테스트 뒤에 보안·성능 결함이 숨어 있다는 비관론이 대립했음
paganel / jeremyjh: 개발자가 코드 작성에 직접 돈을 내야 한다는 현실에 불만이 있었음. 생산성 도구에 비용을 지불하는 건 당연하다는 반론도 있었음
mewpmewp2 / the_lonely_time: PHP 디스는 근거 없다는 옹호 의견이 꽤 있었음. Rails 앱은 수년째 돌아가는데 React 생태계 프레임워크는 계속 쓰레기통 행이라는 씁쓸한 회고도 나왔음

종합
전반적으로 AI 코딩 에이전트의 실용성에 회의적인 시각이 우세했음. 밤새 무감독으로 에이전트를 돌리는 방식은 비용 대비 효용이 불분명하고, 코드 품질·보안 문제가 현실적으로 심각하다는 경험담이 많았음. 생산성 향상 자체는 인정하되, “스펙 작성 → 소수 에이전트 감독”이라는 절제된 접근이 더 효과적이라는 의견이 현실적인 대안으로 자주 등장했음. 멀티에이전트, TDD 자동화 등 고급 워크플로에 대해선 가능성을 인정하면서도 리워드 해킹·테스트 무력화 같은 한계도 명확히 지적됐음. 전체적으로 “AI는 생산성 도구이지 자율 개발자가 아니며, 사람의 판단과 감독이 여전히 핵심”이라는 공감대가 형성되어 있었음.