이 글은 Claude Opus 4.8 을 이용해 초안이 작성되었으며, 이후 퇴고를 거쳤습니다.


이어가며#

Part 1은 능력의 측정값을, Part 2는 전문가들의 예측 이동을 봤습니다. 마지막 편은 가장 검증이 어려운 영역, 현실 입니다.

벤치마크 점수가 오르는 것과 그 능력이 현실에서 돈과 시간을 절약하는 것은 다른 문제입니다. 이번 편의 기준선은 하나입니다. 벤더가 발표한 숫자인가, 독립 기관이 검증한 숫자인가. 이 구분을 축으로 실전 배치·경제·노동을 보고, 회의론과 낙관론을 각각 가장 강한 형태로 세운 뒤 종합하겠습니다.


실전 배치: 매출은 폭발했고, 자율성은 여전히 감독 아래 있다#

시장은 진짜로 컸다#

코딩 에이전트 시장의 성장은 의심하기 어렵습니다.

  • Claude Code: 2025년 5월 정식 출시 후 6개월 만에 약 10억 달러 ARR(연환산 매출), 2026년 2월 기준 보도로는 약 25억 달러까지 올라왔습니다.
  • Cursor(Anysphere): 2025년 1월 1억 달러에서 2026년 2월 약 20억 달러 ARR로, 약 500억 달러 밸류에이션 협상이 보도됐습니다.
  • OpenAI Codex: 2026년 3월 기준 주간 활성 사용자 160만 명 이상.

이건 파일럿이 아니라 실제로 결제되는 매출입니다. 도구로서의 유용성은 시장이 이미 투표로 증명했습니다.

그러나 “완전 위임"은 아직 멀다#

문제는 매출이 곧 자율성을 뜻하지는 않는다는 데 있습니다. 가장 신뢰도 높은 독립 데이터는 오히려 신중론을 가리킵니다.

가장 자주 인용되는 것은 METR의 2025년 7월 무작위 대조 실험(RCT)입니다. 평균 5년 경력의 숙련 개발자 16명이 자신이 익숙한 오픈소스 저장소에서 작업했을 때, AI를 쓰면 오히려 19% 느려졌습니다. 더 놀라운 것은 그들 자신은 20% 빨라졌다고 느꼈다 는 점입니다. 체감과 실측이 정반대였습니다. METR은 2026년 2월 후속 실험에서도 “2026년 초에는 AI가 아마 도움이 되겠지만 증거는 매우 약하다"며 결론을 유보했습니다.

벤더 본인의 보고도 이 한계를 비춥니다. Anthropic의 2026년 보고에 따르면(2차 출처 교차 확인) 개발자가 업무의 약 60%에 AI를 쓰지만, 완전히 위임 가능한 과제는 0~20% 에 그칩니다. DORA의 2025년 리포트는 AI 채택이 처리량은 올리지만 배포 안정성과는 음의 상관을 보이고, 개발자의 30%가 AI 코드를 신뢰하지 않는다고 보고했습니다.

정직한 2026년의 그림은 이렇습니다. 감독 아래의 강력한 도구가 “루틴 작업의 상당 부분 위임” 단계로 넘어왔지만, 복잡한 실제 코드베이스에서 사람 없이 처음부터 끝까지 가는 자율성은 여전히 불안정합니다.


경제: 자본은 쏟아졌고, ROI는 아직 흐리다#

강세: 설비투자와 매출#

  • 4대 하이퍼스케일러(Microsoft·Google·Amazon·Meta)의 2026년 설비투자 합계는 약 7,250억 달러로 전망되며, 이는 2025년 약 4,100억 달러 대비 약 77% 증가입니다.
  • Nvidia의 2026 회계연도 4분기 매출은 약 681억 달러(전년比 +73%)였습니다.
  • 매출 런레이트는 OpenAI가 2026년 2월 기준 약 250억 달러, Anthropic이 2026년 4월 약 300억 달러(전년比 약 80배 성장 주장)로 보도됐습니다.

약세: 버블 경고와 약한 ROI#

같은 기간 반대편 데이터도 쌓였습니다.

  • MIT NANDA의 2025년 8월 보고: 기업의 생성형 AI 파일럿 중 약 95%가 측정 가능한 손익 효과를 내지 못했고, 5%만 프로덕션에 도달했다는 것입니다. (반론: 자기선택 편향과 좁은 “성공” 정의라는 비판이 있습니다.)
  • NBER의 2026년 2월 연구: 임원 약 6,000명 설문에서 70%가 AI를 쓰지만 약 90%가 측정 가능한 생산성 향상을 보지 못했습니다.
  • 순환 금융 우려: Nvidia가 OpenAI에 투자하고 OpenAI가 그 돈으로 Nvidia GPU를 사는 구조에 대한 경고가 2025년 9월 이후 반복됐고, 투자 규모는 2026년 초 축소 보도됐습니다.
  • OpenAI는 약 1.4조 달러 규모의 데이터센터 약정을 진 반면 2025년 매출은 약 130억 달러대로, 2026년 약 140억 달러 손실이 전망됐습니다.

즉, 돈은 미래의 능력을 믿고 미리 들어왔지만, 그 능력이 현재 시점의 손익으로 환산된다는 증거는 아직 약합니다. “버블이냐"는 질문은 2026년 중반에도 열려 있습니다.


회의론을, 가장 강하게#

균형을 위해 회의론을 가장 설득력 있는 형태로 세워 봅니다.

  1. 공개 점수와 제약 점수의 간극. Part 1에서 본 ARC-AGI-2가 핵심입니다. 무제한 추론 연산을 쓰는 공개 리더보드에서는 85%가 나오지만, 연산을 제약한 2025년 공식 대회에서는 24%였습니다. 인간은 이 문제들을 쉽게 풉니다. “충분한 연산을 부어야만 나오는 점수"가 일반 지능의 증거인지에는 의문이 남습니다.

  2. 추론의 취약성. Apple의 2025년 6월 논문 “The Illusion of Thinking"은 하노이 탑 같은 문제에서 복잡도가 높아지면 추론 모델의 정확도가 붕괴하고, 역설적으로 복잡도가 오를수록 추론 노력이 줄어드는 현상을 보고했습니다. (단, 이에 대해서는 “출력 토큰 상한에 막힌 것을 채점 스크립트가 오답 처리한 실험 설계 문제"라는 반박도 나왔습니다. 양쪽을 함께 봐야 합니다.)

  3. 환각의 지속. OpenAI의 o3·o4-mini 시스템 카드는 특정 평가(PersonQA)에서 추론 모델의 환각률이 오히려 더 높게 나온 사례를 보고했습니다. 한 논문은 “학습과 평가가 ‘모름’보다 ‘추측’을 보상하기 때문에 정확도는 결코 100%에 도달하지 않을 것"이라고 인정합니다.

  4. 현실의 비용. AI가 만든 가짜 법률 인용이 법원에 제출된 사례가 2026년 초 1년 전의 약 200건에서 1,600건대로 늘었고, 미 법조 사상 최대인 11만 달러 제재까지 나왔습니다. 벤치마크 점수가 곧 현실의 신뢰성은 아니라는 점을 보여주는 사례입니다.

  5. 벤치마크 오염. 데이터 오염과 “benchmaxxing”(벤치마크 점수 최적화) 우려가 커졌습니다. 263개 벤치마크에서 상당량의 테스트 데이터 유출이 검출됐다는 연구도 있습니다.


낙관론을, 가장 강하게#

이번에는 낙관론을 가장 단단한 — 그리고 가능한 한 독립 검증된 — 형태로 세웁니다.

  1. AI가 새 알고리즘을 발견했다. DeepMind의 AlphaEvolve는 2025년 5월, 4×4 복소 행렬 곱셈을 48회 곱셈으로 해내 1969년 Strassen 알고리즘(49회) 이래 56년 만에 기록을 경신했습니다. 이건 보도자료가 아니라 검증 가능한 수학적 결과 입니다.

  2. 기계 검증된 수학. 2025년 7월 IMO 금메달은 자연어 증명이었지만, Harmonic의 Aristotle는 모든 풀이를 Lean4로 자동 검증해 인간 검토 없이도 정당성이 보장됐습니다. 2026년 5월에는 80년 묵은 Erdős의 한 추측이 AI 모델이 생성한 아이디어로 반증되기도 했습니다.

  3. AI가 AI 연구를 돕는다. Anthropic은 2026년 5월 기준 자사에서 머지되는 코드의 80% 이상을 Claude가 작성한다고 밝혔습니다(자체 보고). 다만 여기에는 중요한 단서가 있습니다. METR의 RE-bench에 따르면, AI는 2시간 예산에서는 인간의 4배 성과를 내지만 8시간이면 인간이 역전하고, 32시간이면 인간이 2배 가 됩니다. 짧은 작업에 강하고 긴 작업에 약하다는 Part 1의 시간지평 이야기와 정확히 맞물립니다.

  4. 외부 평가로도 의미 있는 산출. OpenAI의 GDPval은 최상위 모델이 인간 전문가의 산출물 대비 40~49% 승률을 보이며, 약 100배 빠르고 저렴하다고 보고했습니다. (단, 100배는 순수 추론 시간 기준이며 감독·통합 비용은 빠져 있습니다.)

여기서도 정직한 단서를 답니다. 가장 인상적인 수치들—코드의 80%, 100배 효율, 16시간 시간지평—은 대체로 벤더 발표에 기댑니다. 독립적으로 단단히 검증된 것 은 행렬 곱셈 알고리즘, Lean 기계 검증 증명, IMO 공식 인증, GDPval·FrontierMath 같은 외부 평가입니다. 그리고 Erdős 추측 반증조차 1차 논문은 “AI가 핵심 아이디어를 냈고, 인간이 하루에 걸쳐 다듬고 정리해 출판했다"고 명시합니다. “AI 혼자 풀었다"는 헤드라인은 일관되게 과장이었습니다.


노동: 신입은 줄었지만, 거시 붕괴는 아직 없다#

  • 줄어든 쪽: Stanford의 2025년 11월 연구는 AI 노출이 높은 직종에서 22~25세 초기 경력자 고용이 상대적으로 약 16% 줄었다고 보고했습니다(숙련자는 무영향 또는 증가). 빅테크 신규 졸업자 채용도 2022년 대비 절반 이상 줄었습니다. Amazon·Salesforce 등은 AI를 명시적 사유로 든 감원을 발표했습니다.
  • 아직 멀쩡한 쪽: Yale Budget Lab은 2026년 2월, ChatGPT 출시 후 약 33개월 동안 거시 노동시장이 붕괴했다는 증거는 없으며 “AI-washing”(AI 핑계 감원)을 경계해야 한다고 지적했습니다. OpenAI와 Anthropic의 사용 패턴 분석도 모두 “대체보다 증강"이 우세하다는 결론입니다.
  • 반전 사례: Klarna는 AI 고객지원의 품질 저하를 인정하며 “너무 멀리 갔다"고 했고 인간을 다시 고용했습니다. Duolingo는 “AI-first” 선언 후 반발에 일부 후퇴했습니다.

종합하면, 특정 직무 레벨(신입·주니어)에서는 실측 위축이 보이지만, 경제 전체의 붕괴는 아직 나타나지 않았고, 사용 패턴은 증강 쪽이 우세 합니다.


종합: AGI는 얼마나 가까워졌나#

이제 처음의 질문으로 돌아갑니다. 2025년 6월에서 2026년 6월 사이, AGI는 얼마나 가까워졌을까요. 데이터는 세 개의 층위로 다른 답을 줍니다.

측정 가능한 능력은 가까워졌습니다. 벤치마크는 만드는 속도보다 빨리 무너졌고, 자율 작업 시간지평은 1시간에서 5시간으로 늘었으며, 닫힌 경시 문제에서는 인간 최정상을 넘었습니다. 이건 마케팅이 아니라 측정값입니다.

전문가들의 예상 시기는 양극으로 갈렸습니다. 랩 CEO들은 2026~2030년을, 연구자의 4분의 3은 “현재 방식으로는 어렵다"를 말합니다. 예측시장은 약한 AGI를 2027~2028년, 강한 AGI를 2031~2033년쯤으로 보되 1년 내내 진동했습니다. 그리고 “AGI란 무엇인가"라는 정의 자체가 갈라져, 그 질문은 부분적으로 답할 수 없는 질문이 됐습니다.

현실의 검증은 아직 따라오지 못했습니다. 매출은 폭발했지만 완전 위임은 0~20%에 머물고, 가장 엄밀한 RCT는 오히려 감속을 보였으며, 거시 경제 효과와 ROI는 흐릿합니다. 독립 검증된 진보(새 알고리즘, 기계 검증 증명, 올림피아드 인증)는 분명히 실재하지만, 가장 화려한 숫자들은 여전히 벤더 발표에 기댑니다.

그래서 정직한 한 줄 답은 이렇습니다. 좁고 검증 가능한 과제에서 AI는 1년 전보다 분명히, 그리고 빠르게 더 강해졌습니다. 그러나 그 강함이 “범용 지능"인지, 그리고 언제 그렇게 될지에 대해서는, 능력 곡선이 가팔라진 만큼이나 합의가 흐려진 1년이었습니다. 가까워진 것은 능력이고, 멀어진 것은 합의입니다.

1년 뒤 같은 자를 다시 대 볼 때, 이 두 곡선이 어디서 만날지가 다음 글의 질문이 될 것입니다.


References#