이 글은 Claude Opus 4.7 (1M context) 을 이용해 초안이 작성되었으며, 이후 퇴고를 거쳤습니다.


들어가며 — 1년 사이에 일어난 일#

작년 6월, 저는 에단 몰릭이 말하는 AI와의 “공동 지능"을 위한 4가지 규칙이라는 포브스 인터뷰를 번역해 올렸습니다. 와튼 스쿨의 에단 몰릭(Ethan Mollick) 교수가 자신의 책 Co-Intelligence: Living and Working with AI(2024)에서 제시한 네 가지 규칙을 설명한 인터뷰였습니다.

  1. 항상 AI를 자리에 초대하라(Always invite AI to the table)
  2. 인간이 (의사결정) 과정에 참여하라(Be the human in the loop)
  3. AI를 사람처럼 대하되, 어떤 종류의 사람인지 알려줘라(Treat AI like a person, but tell it what kind of person it is)
  4. 이것이 당신이 사용하게 될 최악의 AI라고 가정하라(Assume this is the worst AI you will ever use)

그로부터 1년 가량이 지난 2026년 5월 현재, 이 규칙들은 여전히 유효할까요? 결론부터 말씀드리면, 큰 틀에서는 맞지만 세부 작동 방식과 강조점은 상당히 바뀌었습니다. 몰릭 자신도 2026년 3월 The Shape of the Thing이라는 글에서 “우리는 AI와 함께 일하는 시대(co-intelligence)에서 AI를 관리하는 시대(managing AIs)로 넘어가고 있다"고 새 프레임을 제시했습니다.

이 글은 두 편으로 나뉩니다. Part 1에서는 네 가지 규칙 각각이 2026년 상반기 시점에서 어떻게 다시 해석되는지를 다루고, Part 2에서는 그 사이에 새로 드러난 트렌드와 문제점(agentic coding, vibe coding 의 보안 리스크, 인지 위축, 컨텍스트 엔지니어링 등)을 다룹니다.

본격적으로 들어가기 전에 1년 사이에 일어난 변화를 숫자 몇 개로 짚어 두겠습니다.

  • 에이전트 능력: 스탠퍼드 2026 AI Index Report에 따르면, 실제 컴퓨터 작업을 평가하는 OSWorld 에서 에이전트의 성공률이 12%에서 약 66%로, Terminal-Bench 에서는 20%에서 77.3%로 뛰었습니다. 사이버보안 과제 해결률은 2024년 15%에서 2026년 93%로 올라갔습니다.
  • 코딩 벤치마크: Claude Opus 4.7 이 SWE-bench Verified 에서 87.6%를 기록했습니다(DataCamp, 2026). 작년 인터뷰 시점에는 50%대가 최고 수준이었습니다.
  • 작업 길이: METR 의 “AI 에이전트를 위한 무어의 법칙” 연구는 에이전트가 자율적으로 수행 가능한 작업 길이가 약 7개월마다 두 배가 된다고 보고했고, 2024~2025년에는 그 주기가 4개월까지 짧아졌습니다.
  • 시장 점유율: JetBrains Developer Ecosystem Survey 2026 에서 Claude Code 의 사용 비율이 2025년 4월 3%에서 2026년 1월 18%로 9개월간 6배 성장했고, 10년 이상 경력자의 46%가 Claude Code 를 일상 도구로 꼽았습니다(Pragmatic Engineer, 2026).

이 숫자들이 4가지 규칙 각각에 어떤 의미인지 차례대로 살펴보겠습니다.


규칙 1: “항상 AI를 자리에 초대하라” — jagged frontier 는 어떻게 변했나#

1년 전의 핵심 주장#

몰릭은 AI의 능력이 “들쭉날쭉한 경계선(jagged frontier)“을 가진다고 했습니다. 25단어 요약은 못해도 소네트는 쓰는 시스템이 있을 때, 직접 다양한 일을 시켜 봐야 비로소 그 경계를 안다는 것이었죠. 그래서 “어떤 일을 시킬 수 있을지” 가설을 세우려면 일단 자리에 부르라는 권유였습니다.

2026년의 변화#

(1) 경계선은 펴졌습니다(smoothing). 단, 균등하지 않게.

MindStudio 분석에 따르면 지식 노동 영역에서는 들쭉날쭉함이 빠르게 줄어들고 있습니다. 문서 요약, 코드 생성, 분류 같은 작업에서는 모델 간 격차도, 작업 난이도 간 격차도 좁아졌습니다. 반면 MIT Sloan이 정리한 것처럼, 2026년의 프론티어 모델은 국제 수학 올림피아드 금메달을 따면서도 아날로그 시계를 못 읽는 수준의 비대칭을 여전히 보입니다.

원래의 들쭉날쭉함을 발견한 Dell’Acqua et al. (BCG/HBS, 2023) 연구가 2026년 3월 Organization Science 에 정식 게재되었는데, 핵심 결과는 더 또렷해졌습니다. 경계선 안에서 AI를 쓰면 작업 성과가 최대 40% 개선되지만, 경계선 밖에서 쓰면 평균 19%p 떨어졌습니다. 즉, **“잘하는 일에는 큰 도움이 되고, 못하는 일에는 큰 해가 된다”**는 비대칭은 그대로입니다.

(2) 어디가 들쭉날쭉한지는 더 비직관적이 되었습니다.

“The Jagged Frontier of AI: Inside Stanford’s 2026 AI Index Report”는 1년 사이에 가장 크게 변한 것이 “경계의 위치 자체“가 아니라 “경계가 어디에 있는지 예측하기 어려워졌다는 사실“이라고 지적합니다. 작년에는 “긴 추론 못함, 도구 사용 못함"처럼 카테고리로 묶을 수 있었지만, 지금은 같은 카테고리 안에서도 모델·프롬프트·도구 조합에 따라 결과가 크게 갈립니다.

(3) “초대"의 의미가 바뀌었습니다.

작년의 “초대"는 챗봇 창에 작업을 던져 보는 것에 가까웠습니다. 2026년의 “초대"는 에이전트에게 권한과 도구를 넘기는 것입니다. Claude Code 가 파일 시스템과 셸을 직접 다루고, OpenAI Codex 와 Google Antigravity 가 멀티 파일 리팩토링을 수행합니다(SitePoint, 2026). 더 이상 “이 작업에 쓸 만한가” 만 보지 않고, “얼마나 많은 자율성을 줘도 안전한가“를 함께 봐야 합니다.

규칙 1 의 재해석#

작년: “AI가 뭘 잘하고 뭘 못하는지는 직접 써 봐야 안다.”

2026년: “여전히 직접 써 봐야 하지만, 이제는 각 모델의 경계선이 더 자주, 더 비예측적으로 바뀐다. ‘한 번 알아낸 경계’에 의존하지 말고, 같은 작업을 새 모델로 주기적으로 재테스트해야 한다. 그리고 작업 단위가 ‘한 번 묻기’에서 ‘에이전트에게 위임하기’로 커졌기 때문에, 경계선 안에서의 +40%, 밖에서의 -19%p 격차는 더 큰 비용으로 나타난다.”


규칙 2: “인간이 과정에 참여하라” — 이제는 ‘참여’가 아니라 ‘관리’#

1년 전의 핵심 주장#

몰릭은 BCG 연구를 인용하며 “AI 가 BCG 컨설턴트의 80퍼센타일 수준에서 작동한다"고 했고, 사람은 자신이 상위 1~10% 인 영역에 집중하고 나머지를 AI에게 넘기면서 의사결정 루프에 남아 있으라고 했습니다. 표현 자체가 “human in the loop” 즉 “루프 안의 사람"이었습니다.

2026년의 변화#

(1) 루프가 너무 길어져 사람이 따라 들어갈 수 없게 되었습니다.

METR 의 연구는 2026년 시점의 프론티어 모델이 인간 전문가 기준 2시간 분량의 복잡한 작업을 수행할 수 있다고 추정합니다. Mollick 자신도 Real AI Agents and Real Work 에서 Claude Sonnet 4.5 에게 경제학 논문 한 편의 원시 데이터를 주자 추가 지시 없이 아카이브를 열고 파일을 정렬해 결과를 재현한 일화를 소개합니다. 1년 전 “프롬프트→응답→수정→응답"의 짧은 루프와는 차원이 다릅니다.

(2) 그래서 자율성을 늘리면 실패율이 폭증합니다.

OneReach.ai 의 2026 분석에 따르면 2026년 말까지 엔터프라이즈 애플리케이션의 40% 이상이 자율 AI 에이전트를 통합하지만, 장기 작업에서 완전 자율 배포의 90%가 실패합니다. 원인은 “목표 고착(objective fixation)“과 “목표 표류(goal drift)“입니다. METR 의 에이전트 성공률 반감기 연구는 작업 시간이 두 배가 될 때 실패율이 네 배가 된다고 보고합니다.

(3) 규제도 이 방향을 강제합니다.

EU AI Act 의 핵심 조항인 Article 14 가 2026년 8월 2일자로 발효되면서, 고위험 AI 시스템은 인간이 효과적으로 감독할 수 있는 인터페이스를 갖추도록 의무화되었습니다(Strata.io 분석, 2026). 1년 전에는 권고였던 것이 이제는 법적 요건입니다.

(4) 그리고 몰릭 자신이 프레임을 바꿨습니다.

“Management as AI Superpower” 에서 몰릭은 이렇게 말합니다.

AI에게 지시하는 법을 알아내는 것은 본질적으로 경영(management)을 재발명하는 것이다.

즉, 더 이상 “루프 안에 머무르라"가 아니라 “좋은 매니저가 되라“입니다. 채용·위임·평가·피드백·인사관리의 사고가 그대로 AI 운영에 옮겨가야 한다는 것입니다.

규칙 2 의 재해석#

작년: “AI 가 80퍼센타일 정도 하니, 당신이 잘하는 일에 집중하고 의사결정 루프에 남아 있어라.”

2026년: “AI 가 1~2시간짜리 작업을 자율 수행하기 시작했기 때문에, 루프 안에 머무를 수가 없다. 대신 매니저처럼 일하라. 목표를 명확히 설정하고, 작업을 작은 검증 가능한 단위로 분해하고, 체크포인트마다 검토하고, 결과물을 평가하라. 자율성 90%는 실패율 90%다.”


규칙 3: “AI를 사람처럼 대하라” — 프롬프트 엔지니어링의 죽음과 컨텍스트 엔지니어링의 부상#

1년 전의 핵심 주장#

몰릭은 “사람한테 말하듯이 말해라. 단, 어떤 종류의 사람인지(예: IT 회사의 마케팅 매니저)를 알려줘라"고 했습니다. 그러면 결과가 좋아진다고요. 그는 자신이 “온갖 이상한 프롬프트 기법"을 쓴다고 인정하면서도, 보통 사용자에게는 간단한 역할 지정이 가장 효과적이라고 봤습니다.

2026년의 변화#

(1) “Chain-of-Thought 같은 프롬프트 트릭은 죽었다"는 진단이 흔해졌습니다.

IEEE Spectrum 의 “AI Prompt Engineering Is Dead”Dev.to 의 “Prompt Engineering Is Mostly Dead in 2026”는 같은 결론에 도달합니다. RLHF 와 후처리 학습이 알려진 프롬프트 기법들을 모델 안으로 흡수해서, “당신은 전문가입니다” 같은 트릭이 더 이상 큰 차이를 만들지 못합니다. 새 연구들은 오히려 모델이 스스로 자기 프롬프트를 생성하도록 시키는 것이 사람이 다듬는 것보다 효과적이라고 보고합니다.

(2) 대신 떠오른 것이 “컨텍스트 엔지니어링"입니다.

LangChain 의 Context Engineering for AgentsLogRocket 의 LLM Context Problem in 2026이 공통으로 강조하는 것은 다음과 같습니다.

  • 무엇을 보여줄지: 컨텍스트에 들어갈 정보를 큐레이션
  • 언제 보여줄지: 작업 단계에 맞춰 동적으로 주입
  • 얼마나 보여줄지: U자형 성능 곡선(컨텍스트 중간 정보는 무시됨)을 고려해 압축
  • 어떻게 평가할지: 컨텍스트 변경의 효과를 측정

LangChain 보고에 따르면, 컨텍스트 파이프라인을 재설계해 작업 완료율을 83%에서 96%로 끌어올린 사례가 있습니다.

(3) 그래도 “역할 지정"은 살아남았습니다 — 단 다른 층위에서.

Clarifai 의 “Agentic Prompt Engineering”는 역할 지정이 죽기는커녕 에이전트 아키텍처의 일부가 되었다고 봅니다. 멀티 에이전트 시스템에서 각 에이전트에게 페르소나·전문성·관점을 부여하는 것은 단순한 톤 조정이 아니라 작업 분배와 책임 할당의 메커니즘입니다. 몰릭이 말한 “어떤 사람인지 알려줘라"는 시스템 프롬프트, MCP 서버의 역할 메타데이터, 서브에이전트 정의로 형태를 바꿔 살아남았습니다.

규칙 3 의 재해석#

작년: “사람한테 말하듯이 말하고, 어떤 사람인지 알려줘라.”

2026년: “프롬프트의 문구를 다듬느라 시간을 쓰지 말고, 컨텍스트 파이프라인을 설계해라. 어떤 정보를, 언제, 얼마나 보여줄지가 핵심이다. 역할 지정은 여전히 유효하지만, 이제는 채팅 한 줄이 아니라 시스템 프롬프트·MCP·서브에이전트라는 아키텍처 단위로 존재한다.”


규칙 4: “이것이 당신이 사용하게 될 최악의 AI다” — 검증되었지만, 함정도 있다#

1년 전의 핵심 주장#

“오늘 쓰고 있는 모든 AI는 구식이다. 가까운 미래의 한계는 지금의 한계가 아니다.” 가장 자주 인용되는 규칙이자, 그 단순성 때문에 가장 강력한 규칙이었습니다.

2026년의 변화#

(1) 가장 확실하게 검증된 규칙입니다.

작년 6월 시점, GPT-4o 와 Claude 3.5 Sonnet 이 최상위였습니다. 2026년 5월 현재, LM Council 벤치마크에서 SWE-bench Verified 상위는 다음과 같습니다.

  • Claude Opus 4.7: 87.6%
  • GPT-5.3 Codex: 85%
  • GPT-5.4: 84%
  • Claude Sonnet 4.6: 79.6%
  • Gemini 3.1 Pro: 75%

작년 시점 최상위 모델이 약 50% 였던 것을 생각하면 1년 만에 거의 두 배입니다. METR 의 작업 시간 두 배 법칙이 4개월 주기로 더 빨라졌습니다. 미국 소비자 잉여 추정치도 1년간 1,120억 달러에서 1,720억 달러로 늘었습니다(Stanford AI Index, 2026).

(2) 그런데 몰릭 자신이 이 프레임을 약간 비틀었습니다.

The Shape of the Thing 에서 몰릭은 더 이상 단순히 “더 좋아질 것"이라고 말하지 않습니다. 그는 “굴러가는 단절(rolling disruption)” 이라는 개념을 새로 꺼냅니다. AI가 능력 임계값을 하나씩 넘을 때마다 시장·일자리·정책이 갑작스럽고 비대칭적으로 흔들린다는 것입니다. 2026년 2월 22~27일을 그 사례로 듭니다.

즉, “최악의 AI"라는 낙관적 프레임만 가지고는 부족하고, “다음에 무엇이 깨질지 모른다“는 시나리오 사고가 함께 필요합니다.

(3) 또 하나의 함정: “최악의 AI” 라는 사고방식이 단기적 검증을 게을리하게 만듭니다.

GitClear 의 211M 라인 분석 에 따르면, 2024년 들어 코드 churn(2주 내 재수정 비율)이 2020년 3.1%에서 5.7%로 증가했고, 리팩토링 비율은 2021년 25%에서 10% 미만으로 60% 감소, 코드 중복은 4배가 되었습니다. “다음 모델이 알아서 더 잘 할 거니까 지금 안 다듬어도 된다“는 태도가 기술 부채를 누적시키는 패턴이 데이터로 확인되었습니다.

규칙 4 의 재해석#

작년: “오늘 쓰는 AI는 가까운 미래에 구식이 된다.”

2026년: “여전히 사실이다. 다만 두 가지 보정이 필요하다. (a) 발전은 매끄럽지 않고 충격으로 온다. 어떤 직무·시장·코드베이스가 다음 충격에 노출될지 시나리오 사고를 하라. (b) ‘더 나은 다음 모델’이 알아서 정리해 줄 거라는 기대로 지금의 품질 점검을 미루지 마라. 기술 부채는 누적된다.”


Part 1 정리#

규칙 1년 전 강조점 2026년 강조점
1. AI를 초대하라 직접 써서 경계 파악 모델 바뀔 때마다 재테스트 + 에이전트에 권한 위임 결정
2. 인간이 루프에 의사결정 루프 안에 머물기 매니저처럼 작업 분해·위임·검증
3. 사람처럼 대하라 역할 지정 + 자연어 지시 컨텍스트 엔지니어링 + 아키텍처로서의 역할
4. 최악의 AI 더 나아질 거라는 낙관 검증되었지만 충격은 비매끄럽고, 기술 부채는 누적된다

큰 그림에서는 네 규칙이 모두 살아남았습니다. 하지만 작년 글의 어조가 “개인이 AI 와 어떻게 일할 것인가“였다면, 2026년의 어조는 “조직과 시스템이 AI 를 어떻게 운영할 것인가“에 더 가깝습니다. 채팅창 한 칸의 문제가 아니라 파이프라인·아키텍처·거버넌스의 문제로 옮겨 갔다는 뜻입니다.

Part 2 — 2026 상반기에 새로 드러난 것들에서는 이 1년 사이에 새로 떠오른 트렌드(agentic coding, vibe coding, MCP)와 새로 발견된 문제점(slopsquatting, context poisoning, 인지 위축)을 다루겠습니다.


References#