번역글: 2025년 AI 프롬프트 엔지니어링: 무엇이 효과적이고 무엇이 그렇지 않은가

원문: https://www.lennysnewsletter.com/p/ai-prompt-engineering-in-2025-sander-schulhoff (translated by Google Gemini)

이 에피소드에서 배우게 될 내용#

가장 효과적인 5가지 프롬프트 엔지니어링 기법
“역할 프롬프트(role prompting)” 및 AI 위협이 더 이상 작동하지 않는 이유 및 대신해야 할 일
두 가지 유형의 프롬프트 엔지니어링: 대화형 및 제품/시스템 프롬프트
프롬프트 인젝션 및 AI 레드 팀에 대한 입문서 - 여전히 최고 모델을 속이는 실제 탈옥(jailbreak) 전술 포함
AI 에이전트와 로봇이 다음 주요 보안 위협이 될 이유
AI 레드 팀 및 프롬프트 엔지니어링을 시작하는 방법
AI 제품에 적용할 수 있는 실용적인 방어책

몇 가지 핵심 내용#

프롬프트 엔지니어링은 여전히 매우 활발하며 그 어느 때보다 중요합니다. 오히려 기업들이 사용자 대면 기능 및 핵심 기능을 구동하기 위해 LLM에 의존함에 따라 더욱 중요해졌습니다. Sander는 프롬프트 품질이 AI 성능을 좌우할 수 있는 방법, 특히 제품 전반에 걸쳐 확장될 때의 중요성을 설명합니다.
프롬프트 엔지니어링에는 “대화형"과 “제품 중심형"이라는 두 가지 명확한 유형이 있습니다. 대부분의 사람들은 프롬프팅을 ChatGPT와 채팅하는 것으로 생각하지만, Sander는 진정한 영향력은 제품 내에서 고성능 프롬프트를 만드는 것에서 온다고 설명합니다. 이러한 프롬프트는 대규모로 사용되고, 수백만 번 실행되며, 프로덕션 코드처럼 강화되고 최적화되어야 합니다.
“Few-shot 프롬프팅"은 정확도를 0%에서 90%로 향상시킬 수 있습니다. 가장 강력한 기술 중 하나는 모델에 정확히 원하는 것의 예시를 보여주는 것입니다. 이를 few-shot 프롬프팅이라고 합니다. Sander는 이 단일 기술이 몇 가지 예시-레이블 쌍을 추가하는 것만으로 의료 코딩 사용 사례를 완전한 실패에서 거의 완벽한 결과로 바꾸어 놓았음을 공유합니다.
역할 프롬프트(예: “당신은 수학 교수입니다…")는 대부분의 사람들이 생각하는 것과 달리 대체로 비효율적입니다. Sander는 역할 프롬프트가 어조나 글쓰기 스타일에는 도움이 될 수 있지만, 정확도를 높이는 데는 거의 효과가 없음을 보여주는 연구를 분석합니다.
분해(decomposition) 및 자기 비판(self-criticism)과 같은 고급 기술은 더 나은 성능을 끌어냅니다. Sander는 모델에 먼저 문제를 하위 문제로 분해하거나(분해) 자신의 답변을 비판하도록 요청하는 것이 어떻게 더 똑똑하고 정확한 결과로 이어질 수 있는지 설명합니다. 이는 다단계 추론이 필요한 에이전트와 같은 설정에서 특히 가치가 있습니다.
컨텍스트(“추가 정보”)는 과소평가되어 있지만 엄청난 영향을 미칩니다. 모델에 더 관련성 있는 배경 정보를 제공하는 것만으로도 성능을 크게 향상시킬 수 있습니다. Sander는 특히 올바른 형식과 순서로 포함되었을 때 추가 데이터(예: 이력, 연구 논문 또는 과거 상호 작용)를 포함하는 것이 프롬프트의 성공 여부를 결정했던 사례를 공유합니다.
프롬프트 인젝션은 실제적이고 위험하며 전통적인 의미에서는 해결 불가능합니다. 우리는 공격자들이 어떻게 LLM을 “탈옥"시켜 유해하거나 제한되거나 의도치 않은 응답을 출력하도록 속이는지 살펴봅니다. 이러한 공격은 종종 “X를 하지 마시오"와 같은 전통적인 방어 수단을 우회합니다. 그리고 Sander (심지어 Sam Altman)에 따르면 만능 해결책은 없습니다.
Sander는 세계 최대 규모의 AI 레드 팀 대회인 HackAPrompt를 운영합니다. 60만 개 이상의 프롬프트가 수집되었고 OpenAI 및 Anthropic와의 지속적인 협력을 통해 Sander의 플랫폼은 실제 LLM 스트레스 테스트의 중심에 있습니다. 이는 크라우드소싱 보안과 게임 메커니즘의 독특한 조합이며, 연구소들이 AI 안전에 대해 생각하는 방식을 형성하고 있습니다.
에이전트 기반 AI 시스템은 챗봇보다 공격에 훨씬 더 취약합니다. 오늘날의 프롬프트 인젝션에 대한 우려는 시작에 불과합니다. AI 에이전트가 항공편을 예약하고, 이메일을 보내고, 심지어 인간형으로 돌아다니기 시작하면 위험은 배가됩니다. Sander는 에이전트 보안이 다음 개척지인 이유와 대부분의 팀이 준비되지 않은 이유를 공유합니다.
“할머니” 트릭, 오타, 난독화는 여전히 최첨단 모델을 무너뜨립니다. 가장 발전된 LLM조차도 놀랍도록 간단한 해킹에 속을 수 있습니다. Sander는 감정 조작(예: “할머니가 해주던 것처럼 말해줘”), 인코딩된 입력, 창의적인 문구를 포함하여 여전히 작동하는 탈옥 기술을 설명합니다.
대부분의 회사는 손상된 방어책을 사용하고 있습니다. Sander는 “프롬프트 분리"나 “악의적인 입력 무시"와 같은 문구를 추가하는 것이 왜 작동하지 않는지 분석합니다. 가드레일은 쉽게 우회되며, 현재 분류기는 인코딩된 공격을 잡아낼 지능이 부족한 경우가 많습니다. 보안의 미래는 모델 수준이어야 하며, 덧붙이는 방식이 아니어야 합니다.
위험에도 불구하고 AI의 잠재력은 엄청나며 추구할 가치가 있습니다. Sander는 보안을 중요하게 생각하지만, 종말론자는 아닙니다. 그는 우리가 책임감 있게 구축한다면 AI가 생명을 구하고(특히 의료 분야에서), 생산성을 높이며, 실제 문제를 해결할 것이라고 믿습니다. 발전을 멈추는 것이 답이 아니라, 더 스마트하고 안전한 개발이 답입니다.

Sander Schulhoff는 원조 프롬프트 엔지니어입니다. 그는 인터넷 최초의 프롬프트 엔지니어링 가이드를 만들었고(ChatGPT 출시 두 달 전), 최근에는 OpenAI, Microsoft, Google, Princeton, Stanford와 공동 저술하여 1,500개 이상의 학술 논문을 분석하고 200개 이상의 프롬프트 기법을 다룬 프롬프트 엔지니어링에 대한 가장 포괄적인 연구를 수행했습니다. 또한 그는 OpenAI와 협력하여 최초이자 최대 규모의 AI 레드 팀 대회인 HackAPrompt를 운영하고 있으며, 이는 가장 최첨단 프롬프트 인젝션 기법(즉, LLM이 하지 말아야 할 일을 하도록 만드는 방법)을 발견하는 데 도움을 줍니다. Sander는 Maven에서 AI 레드 팀을 가르치고, AI 회사에 보안 자문을 제공하며, 수백만 명에게 가장 최첨단 프롬프트 엔지니어링 기법을 교육했습니다.

p.s.: 좋은 영상/글을 알려주신 김준호님께 감사를 드립니다.