게임 디자인과 랜덤성의 수학 Part 3: 게임이론과 시뮬레이션으로 밸런스를 검증하기

이 글은 Claude Opus 4.8 을 이용해 초안이 작성되었으며, 이후 퇴고를 거쳤습니다.

1편에서 랜덤성의 역할과 실패 사례를, 2편에서 확률 분포의 수학을 다뤘습니다. 완결편인 3편에서는 무대를 옮깁니다. 지금까지의 무작위성이 “주사위” 였다면, 이번엔 상대가 있는 무작위성 — 즉 게임이론(game theory) 입니다. 그리고 그렇게 설계한 밸런스가 실제로 작동하는지 검증하는, 현대 스튜디오의 시뮬레이션 기반 검증 테크트리 를 정리합니다.

핵심 질문 두 개를 미리 던져 두겠습니다. “왜 최적의 가위바위보 플레이는 무작위화를 강제 하는가?” 그리고 “수백만 판을 사람이 할 수 없다면, 밸런스는 어떻게 검증하는가?”

1. 게임이론 기초 — 내쉬 균형, 순수 전략과 혼합 전략#

내쉬 균형(Nash equilibrium) 은 “어떤 플레이어도 혼자만 전략을 바꿔서는 이득을 볼 수 없는” 전략 조합입니다. 여기서 순수 전략(pure strategy) 은 하나의 행동을 결정론적으로 고르는 것이고, 혼합 전략(mixed strategy) 은 여러 행동에 확률을 배분하는 것입니다.

게임 디자인에 결정적인 정리가 하나 있습니다. John Nash(1950)는 유한 게임(플레이어·행동이 유한)이라면, 혼합 전략을 허용하는 한 내쉬 균형이 반드시 적어도 하나 존재한다 는 것을 증명했습니다. 어떤 게임은 순수 전략 균형이 아예 없지만(가위바위보가 대표적), 혼합 전략 균형은 늘 존재합니다.

이 “순수 전략 균형이 없다"는 성질이야말로 무작위성이 전략에 깊이를 주는 수학적 뿌리입니다. 곧바로 가위바위보로 확인해 보겠습니다.

2. 가위바위보 — 무작위화가 균형이 되는 순간#

가위바위보는 영합(zero-sum) 게임입니다. 행 플레이어의 보수를 승=+1, 패=−1, 무=0으로 두면 보수 행렬은 다음과 같습니다.

(행 \ 열)	바위	보	가위
바위	0	−1	+1
보	+1	0	−1
가위	−1	+1	0

순수 전략 균형이 없는 이유: 어떤 결정론적 선택을 하든 상대에게 그것을 이기는 결정론적 카운터가 존재합니다. 따라서 어떤 순수 조합도 안정적이지 않습니다(항상 이득이 되는 이탈이 존재).

2.1 무차별 원리로 유일 균형 유도하기#

혼합 전략 균형에서는, 내가 상대의 모든 행동을 무차별(indifferent) 하게 만들어야 합니다. 그렇지 않으면 상대는 더 나은 쪽으로 확률을 몰아 나를 착취(exploit)할 수 있기 때문입니다. 상대가 (r, p, s) (바위·보·가위, r+p+s=1)로 낸다고 할 때, 내 각 행동의 기대 보수는,

E[바위] = 0·r + (−1)·p + (+1)·s = s − p
E[보] = (+1)·r + 0·p + (−1)·s = r − s
E[가위] = (−1)·r + (+1)·p + 0·s = p − r

무차별 조건 s − p = r − s = p − r 을 r+p+s=1 과 함께 풀면 r = p = s = 1/3 이 유일 해입니다. 게임의 값(value)은 0, 즉 공정합니다.

2.2 왜 무작위화가 “강제” 되는가#

여기서 게임 디자인의 핵심 통찰이 나옵니다. 착취당하지 않는(unexploitable) 유일한 방법은 예측 불가능해지는 것 입니다. 균등분포 (1/3, 1/3, 1/3) 에서 조금이라도 벗어나는 순간, 그 편향을 감지한 상대가 카운터 혼합 전략으로 나를 상대로 양(+)의 기댓값을 법니다. 무작위화는 멋이 아니라 균형 그 자체 입니다. 이것이 격투 게임의 심리전, 카드 게임의 블러핑이 작동하는 수학적 근거입니다.

flowchart LR
    R["바위"] -->|이김| S["가위"]
    S -->|이김| P["보"]
    P -->|이김| R
    style R fill:#FFD700,color:#000000
    style P fill:#90EE90,color:#000000
    style S fill:#87CEEB,color:#000000

2.3 그런데 실제 인간은 균형대로 안 한다#

흥미롭게도 현실의 인간은 내쉬 균형대로 플레이하지 않습니다. Wang·Xu·Zhou 의 대규모 실험(360명, 300라운드 반복 가위바위보, Scientific Reports 2014)에 따르면, 사람들은 “이기면 유지, 지면 전환(win-stay, lose-shift)” 의 조건부 반응을 보이며, 그 결과 집단 수준에서 바위→보→가위→바위 의 순환적 패턴이 지속적으로 나타났습니다. 즉 사람의 플레이는 착취 가능합니다. 이론적 최적(균등 무작위)과 실제 행동의 이 간극이, 뒤에서 볼 AI 가 인간을 압도하는 지점이기도 합니다.

3. 비추이적 밸런스 — 메타게임은 거대한 가위바위보#

가위바위보의 교훈은 비대칭 경쟁 게임 설계로 일반화됩니다. 스타크래프트 2 의 종족, 격투 게임의 캐릭터 로스터, MOBA 의 픽 구성은 모든 것을 수학적으로 동등하게 만들기보다, 비추이적(intransitive) 밸런스 — A 는 B 를, B 는 C 를, C 는 A 를 이기는 순환 — 를 지향합니다. 이 순환이 단일 지배 전략의 등장을 막는 “비상 제동장치” 역할을 합니다.

하드 카운터(hard counter): 거의 결정론적인 우위(예: 공중 유닛을 확정적으로 잡는 유닛)
소프트 카운터(soft counter): 통계적·상황적 우위

게임 디자이너 David Sirlin 은 이렇게 정리합니다. 단순한 가위바위보식 카운터 시스템도 “바위·보·가위가 서로 다른 리스크/보상을 제공하는 한” 전략 게임의 훌륭한 토대가 된다고요. 깊이는 순환을 깨는 데서가 아니라 보상의 비대칭 에서 나옵니다.

4. 미니맥스 정리와 Yomi#

4.1 폰 노이만의 미니맥스 정리#

게임이론의 역사적 출발점은 폰 노이만(von Neumann, 1928)의 미니맥스 정리 입니다. 모든 유한한 2인 영합 게임에는 값 v* 가 존재 하여, 행 플레이어는 최소 v* 를 보장할 수 있고 열 플레이어는 행 플레이어를 최대 v* 로 묶을 수 있습니다(maximin = minimax). 최적 전략은 혼합 전략일 수 있습니다. 가위바위보의 값은 0이고, 이는 “공정하며 최적 플레이는 균등 무작위"임을 다시 확인해 줍니다.

4.2 Yomi — 격투 게임의 혼합 전략#

Sirlin 은 격투 게임의 심리전을 Yomi(読み, “읽기”) 라는 개념으로 정식화했습니다. 상대의 선택을 읽고, 그것을 읽은 나를 상대가 다시 읽는 — 층층이 쌓인 추측 게임은 정확히 실시간 혼합 전략 상호작용입니다. 던지기·막기·테크 같은 선택지를 무작위화하지 않으면 읽혀서 착취당하므로, “읽히지 않으려면 섞어라"는 가위바위보의 원리가 격투 게임에서 그대로 구현됩니다.

5. 포커 GTO — 가장 값비싼 혼합 전략의 응용#

혼합 전략이 수십억 원이 오가는 실전에서 어떻게 쓰이는지 보여주는 사례가 포커의 GTO(game-theory-optimal) 플레이입니다. GTO 란 균형 잡힌 핸드 레인지와 정밀한 블러핑 빈도로, 상대가 누구든 착취당하지 않는 내쉬/미니맥스 전략을 말합니다. 여기서 블러핑 빈도를 무작위화하는 것은 가위바위보에서 손을 섞는 것과 정확히 같은 원리입니다.

학술적으로 검증된 이정표들이 있습니다.

헤즈업 리밋 홀덤은 “풀렸다(solved)”: Bowling 외, “Heads-up limit hold’em poker is solved”, Science(2015). 인간이 경쟁적으로 즐기던 불완전 정보 게임 중 처음으로 (본질적으로) 해결된 사례로, CFR+ 알고리즘을 도입했습니다.
Libratus: Brown & Sandholm(CMU), 헤즈업 노리밋 홀덤에서 최상위 프로 4명을 12만 핸드에 걸쳐 제압, Science(2018).
Pluribus: 같은 연구진, 6인 노리밋 홀덤에서 초인간 수준 달성, Science(2019). 2인 영합을 벗어난 다인 게임에서의 첫 초인간 결과입니다.

포커 봇들이 보여준 것은, 무작위화된 균형 전략이 단지 이론이 아니라 계산 가능하고, 실전에서 인간을 압도한다 는 사실입니다.

6. 몬테카를로 시뮬레이션 — 밸런스를 수치로 검증하기#

이제 검증의 영역입니다. 닫힌 수식으로 풀기 어려운 복잡한 상호작용은, N 번의 무작위 시행을 돌려 표본 평균으로 추정 합니다. 추정값의 오차(표준오차)는 1/√N 으로 줄어듭니다.

SE = σ / √N

승패 같은 이항 결과(승률 p)라면 σ = √(p(1−p)) 이므로 SE = √(p(1−p)/N) 입니다.

얼마나 많이 돌려야 하나? 승률을 95% 신뢰수준에서 ±1% 오차 로 추정하려면, 반폭 1.96·SE = 0.01 을 풀어,

N = (1.96)² · p(1−p) / (0.01)²

최악(p=0.5)에서 N = 3.8416 × 0.25 / 0.0001 = 9,604 판입니다. 즉 약 9,600판 이면 승률을 ±1%로 잡습니다. 직관적으로 중요한 점은, 오차 막대를 절반으로 줄이려면 시뮬레이션을 4배 돌려야 한다는 것입니다(정밀도의 비용은 제곱으로 증가).

자주 인용되는 정정 하나. David Silver 의 “Monte-Carlo Simulation Balancing”(ICML 2009)은 제목과 달리 스튜디오가 게임 콘텐츠를 밸런싱하는 연구가 아닙니다. 여기서 “balancing"은 바둑 MCTS 의 롤아웃(시뮬레이션) 정책 을, 결과 분포가 정확해지도록 조정한다는 뜻입니다. “시뮬레이션의 파라미터를 학습해 시뮬레이션이 진실을 말하게 한다"는 개념적 뿌리로서 의미가 있을 뿐, 게임 밸런싱 사례로 오인하면 안 됩니다.

보드게임·테이블탑 디자인에서도 스프레드시트로 수백~수천 회 몬테카를로를 돌리는 것이 흔합니다. 다만 실무자들도 한결같이 경고합니다. 몬테카를로는 “전투 하나, 덱 하나” 같은 고립된 질문 에는 답하지만, 게임 전체의 재미를 밸런싱해 주지는 않으며, 결국 숙련된 플레이테스터에게 의존해야 한다고요.

7. AI 자가 대전 — 사람이 못 도는 판을 AI 가 돈다#

최근 대형 스튜디오는 사람이 수백만 판을 할 수 없는 문제를, AI 에이전트의 자가 대전(self-play) 으로 풉니다. 검증된 산업 사례들입니다.

Riot — Teamfight Tactics: GDC 2023 발표(Ran Cao). 라이브 클라이언트보다 훨씬 싼 경량 시뮬레이터 와 신경망 RL 에이전트 를 만들어, 출시 전에 조합과 경제를 대규모로 압박 테스트합니다. (널리 퍼진 “Riot 이 주당 약 400만 판을 시뮬레이션한다"는 수치는 신뢰할 만한 1차 출처가 없어 여기서는 인용하지 않습니다.)
Ubisoft — Roller Champions: 다중 에이전트 강화학습(arXiv 2012.06031). 밸런스 변경 후 1~4일 만에 에이전트를 재학습시킬 만큼 빠르며, 부수적으로 익스플로잇을 발견해 밸런싱을 돕습니다(밸런스 보조는 주목적이 아닌 보너스로 기술됨).
Square Enix — “Balancing Nightmares”: GDC 2019. 장비 조합 공간이 무려 10^100 을 넘는 게임에서, 유전 알고리즘 으로 밸런스를 깨는 조합을 탐색했습니다.

방법이 실제로 작동한다는 증거는 학계의 이정표들이 줍니다. DeepMind 의 AlphaStar(스타크래프트 2, Nature 2019)는 끊임없이 서로를 카운터하는 전략들의 리그(league) 로 자가 대전해 그랜드마스터(상위 0.2%)에 도달했는데, 이는 사실상 내부에 비추이적 메타게임을 만들어 과강한 전략을 노출시킨 셈입니다. OpenAI Five(도타 2, 2019)는 10개월의 자가 대전 끝에 e스포츠 세계 챔피언을 꺾은 첫 AI 가 되었고, AI 가 발견한 전략을 인간이 역으로 채택하기도 했습니다.

다만 한계도 분명합니다. 에이전트는 이기는 것 을 최적화하지 재미 를 최적화하지 않습니다. 초인간적이거나 기형적인 전략은 실제 플레이어에게는 도달 불가능하거나 불쾌할 수 있고, 학습·재학습 비용도 큽니다.

8. 텔레메트리와 통계 검증 — 데이터의 함정#

출시 후에는 실제 플레이 데이터(텔레메트리)로 밸런스를 본격 조율합니다. 여기엔 통계의 함정이 곳곳에 있습니다.

8.1 Slay the Spire 의 두 지표#

Slay the Spire 의 Mega Crit 은 GDC 2019 에서 핵심 지표 두 개를 공개했습니다.

제시됐을 때 선택되는 비율(pick rate) — 너무 낮으면 “사실상 게임에 없는 카드”
승리 덱에 포함된 비율 — 너무 높으면 OP

90개 넘는 그래프를 추적하되, 정량 데이터를 Discord 커뮤니티의 정성 피드백과 병행 해 “체감"을 지켰습니다.

8.2 리그 오브 레전드 챔피언 밸런스 프레임워크#

Riot 의 공식 프레임워크(2019)는 챔피언을 4개 실력 구간(Average, Skilled, Elite, Professional)으로 나누고, 어느 한 구간에서라도 상한을 넘으면 OP, 모든 구간에서 하한 아래면 약함 으로 판정합니다(어느 한 곳에서라도 억압적이면 너프, 모든 곳에서 약해야만 버프 — 의도적으로 비대칭).

흔히 퍼진 두 가지를 바로잡습니다. 첫째, 항간의 “데이터에 주도(driven) 되지 않고 데이터로 판단을 보강(informed) 한다"는 표현은 Riot 의 철학을 요약한 패러프레이즈이지, 이 공식 문서의 직접 인용구가 아닙니다. 둘째, 널리 회자되는 “45/48/52/55% 승률 컷오프"는 어림짐작(folklore)입니다. 실제 임계값은 구간별로 더 세분화되어 있고(예: Average 구간 상한 54.5% ~ 하한 49%), 특히 Elite·Professional 구간은 순수 승률이 아니라 출전·밴 비율(presence/ban rate) 로 판정합니다.

8.3 클래시 로얄과 A/B 테스트의 함정#

Supercell 의 클래시 로얄 은 카드 사용률을 ~5~15% 의 건강한 구간으로 유지하는 것을 목표로 삼습니다.

A/B 테스트에는 두 개의 큰 함정이 있습니다.

통계적 유의성 ≠ 실질적 유의성: 라이브 게임의 거대한 표본에서는 사소한 차이도 “통계적으로 유의"해집니다. 효과 크기(effect size) 를 함께 봐야 합니다.
엿보기(peeking) 문제: 테스트를 반복해서 들여다보다 p < 0.05 가 처음 뜨는 순간 멈추면, 거짓 양성률이 5%가 아니라 30%까지 치솟을 수 있습니다. 해법은 표본 크기를 사전 등록하거나 순차 검정(sequential testing)을 쓰는 것입니다. 다중 비교(multiple comparisons) 도 같은 위험을 키우므로 Bonferroni 등으로 보정합니다.

9. 종합 — 밸런싱 검증 테크트리(성숙도 사다리)#

1편에서 소개한 검증 테크트리를, 이제 각 단계가 무엇을 더해 주고 어떤 한계를 물려받는지 로 정리합니다. 이 사다리는 대체가 아니라 누적입니다.

단계	더해 주는 것	한계
1. 스프레드시트	즉각적인 닫힌 수식 점검(DPS·곡선·EV), 비용 0	상호작용·플레이어 행동을 무시
2. 몬테카를로	닫힌 식이 없을 때 수치 답(`1/√N` 수렴)	고립된 질문만, 모델이 틀리면 무의미
3. 플레이테스트	사람의 행동·재미·“체감”	표본이 작고 비싸며 재현 불가
4. 텔레메트리	수백만 실제 매치(pick·win·usage rate)	무엇 인지만 알려주고 왜 는 모름
5. A/B 테스트	인과 추론(단일 변경의 효과 분리)	엿보기·다중비교 함정, 거대 `N` 필요
6. AI 자가 대전	사람이 못 도는 전략 공간 탐색, 익스플로잇 노출	재미가 아닌 승리를 최적화, 학습 비용
7. 라이브 데이터 밸런싱	라이브 인구 대상 지속 조율	메타가 패치에 적응(움직이는 표적)

마치며 — 시리즈를 닫으며#

3부작을 단 한 문장으로 압축하면 이렇습니다. 게임의 랜덤성은 수학으로 설계하고 데이터로 검증하지만, 끝내 “느낌"은 인간만이 판단할 수 있다.

1편에서 우리는 진짜 무작위가 “조작처럼” 느껴지는 인식의 문제를 봤습니다. 2편에서는 그 인식을 다스리기 위해 기댓값을 지키고 분산을 깎는 분포의 수학을 익혔습니다. 3편에서는 상대가 있는 무작위성(게임이론)과, 그렇게 만든 밸런스를 수백만 판으로 검증하는 시뮬레이션 사다리를 올랐습니다.

그런데 사다리 꼭대기에서도 1편의 그 문제가 되돌아옵니다. 2025년 Slay the Spire 2 의 사례가 가장 선명합니다. 데이터상 합리적이었던 밸런스 변경이, 그것도 옵트인 베타에만 적용됐는데도 24시간 만에 9천 개가 넘는 부정적 리뷰를 불렀습니다(다만 이 수치에는 다른 피드백 창구가 마땅찮은 중국 플레이어 비중 같은 구조적 요인도 일부 섞여 있습니다). 수학은 “그 카드가 너무 강하다"고 말했지만, 플레이어는 “그걸 잃는 느낌이 나쁘다"고 답한 것입니다.

숫자와 데이터는 확률을 알려줄 뿐, 그것이 어떻게 느껴지는지 까지는 말해 주지 않습니다. 게임 디자인에서 랜덤성의 수학이 그토록 어렵고, 또 그만큼 매력적인 이유입니다. 좋은 디자이너는 양쪽 언어를 모두 구사합니다 — 분포와 균형의 수학, 그리고 플레이어의 마음. 이 시리즈가 그 두 언어를 잇는 작은 다리가 되었기를 바랍니다.

References#

“The Game Theory Math Behind Rock-Paper-Scissors” (Quanta) — https://www.quantamagazine.org/the-game-theory-math-behind-rock-paper-scissors-20180402/
Wang, Xu & Zhou, “Social cycling and conditional responses in the Rock-Paper-Scissors game”, Scientific Reports (2014) — https://www.nature.com/articles/srep05830
“Minimax theorem” (Wikipedia) — https://en.wikipedia.org/wiki/Minimax_theorem
David Sirlin, “Rock, Paper, Scissors in Strategy Games” — http://oldsite.sirlin.net/articles/rock-paper-scissors-in-strategy-games.html
David Sirlin, “Balancing Multiplayer Games, Part 1: Definitions” — https://www.sirlin.net/articles/balancing-multiplayer-games-part-1-definitions
David Sirlin, “Playing to Win — Spies of the Mind” — https://www.sirlin.net/ptw-book/7-spies-of-the-mind
Bowling et al., “Heads-up limit hold’em poker is solved”, Science (2015) — https://www.science.org/doi/10.1126/science.1259433
Brown & Sandholm, “Superhuman AI for heads-up no-limit poker: Libratus”, Science (2018) — https://www.science.org/doi/10.1126/science.aao1733
Brown & Sandholm, “Superhuman AI for multiplayer poker: Pluribus”, Science (2019) — https://www.science.org/doi/10.1126/science.aay2400
David Silver & Gerald Tesauro, “Monte-Carlo Simulation Balancing”, ICML 2009 — https://icml.cc/Conferences/2009/papers/500.pdf
Ran Cao, “Simulating Teamfight Tactics Using Deep Learning”, GDC 2023 — https://media.gdcvault.com/gdc2023/Slides/Simulating++Teamfight+Tactics_Cao_Ran.pdf
“Reinforcement Learning Agents for Ubisoft’s Roller Champions” (arXiv) — https://arxiv.org/abs/2012.06031
“Balancing Nightmares: An AI Approach” (GDC Vault) — https://www.gdcvault.com/play/1026365/Balancing-Nightmares-An-AI-Approach
Vinyals et al., “Grandmaster level in StarCraft II”, Nature (2019) — https://www.nature.com/articles/s41586-019-1724-z
OpenAI et al., “Dota 2 with Large Scale Deep Reinforcement Learning” (arXiv) — https://arxiv.org/abs/1912.06680
“Slay the Spire: Metrics Driven Design and Balance” (GDC Vault) — https://www.gdcvault.com/play/1025731/-Slay-the-Spire-Metrics
Riot Games, “Dev: Champion Balance Framework” — https://www.leagueoflegends.com/en-us/news/dev/dev-champion-balance-framework/
Johari et al., “Peeking at A/B Tests”, KDD 2017 — http://library.usc.edu.ph/ACM/KKD%202017/pdfs/p1517.pdf