Push Your Luck 게임 디자인 가이드 Part 2: 수학적 최적화와 게임 이론
이 글은 Claude Opus 4.6 을 이용해 초안이 작성되었으며, 이후 퇴고를 거쳤습니다.
Part 1에서 Push Your Luck 메카닉의 구조와 실제 사례를 살펴보았습니다. 이번 Part 2에서는 수학적 프레임워크를 기반으로 최적의 파라미터를 도출하고, 게임 이론을 적용하는 방안을 다룹니다.
수학적 프레임워크: 최적 중단 문제#
기본 모델 정의#
변수를 정의합니다.
- p: 매일 도전 과제의 성공 확률 (0 < p < 1)
- n: 현재 콤보 수 (연속 성공 횟수)
- R(n): 콤보 n에서 Stop했을 때 받는 리워드
- V(n): 콤보 n에서 최적 전략 을 따랐을 때의 기대값
플레이어가 콤보 n에서 내리는 결정은 다음과 같습니다.
- Stop: R(n)을 확정 수령, 내일 0콤보에서 재시작
- Go: 확률 p로 내일 콤보 n+1 도달, 확률 (1-p)로 실패하여 0콤보 + 리워드 없음
벨만 방정식(Bellman Equation)#
최적 전략의 기대값 V(n)은 다음 재귀식을 따릅니다.
V(n) = max( R(n), p · V(n+1) + (1-p) · V(0) )
여기서 V(0)은 0콤보에서 시작하는 게임 전체의 기대값 입니다. 0콤보에서는 Stop할 이유가 없으므로(리워드가 0이거나 매우 작으므로):
V(0) = p · V(1) + (1-p) · V(0)
→ V(0) = p · V(1) / (1 - (1-p)) ... (V(0)이 양쪽에 있으므로 정리 불가)
정확히는, 0콤보에서 Stop 보상이 0이라면:
V(0) = p · V(1)
이는 “내일 도전에 성공할 확률 × 1콤보의 가치"입니다.
최적 중단 지점(Optimal Stopping Point)#
플레이어가 Stop을 선택하는 것이 합리적인 최소 콤보 n* 은 다음 조건을 만족하는 지점입니다.
R(n*) ≥ p · V(n* + 1) + (1-p) · V(0)
즉, 현재 확정 보상이 계속 진행했을 때의 기대값 이상 일 때 멈추는 것이 합리적입니다.
간단한 의사결정 기준#
재귀를 단순화하면, 콤보 n에서 Go의 조건은 대략 다음과 같습니다.
p · R(n+1) > R(n)
즉, 다음 콤보 보상의 기대값이 현재 보상보다 클 때 Go가 합리적입니다. 이를 정리하면:
R(n+1) / R(n) > 1/p
보상 성장률이 1/p를 초과하면 Go, 미만이면 Stop이 유리합니다.
성공률 p는 몇 %가 적절한가#
너무 낮은 성공률 (p < 50%)#
- 2콤보 도달 확률: p² < 25%
- 3콤보 도달 확률: p³ < 12.5%
- 문제: 대부분의 플레이어가 1~2콤보에서 실패하여 좌절감이 큼
- 콤보 시스템 자체가 의미 없어짐 — 대부분 0콤보 상태
너무 높은 성공률 (p > 85%)#
- 5콤보 도달 확률: p⁵ > 44%
- 10콤보 도달 확률: p¹⁰ > 20%
- 문제: 실패가 드물어 긴장감이 부족
- Go가 거의 항상 합리적 → 의사결정이 무의미
스위트 스팟: p = 65%~75%#
이 구간이 최적인 이유를 분석합니다.
p = 70% 일 때 콤보 도달 확률#
| 콤보 | 도달 확률 | 의미 |
|---|---|---|
| 1 | 70.0% | 10명 중 7명 |
| 2 | 49.0% | 10명 중 5명 |
| 3 | 34.3% | 10명 중 3명 |
| 4 | 24.0% | 10명 중 2~3명 |
| 5 | 16.8% | 약 6명 중 1명 |
| 7 | 8.2% | 약 12명 중 1명 |
| 10 | 2.8% | 약 36명 중 1명 |
| 15 | 0.5% | 약 200명 중 1명 |
이 분포의 장점은 다음과 같습니다.
- 1~3콤보: 대다수 플레이어가 경험 → 기본 참여 보장
- 4~7콤보: 중간 성취감을 주는 “달성 가능한 목표” 구간
- 8콤보 이상: 희소성이 생겨 자랑할 만한 성취
- 10콤보 이상: 전설적 달성 — 커뮤니티 화제거리
일일 실패의 심리적 영향#
p = 70%이면 평균 3.33일에 한 번 실패 합니다(기하분포의 기대값 = 1/(1-p) ≈ 3.33). 이는 다음을 의미합니다.
- 매일 실패하지는 않음 → 과도한 좌절 방지
- 일주일에 2번 정도 실패 → 적절한 긴장감 유지
- 콤보가 쌓일수록 “이번에는 잃고 싶지 않다"는 감정 강화
실패율과 리텐션의 관계#
게임 디자인 연구에서 반복적으로 확인되는 패턴이 있습니다.
- Csikszentmihalyi의 플로우 이론: 도전과 능력이 균형을 이룰 때 몰입(flow)이 발생
- 60~75% 성공률: 이 구간은 “어렵지만 불가능하지 않다"는 인식을 형성
- “Almost made it” 효과: 실패가 아슬아슬할 때 재도전 의지가 가장 강함
추천 성공률#
| 게임 성격 | 추천 p | 이유 |
|---|---|---|
| 캐주얼/힐링 | 75~80% | 실패 빈도 낮아 스트레스 최소화 |
| 표준 경쟁 | 65~70% | Go/Stop 결정이 가장 긴장감 있는 구간 |
| 하드코어 | 55~65% | 높은 콤보의 희소성이 극대화됨 |
리워드 테이블 설계#
핵심 원칙: 공정 곡선(Fair Curve)과의 관계#
플레이어가 매 콤보에서 Go와 Stop의 기대값이 동등 해지는 “공정” 보상 곡선은 다음과 같습니다.
R_fair(n) = R(1) · (1/p)^(n-1)
p = 70%일 때 1/p ≈ 1.43이므로, 공정 곡선에서는 매 콤보마다 보상이 약 1.43배 씩 증가합니다.
이 곡선 위에서는 모든 콤보에서 Go와 Stop의 기대값이 같으므로, 플레이어는 완전한 무차별 상태 에 놓입니다. 실제 게임에서는 이 곡선을 기준선 으로 삼고, 의도적으로 편차를 두어 전략적 깊이를 만듭니다.
실전 리워드 테이블 (p = 70% 기준)#
아래 테이블은 공정 곡선을 기준으로 전략적 변동을 준 설계 예시입니다.
| 콤보 | 공정 곡선 | 제안 보상 | 성장률 | Go 기대값 | 설계 의도 |
|---|---|---|---|---|---|
| 1 | 100 | 100 | — | 70 | 기본 보상 |
| 2 | 143 | 130 | ×1.30 | 91 | Go 유도 (기대값 > 보상) |
| 3 | 204 | 200 | ×1.54 | 140 | Go 유도 |
| 4 | 292 | 300 | ×1.50 | 210 | 첫 번째 딜레마 구간 |
| 5 | 417 | 500 | ×1.67 | 350 | 마일스톤 보너스 — Stop 유혹 |
| 6 | 596 | 650 | ×1.30 | 455 | Go 유도 (보너스 후 완만) |
| 7 | 852 | 850 | ×1.31 | 595 | 균형 구간 |
| 8 | 1,218 | 1,200 | ×1.41 | 840 | 두 번째 딜레마 구간 |
| 9 | 1,740 | 1,600 | ×1.33 | 1,120 | Go 유도 |
| 10 | 2,486 | 2,500 | ×1.56 | 1,750 | 마일스톤 보너스 — Stop 유혹 |
| 15 | 11,569 | 15,000 | — | — | 전설적 보상 |
주: “Go 기대값” = p × R(n+1) = 0.7 × 다음 콤보 보상. Go가 합리적이려면 이 값이 현재 보상보다 커야 합니다.
테이블 설계 전략#
1. “미끼와 쉼터” 패턴#
[Go 유도] → [Go 유도] → [마일스톤/딜레마] → [Go 유도] → ...
- Go 유도 구간: 성장률을 공정 곡선보다 낮게 → “한 번 더 해볼까”
- 마일스톤 구간: 성장률을 공정 곡선보다 높게 → “여기서 멈출까”
- 2~3 콤보마다 딜레마를 배치하면 반복적 의사결정 이 발생
2. 마일스톤의 심리적 효과#
5콤보, 10콤보, 15콤보 등 라운드 넘버 에 큰 보상 점프를 두면:
- 플레이어의 목표 설정 을 유도 (“5콤보까지만 가자”)
- 달성 시 강한 성취감 과 동시에 “여기서 멈출까” 라는 고민
- 목표 달성 후 “한 번만 더"의 유혹 — 여기서 Go를 눌렀다가 실패하면 드라마틱한 경험이 됨
3. 감소하는 한계 가치(Diminishing Marginal Utility)#
행동경제학에 따르면 사람들은 보상의 절대값보다 비율 에 반응합니다. 100 → 200은 크게 느껴지지만 10,000 → 10,100은 별 차이가 없습니다. 따라서:
- 초반(1~3콤보): 성장률을 낮게 유지해도 체감 증가가 큼
- 후반(7콤보 이상): 성장률을 높여야 “한 번 더"의 유혹이 유지됨
기대 수익 시뮬레이션#
p = 70%, 위 리워드 테이블 기준으로 각 전략의 기대 일일 수익을 계산합니다.
전략: 항상 n콤보에서 Stop
| 전략 | n콤보 도달 확률 | 보상 | 기대 일일 수익 | 평균 사이클(일) |
|---|---|---|---|---|
| 항상 1콤보 Stop | 70% | 100 | 70 | 1.43일 |
| 항상 2콤보 Stop | 49% | 130 | 63.7 | 2.04일 |
| 항상 3콤보 Stop | 34.3% | 200 | 68.6 | 2.92일 |
| 항상 4콤보 Stop | 24.0% | 300 | 72.0 | 4.17일 |
| 항상 5콤보 Stop | 16.8% | 500 | 84.0 | 5.95일 |
| 항상 7콤보 Stop | 8.2% | 850 | 69.9 | 12.20일 |
| 항상 10콤보 Stop | 2.8% | 2,500 | 70.7 | 35.71일 |
기대 일일 수익 = (도달 확률 × 보상) / 평균 사이클 일수
이 테이블에서 볼 수 있는 핵심 인사이트:
- 5콤보 Stop이 가장 높은 기대 수익 (84.0) — 마일스톤 보너스의 효과
- 1콤보 Stop과 10콤보 Stop의 기대 수익이 비슷 (70 vs 70.7) — 장기적 공정성
- 플레이어의 위험 성향 에 따라 합리적 전략이 다름 — 이것이 좋은 디자인의 핵심
변동성(Variance)과 플레이어 경험#
기대값만으로는 충분하지 않습니다. 변동성 이 플레이어 경험을 좌우합니다.
- 1콤보 Stop: 기대값 70, 변동성 매우 낮음 → 안정적이지만 지루함
- 5콤보 Stop: 기대값 84, 변동성 중간 → 가끔 빅 보상, 가끔 빈손
- 10콤보 Stop: 기대값 70.7, 변동성 매우 높음 → 대부분 빈손, 가끔 대박
변동성이 높을수록 감정적 고저가 크고, 이는 리텐션에 양날의 검 입니다.
- 적당한 변동성: “다음에는 될 거야” 심리 → 재방문 유도
- 과도한 변동성: “어차피 안 돼” 심리 → 이탈
게임 이론(Game Theory) 적용#
단독 플레이어: 순수 최적 중단 문제#
1인 플레이에서 Go or Stop은 Markov Decision Process(MDP) 로 모델링됩니다. 각 상태(콤보 수)에서 최적 행동은 벨만 방정식으로 결정되며, 이는 앞서 다룬 수학적 프레임워크와 동일합니다.
1인 플레이에서는 게임 이론이 필요 없고, 의사결정 이론(Decision Theory) 으로 충분합니다. 게임 이론이 빛나는 것은 다른 플레이어가 존재할 때 입니다.
다중 플레이어 시나리오#
시나리오 1: 공유 리워드 풀(Shared Reward Pool)#
모든 플레이어가 동일한 리워드 풀에서 보상을 가져간다고 가정합니다. 예를 들어, 일일 리워드 풀이 10,000이고 Stop한 플레이어들이 콤보에 비례하여 나눠 갖는 구조입니다.
이 경우 혼합 전략 내쉬 균형(Mixed Strategy Nash Equilibrium) 이 존재합니다.
- 모든 플레이어가 Go를 선택하면 → 풀이 소진되지 않아 Stop하는 사람이 독식
- 모든 플레이어가 Stop을 선택하면 → 낮은 콤보로 나눠 가져 개인 몫이 적음
- 균형: 일부는 Go, 일부는 Stop — 정확한 비율은 참가자 수와 리워드 구조에 의존
이는 El Farol Bar Problem(아서의 바 문제)과 구조적으로 유사합니다. 바에 사람이 적으면 가는 게 이득이고, 많으면 안 가는 게 이득인 상황에서, 참가자들이 서로의 행동을 예측하며 결정을 내립니다.
시나리오 2: 리더보드 경쟁(Tournament)#
N명의 플레이어가 동시에 같은 도전에 참가하고, 일정 기간 동안 가장 높은 누적 리워드를 획득한 사람이 추가 상을 받는 토너먼트 구조입니다.
이 경우의 전략적 함의는 다음과 같습니다.
1위와의 격차에 따른 전략 변화:
- 선두: Stop이 합리적 — 이미 앞서 있으므로 리스크 회피
- 추격자: Go가 합리적 — 안전하게 가면 따라잡을 수 없으므로 고위험 전략
- 중위권: 상황에 따라 혼합 전략
이것은 포커의 ICM(Independent Chip Model) 과 유사합니다. 포커 토너먼트에서 칩 리더는 보수적으로, 숏 스택은 공격적으로 플레이하는 것과 같은 원리입니다.
선두 플레이어의 최적 전략: 낮은 콤보에서 Stop (위험 최소화)
추격 플레이어의 최적 전략: 높은 콤보까지 Go (역전 가능성 극대화)
이러한 비대칭 전략 은 게임에 내러티브를 부여합니다. “선두는 수비하고 추격자는 공격한다"는 자연스러운 스토리가 만들어지며, 이는 관전 가치를 높입니다.
시나리오 3: 협동 콤보(Cooperative Play)#
여러 플레이어가 팀으로 참여하여 팀 콤보 를 쌓는 구조입니다. 매일 팀원 중 한 명이 도전하고, 누구든 실패하면 팀 콤보가 리셋됩니다.
이 경우 공유지의 비극(Tragedy of the Commons) 이 발생할 수 있습니다.
- 각 팀원은 개인적으로 “내가 도전해서 성공하면 팀에 기여"라고 생각
- 하지만 실패하면 팀 전체의 콤보가 리셋
- 도덕적 해이(Moral Hazard): 자신의 실패 비용이 팀에 분산되므로 과도하게 Go를 선택
해결책으로 다음 메카닉을 고려할 수 있습니다.
- 투표 시스템: 팀원 다수결로 Go/Stop 결정
- 개인 책임: 팀 콤보를 리셋시킨 플레이어에게 페널티
- 기여도 추적: 누가 얼마나 콤보에 기여했는지 투명하게 표시
메카닉 디자인 도구로서의 게임 이론#
Mechanism Design (메카니즘 디자인)#
게임 이론의 역방향 — 원하는 결과가 나오도록 규칙을 설계 하는 분야입니다. Go or Stop 게임에 적용하면:
목표: 플레이어가 매일 접속하고, Go/Stop 결정에 진정한 고민을 하며, 장기간 플레이하는 것
설계 레버:
- 성공률 p를 조정하여 실패 빈도 통제
- 리워드 곡선으로 최적 중단 지점 분포 통제
- 사회적 메카닉으로 전략적 상호작용 추가
인센티브 호환성(Incentive Compatibility) 체크:
- 플레이어의 “진짜 하고 싶은 행동"과 “게임이 유도하는 행동"이 일치하는가?
- 봇이나 자동화로 최적 전략을 기계적으로 실행하면 게임이 재미없어지는가?
- 만약 그렇다면, 성공률에 스킬 요소 를 추가하여 자동화를 방지
진화 게임 이론(Evolutionary Game Theory)#
플레이어 집단의 전략이 시간이 지남에 따라 어떻게 변하는지를 분석합니다.
- 초기: 대부분 플레이어가 Go 편향 (새로운 게임의 흥분)
- 학습 기간: 실패 경험이 축적되며 Stop 비율 증가
- 안정 상태: 플레이어 집단이 ESS(Evolutionary Stable Strategy) 에 수렴
ESS에서의 예상 분포 (p=70% 기준):
- 항상 1-2콤보 Stop: ~20% (보수적 플레이어)
- 3-5콤보 Stop: ~50% (중도 플레이어)
- 6콤보 이상 Go: ~30% (공격적 플레이어)
좋은 게임 디자인은 모든 전략 유형이 공존할 수 있는 ESS 를 만드는 것입니다. 한 전략이 다른 전략을 완전히 지배하면, 다양성이 사라지고 게임이 단조로워집니다.
실전 디자인 레시피#
기본 파라미터 세트#
바로 적용 가능한 “시작점” 파라미터를 제안합니다.
성공률: p = 70%
R(1) = 100 (기본 보상 단위)
| 콤보 | 보상 | 성장률 | 비고 |
|---|---|---|---|
| 0 | 0 | — | 도전 실패 또는 미도전 |
| 1 | 100 | — | 기본 보상 |
| 2 | 130 | ×1.30 | Go 유도 |
| 3 | 200 | ×1.54 | Go 유도 |
| 4 | 300 | ×1.50 | 딜레마 시작 |
| 5 | 500 | ×1.67 | 첫 번째 마일스톤 |
| 6 | 650 | ×1.30 | Go 유도 |
| 7 | 850 | ×1.31 | Go 유도 |
| 8 | 1,200 | ×1.41 | 딜레마 |
| 9 | 1,600 | ×1.33 | Go 유도 |
| 10 | 2,500 | ×1.56 | 두 번째 마일스톤 |
| 15 | 15,000 | — | 전설적 보상 |
| 20 | 100,000 | — | 신화적 보상 (거의 불가능) |
리텐션 강화 메카닉#
기본 Go or Stop에 다음 요소를 추가하면 장기 리텐션이 개선됩니다.
1. 보험 시스템(Insurance)#
- 일정 비용을 지불하면 실패 시 콤보가 완전 리셋되지 않고 절반으로 감소
- 예: 8콤보에서 보험 적용 후 실패 → 4콤보로 복귀
- 효과: 고콤보에서의 극단적 좌절감 완화, 보험 구매 자체가 추가 의사결정
2. 위안 보상(Consolation Prize)#
- 실패 시에도 소량의 보상 제공 (확정 보상의 10~20%)
- 예: 5콤보에서 실패 → 50~100 포인트 위안 보상
- 효과: “완전 빈손"의 쓴맛을 줄여 이탈 방지
3. 난이도 적응(Adaptive Difficulty)#
- 연속 실패 시 다음 도전의 성공률을 소폭 상승 (피티 시스템)
- 연속 성공 시 성공률을 소폭 하락 (자연스러운 난이도 조절)
- 효과: 극단적 불운/행운에 의한 경험 편차 완화
4. 시즌 시스템(Seasonal Reset)#
- 30일/90일 단위로 리더보드 리셋
- 시즌 종합 성적에 따른 추가 보상
- 효과: 장기 플레이어와 신규 플레이어 간 격차 해소, 주기적 동기 부여
5. 선택의 공개(Public Choice)#
- 플레이어의 Go/Stop 결정을 다른 플레이어에게 실시간 공개
- “현재 7콤보 도전 중인 플레이어 3명” 같은 라이브 피드
- 효과: 사회적 긴장감과 관전의 재미, 커뮤니티 형성
안티패턴: 피해야 할 설계#
| 안티패턴 | 문제 | 대안 |
|---|---|---|
| 선형 보상 (R(n) = 100n) | 항상 1콤보 Stop이 최적 → 결정이 무의미 | 지수적 성장 사용 |
| 과도한 지수 보상 (R(n) = 100 × 2ⁿ) | 항상 Go가 최적 → 결정이 무의미 | 1/p 기반 공정 곡선 활용 |
| p < 50% | 대부분 0콤보 → 시스템 무의미 | p ≥ 65% 유지 |
| 보험/위안 없는 완전 리셋 | 고콤보 실패 시 극심한 좌절 → 이탈 | 부분 보상 시스템 도입 |
| 최적 전략이 명확함 | 결정이 퍼즐이 아닌 정답 맞추기가 됨 | 딜레마 구간을 넓게 설계 |
결론: 좋은 Go or Stop 게임의 조건#
- 성공률 65~75%: 실패가 적당히 잦아 긴장감이 유지되면서도, 콤보가 쌓일 수 있는 여지가 충분한 구간
- 1/p 기반 공정 곡선 + 마일스톤 변동: 기대값이 비슷한 구간을 넓게 유지하되, 5/10/15 콤보 등에 심리적 앵커 배치
- 부분 안전망: 완전한 리셋의 고통을 완화하는 보험/위안 시스템
- 사회적 레이어: 리더보드, 공개 선택, 팀 플레이로 전략적 깊이와 커뮤니티 형성
- 다양한 전략의 공존: 보수적/중도/공격적 플레이 스타일이 모두 합리적으로 느껴지는 설계
Push Your Luck은 인류가 수천 년간 즐겨온 가장 원초적인 게임 메카닉 중 하나입니다. “한 번만 더"라는 유혹은 도박장에서든, TV 쇼에서든, 모바일 게임에서든 동일하게 작동합니다. 이 메카닉을 잘 다듬으면 — 수학적으로 공정하고, 심리적으로 긴장감 있으며, 사회적으로 의미 있는 — 오랜 기간 플레이어를 붙잡아 두는 게임을 만들 수 있습니다.
References#
- Kahneman, D. & Tversky, A. (1979). Prospect Theory: An Analysis of Decision under Risk
- Csikszentmihalyi, M. (1990). Flow: The Psychology of Optimal Experience
- Schell, J. (2008). The Art of Game Design: A Book of Lenses
- Osborne, M. J. & Rubinstein, A. (1994). A Course in Game Theory
- Arthur, W. B. (1994). Inductive Reasoning and Bounded Rationality (The El Farol Problem)
- Ferguson, T. S. (2006). Optimal Stopping and Applications