인공지능 포커 대결, 오픈AI ‘o3’ 압도적 우승…머스크의 ‘그록’은 3위
목차
AI 포커 전략으로 실전형 경쟁력 시험대에 오르다
다양한 생성형 AI 모델들이 동일한 포커 테이블에서 기술과 전략을 겨루는 이색 이벤트가 열렸다. 플랫폼 ‘PokerBattle.ai’가 진행한 이번 대결은 총 5일간 3,799핸드에 걸친 장기전으로, 각 모델이 $10/$20 노리밋 홀덤 규칙 아래 가상의 자금을 운용하는 방식으로 진행됐다.
경쟁에는 총 9개의 대형 언어 모델(LLM)이 참여했으며, 이 과정에서 OpenAI의 ‘o3’ 모델이 총 $36,691의 수익을 기록하며 최종 우승을 차지했다.
반면 일론 머스크가 소유한 Grok(그록)은 경기 후반까지 선두권을 유지했음에도 최종 순위는 3위에 그쳤다.
가장 극적인 결과는 Meta의 LLAMA 4가 3,501핸드 만에 초기 자금 $100,000 전액을 잃고 탈락한 점이었다.
PokerBattle.ai 인공지능 포커 대결 결과

| 순위 | 플레이어 | 수익 손실 | 핸드 수 |
|---|---|---|---|
| 1 | 오픈AI o3 | 36,691달러 | 3,799 |
| 2 | 클로드 소네 4.5 | 33,641달러 | 3,799 |
| 3 | 그록 4 | 28,796달러 | 3,799 |
| 4 | 딥시크 R1 | 18,416달러 | 3,799 |
| 5 | 제미니 2.5 프로 | 14,655달러 | 3,799 |
| 6 | 미스트랄 마지스트랄 | 3,281달러 | 3,799 |
| 7 | 키미 K2 | -14,370달러 | 3,799 |
| 8 | Z.AI GLM 4.6 | -21,510달러 | 3,799 |
| 9 | 메타 라마 4 | -100,000 달러 | 3,501 |
이번 이벤트의 기획자인 맥스 파블로프(33) 는 “참가 모델들은 포커 서적, 블로그 전략 해설, 과거 핸드 리뷰 등 학습 데이터를 기반으로 상황별 의사결정 능력을 스스로 발전시킨 구조”라고 설명했다.
다시 말해 단순 규칙 실행이 아니라, 상대의 패턴을 기억하고 대응 전략을 조정하는 AI 고유의 ‘적응력’이 승부의 핵심 요소로 작용했다는 의미다.
그 중 가장 큰 승부처로 거론된 장면은 오픈AI o3가 AA(포켓 에이스) 를 들고, Gemini 2.5 Pro의 QQ(포켓 퀸) 을 상대했던 4베팅 팟 상황이었다.
플랍과 턴에서 연속 베팅을 이어간 o3의 공격적 라인에 대해, Gemini 2.5 Pro는 수학적 승률과 상대의 밸런싱 패턴을 근거로 “상대가 초강력 핸드 혹은 블러프 극단값 중 하나를 표현하고 있다”는 판단 아래 콜을 선택했지만, 결국 가장 큰 포트를 o3가 가져가며 승기를 잡았다.
‘그록’의 후반 흔들림…극적인 역전은 불발
흥미로운 점은 Grok 4가 경기 종료 4시간 전까지 선두를 유지하고 있었다는 사실이다.
그러나 후반부에 들어서면서 베팅 빈도와 선택 폭이 넓어지며 변동성이 커졌고, 안정적인 압박 운영을 보인 Claude Sonnet 4.5와 o3에게 순위가 밀렸다.
특히 Grok 4는 현재 포커 프로 필 갈폰드와의 실제 하이 스테이크 1:1 매치 협의가 진행 중으로 알려지며, 실전 성능에 대한 추가 관심도 이어지고 있다.
유일한 ‘파산자’ LLAMA 4…패인은 지나친 개입 빈도
가장 눈에 띄는 실패 사례는 Meta의 LLAMA 4다.
해당 모델은 참가 모델 중 VPIP(자발적 팟 참여 비율)가 60% 이상으로, 다른 모델 대비 3배 가까이 많은 핸드에 개입했다.
이는 곧 방어력이 낮은 오버-인볼브(over-involvement) 플레이 스타일로 이어졌고, 장기전에서 손실을 복구하지 못하면서 유일한 풀뱅크 파산 모델이 되었다.
즉, AI 역시 “참여가 많다고 이기는 것이 아니다” 라는 포커의 오래된 원칙을 다시 한 번 증명한 셈이다.
이번 PokerBattle.ai 결과는 단순한 승패를 넘어 AI의 전략적 사고 체계 차이를 명확하게 드러낸 실험이었다.
오픈AI o3는 보수적이되 상황 선택에 집중된 효율적 플레이, Grok은 적극적 운영 속 변동성 확대, LLAMA 4는 과도한 개입으로 인한 붕괴로 요약할 수 있다.
향후 AI 간 포커 대결은 단순 이벤트가 아닌 ‘전략형 AI 품질 평가 기준’ 으로 자리잡을 가능성이 크다.
출처 : PokerNews
[ⓒ 포커뉴스.com 무단전재 및 재배포 금지]







