주요 언어 모델을 포함한 최근 연구에서 AI가 도박 중독을 모방하는 행동을 보일 수 있으며, 일부 모델은 시뮬레이션 트레이딩 시나리오에서 최대 48%의 시간 동안 파산을 경험하는 것으로 나타났습니다. 이 연구는 AI 트레이딩 봇 도박에 참여하는 사용자에게 중요한 위험을 강조합니다. 이러한 결과는 AI를 금융 시장에서 순전히 합리적인 행위자로 보는 인식을 뒤엎습니다.
AI의 위험한 베팅의 놀라운 현실
한국의 광주과학기술원의 새로운 연구는 고급 AI 모델의 놀라운 취약점을 밝혀냈습니다. 즉, 도박 중독과 매우 유사한 행동을 보일 수 있다는 것입니다. 이 연구에서는 GPT-4o-mini, GPT-4.1-mini, Gemini-2.5-Flash 및 Claude-3.5-Haiku의 4가지 주요 언어 모델을 시뮬레이션 슬롯 머신 시나리오에 투입했습니다. 각 모델은 100달러의 잔액으로 시작하여 30%의 승률과 승리 시 3배의 지급률에 직면하여 10%의 부정적인 기대값을 초래했습니다. 진정으로 합리적인 에이전트는 확률을 인식하고 떠나겠지만 AI 모델은 지속적으로 점점 더 위험한 플레이에 참여했습니다.
12,800회의 도박 세션에서 결과는 암울했습니다. 자신의 베팅 규모와 목표 금액을 설정할 수 있는 자율성이 부여되고 특히 “보상을 최대화”하라는 지시를 받았을 때(암호화폐 트레이딩 봇에 대한 일반적인 프롬프트) 모델은 놀라운 속도로 파산했습니다. Gemini-2.5-Flash는 가장 무모한 것으로 입증되어 공격적인 베팅, 손실 추적 및 극단적인 올인 베팅을 고려한 “비합리성 지수”로 측정했을 때 무려 48%의 파산율을 기록했습니다. GPT-4.1-mini와 같은 더욱 신중한 모델조차도 여전히 6.3%의 파산율을 보여 이러한 중독성 패턴이 고립된 사건이 아니라 시스템적인 결함임을 확인했습니다.
AI 트레이딩 봇 도박에서 인간의 오류의 메아리
정말로 흥미롭고 어쩌면 불안한 점은 이러한 AI 모델이 인간의 인지 편향을 반영하는 방식입니다. 이 연구에서는 통제 착각(모델이 슬롯 머신을 실제로 이길 수 있는 것처럼 행동하는 경우), 도박꾼의 오류(과거 결과가 미래 결과에 영향을 미친다고 믿는 경우) 및 핫 핸드 오류(연승이 공격적인 베팅 증가를 유발하는 경우)와 같은 고전적인 도박 오류가 작용하는 것을 관찰했습니다. 단 한 번의 승리 후 모델은 베팅을 14.5% 늘렸고 5번의 연속 승리 후에는 22%까지 증가했습니다. 이러한 승리 추구 행동은 인간의 병적 도박의 특징이며 알고리즘조차도 종종 트레이더가 변동성이 큰 암호화폐 시장에서 비합리적인 결정을 내리도록 이끄는 동일한 심리적 함정에 빠질 수 있음을 보여줍니다.
프롬프트가 중독을 프로그래밍할 수 있는 방법
금융 시장에 AI를 배포하는 모든 사람에게 가장 우려되는 점은 프롬프트 엔지니어링의 영향입니다. 연구원들은 32가지 다른 프롬프트 조합을 테스트한 결과 “초기 자금을 두 배로 늘리거나” 또는 “보상을 최대화”하는 것과 같이 겉보기에 무해한 지침을 추가하면 위험한 행동이 크게 증폭된다는 사실을 발견했습니다. 프롬프트 복잡성과 파산율 간의 상관 관계는 놀라울 정도로 높았으며 일부 모델의 경우 r = 0.991에 달했습니다. 이 연구는 중요한 취약점을 강조합니다. 즉, AI를 최대 수익을 위해 최적화하도록 설계된 바로 그 프롬프트가 의도치 않게 자기 파괴적인 AI 트레이딩 봇 도박을 위해 프로그래밍하여 계산된 전략이 고위험 베팅으로 바뀔 수 있습니다.
세 가지 특정 프롬프트 유형이 비합리성의 주요 촉매제로 나타났습니다. “초기 자금을 200달러로 두 배로 늘리십시오”와 같은 목표 설정 프롬프트는 막대한 위험 감수를 유발했습니다. “보상을 최대화”하라는 지시는 모델을 올인 베팅으로 몰아갔습니다. 그리고 단순히 “승리 보상 정보”(예: “승리에 대한 지급액은 베팅의 3배입니다”)를 제공하는 것조차 파산율을 8.7% 증가시켰습니다. 반대로 손실 확률(“약 70%의 시간 동안 손실됩니다”)을 명시적으로 명시하는 것은 약간의 개선만 제공했으며 모델이 종종 어려운 수학적 사실보다 인지된 “분위기”를 우선시한다는 것을 나타냅니다.
AI 두뇌 들여다보기: 위험의 메커니즘
행동 분석 외에도 연구원들은 Sparse Autoencoders를 사용하여 이러한 중독성 경향을 유발하는 내부 기능을 식별하여 LLaMA-3.1-8B 모델의 신경 아키텍처를 탐구했습니다. 그들은 파산에 묶인 결정을 안전한 선택과 구별하는 3,365개의 내부 기능을 정확히 찾아냈습니다. 활성화 패칭(위험한 신경 패턴을 안전한 패턴으로 중간 결정으로 바꾸는 기술)을 통해 그들은 441개의 기능이 상당한 인과적 효과를 가졌음을 확인했으며 361개는 보호 메커니즘으로 작용하고 80개는 위험한 행동에 기여했습니다.
흥미롭게도 안전한 기능은 후기 신경망 레이어(29-31)에 집중되어 있었고 위험한 기능은 더 일찍(25-28) 클러스터링되었습니다. 이는 AI 모델이 인간과 마찬가지로 잠재적 위험을 완전히 처리하기 전에 즉각적인 보상 충동을 우선시하는 경향이 있음을 시사합니다. 한 모델은 일련의 운 좋은 승리 후 “상황을 단계별로 분석”하고 “위험과 보상 사이의 균형”을 찾겠다는 의도를 발표했지만 즉시 YOLO 모드로 전환하여 전체 자금을 베팅하고 바로 다음 라운드에서 파산했습니다. 이는 내재된 보수적 편향이 이익 추구에 의해 무시될 수 있음을 강조합니다.
이러한 결과는 LLM 기반 포트폴리오 관리자와 자율 트레이딩 에이전트가 인기를 얻고 있는 급성장하는 DeFi 공간에 큰 의미를 갖습니다. 이 연구의 권장 사항은 분명합니다. 자율성을 부여하는 언어를 피하고 명시적 확률 정보를 포함하여 더 스마트한 프롬프트 엔지니어링을 구현하고 활성화 패칭 또는 미세 조정과 같은 방법을 통해 위험한 내부 기능을 감지하고 억제하기 위한 기계적 제어를 개발합니다. 현재 이러한 안전 장치는 생산 트레이딩 시스템에서 표준이 아닙니다. 이러한 중독과 유사한 패턴이 도박에 대한 명시적인 훈련 없이 발생했고 인간의 인지 편향을 반영하는 일반적인 훈련 데이터에서 내부화되었을 가능성이 높다는 점을 감안할 때 지속적인 모니터링이 가장 중요합니다. 디지털 자산을 관리하는 사람들에게 고급 분석 및 포트폴리오 관리 도구를 활용하면 중요한 감독을 제공할 수 있습니다. cryptoview.io와 같은 플랫폼은 시장 동향 및 포트폴리오 성과에 대한 포괄적인 통찰력을 제공하여 사용자가 잠재적으로 충동적인 AI에만 의존하는 대신 정보에 입각한 결정을 내릴 수 있도록 지원합니다. CryptoView.io에서 기회를 찾으세요
