Trading Agent: 다중 에이전트 LLM 금융 거래 프레임워크

zeah 2025. 3. 13. 02:29

요약

대규모 언어 모델(LLMs)에 의해 구동되는 에이전트 사회를 사용한 자동 문제 해결에서 상당한 진전이 이루어졌다. 금융 분야에서는 주로 특정 작업을 처리하는 단일 에이전트 시스템이나 독립적으로 데이터를 수집하는 다중 에이전트 프레임워크에 초점을 맞추었다. 그러나 다중 에이전트 시스템이 실제 거래 회사의 협력적 역학을 재현할 수 있는 잠재력은 충분히 탐구되지 않았다. TradingAgents는 거래 회사에서 영감을 받은 새로운 주식 거래 프레임워크를 제안하며, 기본 분석가, 감정 분석가, 기술 분석가 및 다양한 위험 프로파일을 가진 거래자와 같은 전문 역할을 가진 LLM 기반 에이전트를 특징으로 한다. 이 프레임워크는 시장 상황을 평가하는 Bull 및 Bear 연구 에이전트, 노출을 모니터링하는 위험 관리 팀, 토론과 역사적 데이터를 통해 통찰력을 종합하여 정보에 입각한 결정을 내리는 거래자를 포함한다. 동적이고 협력적인 거래 환경을 시뮬레이션함으로써 이 프레임워크는 거래 성과를 향상시키는 것을 목표로 한다. 자세한 아키텍처와 광범위한 실험은 누적 수익률, 샤프 비율(Sharpe ratio) 및 최대 손실폭에서의 눈에 띄는 개선과 함께 기본 모델보다 우수함을 보여주며, 금융 거래에서 다중 에이전트 LLM 프레임워크의 잠재력을 강조한다. TradingAgents는 https://github.com/PioneerFintech에서 이용 가능하다.

소개

대규모 언어 모델(LLMs)을 활용하는 자율 에이전트는 다양한 응용 분야에서 인간의 프로세스와 워크플로를 복제하여 의사 결정에 혁신적인 접근 방식을 제시한다. 이러한 시스템은 언어 에이전트의 문제 해결 능력을 향상시키며, 도구를 제공하고 다른 에이전트와의 협업을 가능하게 하여 복잡한 문제를 관리 가능한 구성 요소로 분해한다. 이러한 자율 프레임워크의 주요 응용 분야 중 하나는 금융 시장이다. 이는 회사의 기본 사항, 시장 감정, 기술 지표 및 거시 경제적 사건을 포함한 수많은 요인에 의해 영향을 받는 매우 복잡한 시스템이다.

전통적인 알고리즘 거래 시스템은 다양한 요인의 복잡한 상호작용을 완전히 포착하는 데 어려움을 겪는 정량적 모델에 의존하는 경우가 많다. 반면, LLM은 자연어 데이터를 처리하고 이해하는 데 뛰어나며, 뉴스 기사, 금융 보고서 및 소셜 미디어 감정 분석과 같은 텍스트 이해가 필요한 작업에 특히 효과적이다. 또한, 딥러닝 기반 거래 시스템은 의사 결정에 영향을 미치는 숨겨진 특징에 의존하지만 해석하기 어려워 설명 가능성이 낮은 경우가 많다. 금융을 위한 다중 에이전트 LLM 프레임워크의 최근 발전은 이러한 문제를 해결하는 데 상당한 가능성을 보여주었다. 이러한 프레임워크는 증거와 투명한 추론에 의해 뒷받침되는 의사 결정을 통해 설명 가능한 AI 시스템을 생성하며, 금융 응용 분야에서의 잠재력을 입증한다.

그럼에도 불구하고, 금융 및 거래 부문에서의 언어 에이전트의 대부분의 현재 응용 프로그램은 두 가지 주요 제한에 직면한다:

현실적인 조직 모델링의 부족: 많은 프레임워크는 실제 거래 회사의 구조를 모방하는 에이전트 간의 복잡한 상호작용을 포착하지 못한다. 대신, 특정 작업 성과에 좁게 초점을 맞추며, 종종 거래에서 효과적인 것으로 입증된 조직적 워크플로와 확립된 인간 운영 절차와 단절되어 있다. 이는 실제 거래 관행을 완전히 복제하고 이점으로 활용하는 능력을 제한한다.

비효율적인 통신 인터페이스: 대부분의 기존 시스템은 자연어를 주요 통신 매체로 사용하며, 일반적으로 메시지 기록이나 비구조화된 정보 풀에 의존하여 의사 결정을 내린다. 이 접근 방식은 대화가 길어질수록 세부 사항이 손실되고 상태가 손상되는 "전화 효과"를 초래하는 경우가 많다. 에이전트는 맥락을 유지하고 확장된 기록을 추적하며 이전 의사 결정 단계에서 관련 없는 정보를 필터링하는 데 어려움을 겪어 복잡하고 동적인 작업을 처리하는 데 효과가 떨어진다. 또한, 비구조화된 정보 풀 접근 방식은 명확한 지침이 부족하여 에이전트 간의 논리적 통신과 정보 교환이 검색에만 의존하게 되어 데이터의 관계적 무결성을 방해한다.

이 연구에서는 기존의 주요 제한 사항을 해결한다.

모델은 이러한 도전 과제를 극복하는 시스템을 도입함으로써 개선된다. 첫째, 우리의 프레임워크는 전문 트레이딩 팀의 다중 에이전트 의사 결정 과정을 시뮬레이션하여 격차를 해소한다. 이는 실제 트레이딩 회사의 조직 구조에서 영감을 받아 거래의 다양한 측면에 맞춘 전문 에이전트를 통합한다. 이러한 에이전트에는 기본 분석가, 감정/뉴스 분석가, 기술 분석가, 다양한 위험 프로파일을 가진 트레이더가 포함된다. 강세 및 약세 토론자는 시장 상황을 평가하여 균형 잡힌 권장 사항을 제공하고, 위험 관리 팀은 노출이 허용 가능한 한도 내에 있도록 보장한다. 둘째, 의사소통을 강화하기 위해 프레임워크는 제어, 명확성 및 추론을 위한 구조화된 출력과 자연어 대화를 결합하여 에이전트 간의 효과적인 토론과 협업을 촉진한다. 이 하이브리드 접근 방식은 의사 결정에서 정확성과 유연성을 모두 보장한다.

프레임워크는 역사적 금융 데이터를 사용한 실험을 통해 검증되며, 여러 기준선과 성능을 비교한다. 누적 수익률, 샤프 비율(Sharpe ratio), 최대 손실폭과 같은 포괄적인 평가 지표를 사용하여 전반적인 효과를 평가한다.

관련 연구

LLM을 금융 보조 도구로 활용

대형 언어 모델(LLM)은 금융 데이터에 대한 미세 조정이나 금융 코퍼스에 대한 학습을 통해 금융 분야에 적용된다. 이는 모델의 금융 용어 및 데이터 이해를 개선하여 거래 실행보다는 분석 지원, 통찰력 제공 및 정보 검색을 위한 전문 보조 도구로 활용된다.

금융을 위한 미세 조정된 LLM

미세 조정은 도메인별 성능을 향상시킨다. 예로는 136K 금융 관련 지침에 대해 LLaMA를 미세 조정한 PIXIU (FinMA) (Xie et al. 2023), LLaMA 및 ChatGLM과 같은 모델을 약 50K 금융 특화 샘플로 미세 조정한 FinGPT (Yang, Liu, and Wang 2023), 금융 감정 분석 데이터셋에서 10K 지침 샘플로 미세 조정된 Instruct-FinGPT (Zhang, Yang, and Liu 2023)가 있다. 이러한 모델은 금융 분류 작업에서 기본 버전 및 다른 오픈 소스 LLM을 능가하며, 여러 평가에서 BloombergGPT (Wu et al. 2023)를 초과한다. 그러나 생성 작업에서는 GPT-4와 같은 강력한 범용 모델보다 비슷하거나 약간 낮은 성능을 보여, 더 높은 품질의 도메인 특화 데이터셋이 필요함을 나타낸다.

처음부터 학습된 금융 LLM

금융 특화 코퍼스에서 처음부터 LLM을 학습하는 것은 더 나은 도메인 적응을 목표로 한다. BloombergGPT (Wu et al. 2023), XuanYuan 2.0 (Zhang, Yang, and Xu 2023), Fin-T5 (Lu et al. 2023)와 같은 모델은 사전 학습 중에 공공 데이터셋과 금융 특화 데이터를 결합한다. 예를 들어, BloombergGPT는 일반 텍스트와 금융 텍스트 모두에서 학습되었으며, Bloomberg의 독점 데이터가 금융 벤치마크에서의 성능을 향상시킨다. 이러한 모델은 시장 감정 분류 및 요약과 같은 작업에서 BLOOM-176B 및 T5와 같은 범용 모델을 능가한다. 비록 GPT-3 또는 PaLM (Chowdhery et al. 2022)과 같은 더 큰 비공개 모델과는 맞먹지 못할 수 있지만, 유사한 크기의 오픈 소스 모델 중에서는 경쟁력 있는 성능을 제공하며 일반 언어 이해를 손상시키지 않는다.

요약하면, 미세 조정 또는 처음부터 학습된 금융 특화 LLM은 도메인 특화 작업에서 상당한 개선을 보여주며, 도메인 적응의 중요성과 고품질 금융 특화 데이터셋을 통한 추가 개선 가능성을 강조한다.

LLM을 트레이더로 활용

LLM은 뉴스, 금융 보고서, 주가와 같은 외부 데이터를 분석하여 직접 거래 결정을 내리는 트레이더 에이전트로 작용한다. 제안된 아키텍처에는 뉴스 기반, 추론 기반, 강화 학습(RL) 기반 에이전트가 포함된다.

뉴스 기반 에이전트

뉴스 기반 아키텍처는 주식 뉴스와 거시경제 업데이트를 LLM 프롬프트에 통합하여 주가 움직임을 예측한다. 폐쇄형 모델(GPT-3.5, GPT-4)과 오픈 소스 LLM(Qwen (Bai et al. 2023), Baichuan (Yang et al. 2023))을 금융 감정 분석에 평가한 연구는 감정 점수에 기반한 간단한 롱-숏 전략의 효과를 보여준다 (Lopez-Lira and Tang 2023). FinGPT 및 OPT와 같은 미세 조정된 LLM에 대한 추가 연구는 도메인 특화 정렬을 통해 성능이 향상됨을 보여준다 (Zhang et al. 2024a; Kirtac and Germano 2024). 고급 방법은 뉴스 데이터를 요약하고 주가와의 관계를 추론하는 것을 포함한다 (Fatouros et al. 2024a; Wang, Izumi, and Sakaji 2024).

추론 기반 에이전트

추론 기반 에이전트는 반성 및 토론과 같은 메커니즘을 통해 거래 결정을 향상시킨다. FinMem (Yu et al. 2023) 및 FinAgent (Zhang et al. 2024b)와 같은 반성 기반 에이전트는 계층화된 기억과 다중 모드 데이터를 사용하여 입력을 기억으로 요약하고, 결정을 알리며, 기술 지표를 통합하여 우수한 백테스트 성능을 달성하면서 환각을 완화한다 (Ji et al. 2023). 이종 프레임워크(Xing 2024) 및 TradingGPT (Li et al. 2023b)와 같은 토론 기반 에이전트는 다양한 역할을 가진 에이전트 간의 LLM 토론을 통해 추론 및 사실의 유효성을 향상시켜 감정 분류를 개선하고 거래 결정의 강건성을 높인다.

강화 학습 기반 에이전트

강화 학습 방법은 LLM 출력을 기대되는 행동과 정렬시키며, 백테스트를 보상으로 사용한다. SEP (Koa et al. 2024)는 시장 역사를 기반으로 LLM 예측을 정제하기 위해 기억과 반성을 사용한 RL을 활용한다. 고전적인 RL 방법은 LLM 생성 임베딩을 주식 특징과 통합하여 Proximal Policy Optimization (PPO) (Ding et al. 2023; Schulman et al. 2017)과 같은 알고리즘을 통해 훈련된 거래 프레임워크에서도 사용된다.

LLM을 알파 마이너로 활용

LLM은 직접 거래 결정을 내리는 대신 알파 팩터를 생성하는 데에도 사용된다.

그림 1: TradingAgents 전체 프레임워크 조직. I. 분석가 팀: 네 명의 분석가가 동시에 관련 시장 정보를 수집함. II. 연구팀: 팀이 수집된 데이터를 논의하고 평가함. III. 트레이더: 연구원의 분석을 바탕으로 거래 결정을 내림. IV. 위험 관리 팀: 위험 관리자가 현재 시장 상황에 맞춰 결정을 평가하여 위험을 완화함. V. 펀드 매니저: 펀드 매니저가 거래를 승인하고 실행함.

이것은 LLMs를 활용하여 내부 루프와 외부 루프 아키텍처를 통해 알파 팩터를 생성함으로써 이를 보여줌. 내부 루프에서는 작가 에이전트가 트레이더의 아이디어로부터 스크립트를 생성하고, 판사 에이전트가 피드백을 제공함. 외부 루프에서는 코드가 실제 시장에서 테스트되고, 거래 결과가 판사 에이전트를 향상시킴. 이 접근 방식은 최적의 행동을 점진적으로 근사화할 수 있게 함.

후속 연구로서 AlphaGPT(Wang et al. 2023)는 유사한 아키텍처로 알파 마이닝을 위한 인간-루프 프레임워크를 제안함. 두 연구 모두 LLM 기반 알파 마이닝 시스템의 효과를 보여주며, 알파 팩터를 생성하고 정제함으로써 거래 전략 개발을 자동화하고 가속화할 수 있는 잠재력을 강조함.

이 내용은 LLM (대형 언어 모델)을 금융 거래 전략 개발에 활용하는 방법을 설명하는 것입니다. 특히, LLM을 직접 매매 의사 결정에 사용하기보다는, "알파 팩터(alpha factor)"를 생성하는 데 활용하는 방법에 대해 설명합니다.

1. 알파 팩터(alpha factor)란?

금융에서 "알파(alpha)"는 시장 대비 초과 수익을 의미합니다.
알파 팩터는 주식이나 금융 상품이 수익을 낼 가능성을 예측하는 신호 또는 변수입니다.
(예: 특정 지표의 변동성, 뉴스 감성 분석 결과, 기술적 분석 신호 등)

2. LLM을 이용한 알파 팩터 생성 방법

LLM을 활용하여 알파 팩터를 자동으로 생성하고 개선하는 프로세스를 설명하는데, 두 가지 주요 루프(반복 구조)가 있습니다.

(1) 내부 루프 (Inner Loop)

작가 에이전트(Writer Agent):
- 트레이더(사람)가 제공한 아이디어를 바탕으로 LLM이 거래 전략 스크립트(코드)를 자동으로 생성함.
판사 에이전트(Judge Agent):
- 생성된 코드(알파 팩터)를 검토하고 피드백을 제공함.

👉 즉, 트레이더 → LLM(작가) → 코드 생성 → LLM(판사) → 코드 평가 과정을 반복.

(2) 외부 루프 (Outer Loop)

코드가 실제 시장에서 테스트됨.
- 내부 루프에서 생성된 코드가 시장 데이터에서 백테스트(backtest)되거나 실제로 운영됨.
- 결과가 분석되어 판사 에이전트를 개선하는 데 사용됨.

👉 즉, 생성된 전략 → 시장 테스트 → 결과 분석 → 모델 개선 과정을 반복.

이 방식은 **"알파 팩터를 점진적으로 최적화하는 구조"**로 동작합니다.

3. AlphaGPT(Wang et al. 2023)와 인간-루프 프레임워크

AlphaGPT는 유사한 아키텍처를 활용한 연구로, 인간(트레이더)과 LLM이 함께 알파 마이닝(alpha mining, 초과 수익 신호 찾기)을 수행하는 프레임워크를 제안함.
"인간-루프(human-in-the-loop)" 개념을 사용하여, 인간 전문가가 LLM이 생성한 전략을 개선하는 방식.

4. 핵심 요점

LLM은 직접 거래 결정을 내리는 것이 아니라, 거래 전략을 개발하는 데 사용됨.
LLM이 알파 팩터를 생성하고 평가하는 역할을 수행함.
내부 루프(아이디어 → 코드 생성 및 검토)와 외부 루프(실제 시장 테스트 및 개선)를 통해 전략이 점진적으로 최적화됨.
AlphaGPT는 이와 유사한 인간-루프 기반 접근 방식을 제안함.

즉, LLM을 활용하면 기존의 거래 전략 개발 프로세스를 자동화하고, 더 빠르게 개선할 수 있다는 내용입니다.

TradingAgents: 역할 전문화

LLM 에이전트에게 명확하고 잘 정의된 역할과 특정 목표를 부여하면 복잡한 목표를 더 작고 관리 가능한 하위 작업으로 분해할 수 있음. 금융 거래는 이러한 복잡성의 주요 예로, 다양한 신호, 입력 및 전문 지식의 통합을 요구함. 실제로 이러한 복잡성을 관리하는 접근 방식은 전문가 팀이 협력하여 고위험 결정을 내리는 거래 회사에서 입증됨. 이는 작업의 다면적 성격을 강조함.

일반적인 거래 회사에서는 재무 지표, 가격 변동, 거래량, 과거 성과, 경제 지표 및 뉴스 감정을 포함한 방대한 양의 데이터를 수집함. 이 데이터는 수학자, 데이터 과학자 및 엔지니어를 포함한 정량적 전문가(퀀트)에 의해 분석되며, 고급 도구와 알고리즘을 사용하여 트렌드를 식별하고 시장 움직임을 예측함.

이 조직 구조에서 영감을 받아, TradingAgents는 시뮬레이션된 거래 회사 내에서 일곱 가지의 명확한 에이전트 역할을 정의함: 기초 분석가, 감정 분석가, 뉴스 분석가, 기술 분석가, 연구원, 트레이더, 위험 관리자. 각 에이전트는 특정 이름, 역할, 목표 및 제약 조건과 함께 그들의 기능에 맞춘 사전 정의된 컨텍스트, 기술 및 도구를 부여받음. 예를 들어, 감정 분석가는 웹 검색 엔진, Reddit 검색 API, X/Twitter 검색 도구 및 감정 점수 계산 알고리즘과 같은 도구를 갖추고 있으며, 기술 분석가는 코드를 실행하고 기술 지표를 계산하며 거래 패턴을 분석할 수 있음. 보다 구체적으로, TradingAgents는 다음과 같은 팀을 가정함.

분석가 팀
분석가 팀(그림 2)은 거래 결정을 알리기 위해 다양한 유형의 시장 데이터를 수집하고 분석하는 전문 에이전트로 구성됨. 각 에이전트는 시장 분석의 특정 측면에 집중하여 시장의 조건에 대한 포괄적인 관점을 제공함.

• 기초 분석가 에이전트: 이 에이전트는 재무제표, 수익 보고서, 내부자 거래 및 기타 관련 데이터를 분석하여 회사의 기초를 평가함. 이들은 회사의 내재 가치를 평가하여 저평가되거나 고평가된 주식을 식별하고 장기 투자 잠재력에 대한 통찰력을 제공함.

• 감정 분석 에이전트: 이 에이전트들은 대량의 소셜 미디어 게시물, 감정 점수, 공개 정보와 소셜 미디어 활동에서 파생된 내부 감정을 처리한다. 시장 감정을 평가하여 단기적으로 집단 투자자 행동이 주가에 미칠 영향을 예측한다.

• 뉴스 분석 에이전트: 이 에이전트들은 뉴스 기사, 정부 발표, 기타 거시경제 지표를 분석하여 시장의 거시경제 상태, 주요 세계 사건, 중요한 회사 변화를 평가한다. 시장 움직임에 영향을 미칠 수 있는 뉴스 이벤트를 식별하여 시장 역학의 갑작스러운 변화를 예측하는 데 도움을 준다.

• 기술 분석 에이전트: 이 에이전트들은 이동 평균 수렴 발산(MACD)과 상대 강도 지수(RSI)와 같은 관련 기술 지표를 특정 자산에 맞게 계산하고 선택한다. 가격 패턴과 거래량을 분석하여 미래 가격 움직임을 예측하고 진입 및 종료 시점을 결정하는 데 도움을 준다.

분석 팀은 여러 출처의 데이터를 종합하여 전체적인 시장 분석을 제공한다. 이들의 통합된 통찰력은 연구 팀의 기초 입력을 형성하여 후속 의사 결정 과정에서 시장의 모든 측면이 고려되도록 한다.

연구 팀

연구 팀은 분석 팀이 제공한 정보를 비판적으로 평가하는 책임을 진다. 상승 및 하락 관점을 채택한 에이전트들로 구성되어 있으며, 투자 결정의 잠재적 위험과 이익을 평가하기 위해 여러 차례의 토론을 진행한다.

• 상승 연구자: 이 에이전트들은 긍정적인 지표, 성장 잠재력, 유리한 시장 조건을 강조하여 투자 기회를 옹호한다. 특정 자산에 대한 포지션의 시작 또는 지속을 지지하는 주장을 구성한다.

• 하락 연구자: 반대로, 이 에이전트들은 잠재적 단점, 위험, 불리한 시장 신호에 초점을 맞춘다. 투자 전략의 실행 가능성을 의문시하고 가능한 부정적 결과를 강조하는 주의 깊은 통찰력을 제공한다.

이 변증법적 과정을 통해 연구 팀은 시장 상황에 대한 균형 잡힌 이해를 목표로 한다. 철저한 분석은 가장 유망한 투자 전략을 식별하고 가능한 도전을 예상하는 데 도움을 주어 거래 에이전트가 정보에 입각한 결정을 내릴 수 있도록 한다.

거래 에이전트

거래 에이전트는 분석 팀이 제공한 포괄적인 분석과 연구 팀의 세부적인 관점을 바탕으로 거래 결정을 실행하는 책임을 진다. 이들은 정량적 데이터와 정성적 통찰력을 모두 고려하여 최적의 거래 행동을 결정한다.

거래 에이전트의 임무는 다음을 포함한다:
• 분석가와 연구자의 추천 및 통찰력 평가.
• 거래 수익을 극대화하기 위한 거래 시점과 규모 결정.
• 시장에서 매수 또는 매도 주문 실행.
• 시장 변화와 새로운 정보에 대응하여 포트폴리오 할당 조정.

거래 에이전트는 관련된 위험에 대한 잠재적 수익을 균형 있게 고려하여 역동적인 시장 환경에서 적시에 결정을 내려야 한다. 이들의 행동은 회사의 성과에 직접적인 영향을 미치므로 높은 수준의 정밀성과 전략적 사고가 필요하다.

위험 관리 팀

위험 관리 팀(Figure 5)은 회사의 다양한 시장 위험 노출을 모니터링하고 통제한다. 이 팀은 포트폴리오의 위험 프로필을 지속적으로 평가하여 거래 활동이 사전에 정의된 위험 매개변수 내에 있으며 규제 요구 사항을 준수하도록 한다. 위험 관리 팀의 책임은 다음과 같다:
• 시장 변동성, 유동성, 상대방 위험과 같은 요소 평가
• 손절매 주문 설정이나 보유 자산 다각화와 같은 위험 완화 전략 구현
• 거래 에이전트에게 위험 노출에 대한 피드백 제공 및 거래 전략 조정 제안
• 전체 포트폴리오가 회사의 위험 허용 범위와 투자 목표에 부합하는지 확인

감독과 지침을 제공함으로써 위험 관리 팀은 회사의 재정적 안정성을 유지하고 불리한 시장 사건으로부터 보호하는 데 도움을 준다. 이들은 자산을 보호하고 지속 가능한 장기 성과를 보장하는 데 중요한 역할을 한다.
모든 TradingAgents의 에이전트는 ReAct 프롬프트 프레임워크(Yao et al. 2023)를 따르며, 이는 추론과 행동을 시너지화한다. 환경 상태는 에이전트에 의해 공유되고 모니터링되어, 연구 수행, 거래 실행, 토론 참여, 위험 관리와 같은 상황에 적합한 행동을 취할 수 있게 한다. 이 설계는 실제 거래 시스템을 반영하는 협력적이고 역동적인 의사 결정 과정을 보장한다.

TradingAgents: 에이전트 워크플로우

통신 프로토콜
대부분의 기존 LLM 기반 에이전트 프레임워크는 자연어를 주요 통신 인터페이스로 사용하며, 일반적으로 구조화된 메시지 기록이나 에이전트 생성 메시지 모음을 통해 이루어진다(Fatouros et al. 2024b; Li et al. 2023a; Yang et al. 2024; Yang, Yue, and He 2023). 그러나 자연어에만 의존하는 것은 광범위한 계획 수평이 필요한 복잡하고 장기적인 작업을 해결하는 데 종종 불충분하다. 이러한 경우, 순수한 자연어 통신은 여러 번의 반복을 통해 초기 정보가 망각되거나 왜곡될 수 있는 전화 게임과 유사할 수 있다(Hong et al. 2024). 이 한계를 해결하기 위해 MetaGPT와 같은 프레임워크에서 영감을 받아 구조화된 통신 프로토콜을 도입한다. 각 에이전트의 상태를 명확히 정의함으로써 각 역할이 필요한 정보만 추출하거나 쿼리하고, 이를 처리하여 완성된 보고서를 반환하도록 한다. 이 간소화된 접근 방식은 불필요한 단계를 줄이고, 메시지 손상 위험을 낮추며, 복잡하고 장기적인 작업에서도 상호작용을 집중적이고 효율적으로 유지한다.

에이전트 상호작용 유형
이전의 다중 에이전트 거래 프레임워크와 달리, TradingAgents 에이전트는 주로 구조화된 문서와 다이어그램을 통해 소통한다. 이러한 문서는 에이전트의 통찰력을 간결하고 잘 조직된 보고서로 캡슐화하여 불필요한 정보를 피하면서 필수 콘텐츠를 보존한다. 구조화된 보고서를 활용함으로써 에이전트는 글로벌 상태에서 필요한 세부 정보를 직접 쿼리할 수 있어, 정보 희석 위험이 있는 긴 대화를 피하고, 메시지 상태를 무한히 확장시키며, 데이터 손실을 방지한다. 문서 유형과 그들이 포함하는 정보는 다음과 같다:
• 분석 팀: 기본, 감정, 뉴스, 기술 분석가들이 그들의 연구와 발견을 그들의 전문 분야에 맞춘 간결한 분석 보고서로 작성한다. 이러한 보고서는 주요 지표, 통찰력, 그들의 전문 분석에 기반한 추천을 포함한다.
• 거래자: 거래자는 분석가의 보고서를 검토하고 분석하여 명확한 의사 결정 신호를 생성한다. 이 결정에는 그들의 논리와 증거를 설명하는 상세한 보고서가 동반되며, 이는 나중에 위험 관리 팀에 의해 활용된다.
에이전트는 에이전트 간 대화와 토론에서만 자연어 대화를 한다. 이러한 간결하고 집중된 논의는 더 깊은 추론을 촉진하고 다양한 관점을 통합하여 복잡하고 장기적인 시나리오에서 더 균형 잡힌 결정을 내릴 수 있게 한다(Du et al. 2023). 이 접근 방식은 구조화된 프레임워크와 매끄럽게 통합되며, 대화 상태는 전체 에이전트 상태 내의 구조화된 항목으로 기록된다. 이러한 시나리오에서의 통신 유형은 다음과 같다:
• 연구자 팀: 각 연구자 에이전트는 글로벌 에이전트 상태에서 분석가 보고서를 쿼리하고 신중하게 형성한다.

그들의 의견. 두 명의 연구자가 상반된 관점을 대표한다: 하나는 상승론자이고 하나는 하락론자이다. 그들은 토론 진행자 에이전트에 의해 결정된 n 라운드 동안 자연어 대화를 한다. 결론에서, 진행자는 토론 기록을 검토하고 우세한 관점을 선택하여 통신 프로토콜에 구조화된 항목으로 기록한다.

• 리스크 관리 팀: 리스크 관리 팀은 연구자 팀과 유사하게 트레이더의 결정과 동반된 보고서를 질의한다. 그런 다음 리스크 추구, 중립, 리스크 보수적인 세 가지 관점에서 거래 계획을 리스크 제약 내에서 조정하기 위해 심의한다. 그들은 진행자 에이전트의 안내에 따라 n 라운드의 자연어 토론을 한다.

• 펀드 매니저: 펀드 매니저는 리스크 관리 팀의 토론을 검토하고 적절한 리스크 조정을 결정하여 통신 프로토콜 내에서 트레이더의 결정과 보고서 상태를 업데이트한다.

백본 LLMs

우리의 프레임워크에서 다양한 복잡성과 속도 요구를 충족하기 위해, 우리는 각 모델의 강점을 기반으로 대형 언어 모델(LLMs)을 전략적으로 선택한다. 빠른 사고 모델, 예를 들어 gpt-4o-mini와 gpt-4o는 요약, 데이터 검색, 표 형식 데이터를 텍스트로 변환하는 것과 같은 빠르고 깊이 없는 작업을 효율적으로 처리한다 (OpenAI et al. 2024). 반면에, 깊은 사고 모델인 o1-preview는 의사 결정, 증거 기반 보고서 작성, 데이터 분석과 같은 추론 집약적인 작업에서 뛰어나다. 이러한 모델은 다중 라운드 추론을 위한 아키텍처를 활용하여 논리적으로 타당하고 심층적인 통찰을 제공한다 (Zhong et al. 2024; Wang et al. 2024a; OpenAI 2024). 또한, 우리는 다양한 시장 조건에서 최적의 성능을 보장하기 위해 입증된 신뢰성과 확장성을 가진 모델을 우선시한다. 우리는 또한 감정 분석과 같은 전문화된 작업을 위해 보조 전문가 모델을 사용한다.

특히, 모든 분석 노드는 강력한 분석을 보장하기 위해 깊은 사고 모델에 의존하며, 빠른 사고 모델은 효율성을 위해 API와 도구에서 데이터를 검색한다. 연구자와 트레이더는 귀중한 통찰을 생성하고 잘-informed된 결정을 지원하기 위해 깊은 사고 모델을 사용한다. 각 작업의 특정 요구 사항에 맞춰 LLMs를 선택함으로써, 우리의 프레임워크는 효율성과 추론의 깊이 사이의 균형을 달성하여 효과적인 거래 전략에 필수적인 요소를 제공한다.

이 구현 전략은 TradingAgents가 GPU를 필요로 하지 않고 API 크레딧만으로 배포될 수 있도록 보장한다. 또한 백본 모델의 원활한 교환 가능성을 도입하여 연구자가 미래에 로컬로 호스팅되거나 API로 접근 가능한 대안으로 모델을 쉽게 교체할 수 있도록 한다. 이러한 적응성은 특정 작업에 맞춘 개선된 추론 모델이나 금융 조정 모델의 통합을 지원한다. 결과적으로, TradingAgents는 높은 확장성과 미래 적합성을 제공하여 모든 에이전트에 대해 어떤 백본 모델도 수용할 수 있는 유연성을 제공한다.

실험
이 섹션에서는 제안된 프레임워크를 평가하기 위해 사용된 실험 설정을 설명한다. 또한 성능을 포괄적으로 평가하기 위해 사용된 평가 지표에 대한 자세한 설명을 제공한다.

백 트레이딩

현실적인 거래 환경을 시뮬레이션하기 위해, 우리는 Apple, Nvidia, Microsoft, Meta, Google 등 다양한 주식을 포함하는 다중 자산 및 다중 모드 금융 데이터셋을 활용한다. 데이터셋에는 다음이 포함된다:
• 역사적 주가: 2024년 1월 1일부터 2024년 3월 29일까지의 시가, 고가, 저가, 종가, 거래량 및 조정 종가.
• 뉴스 기사: Bloomberg, Yahoo, EODHD, FinnHub, Reddit 등 다양한 출처에서 수집된 일일 뉴스 업데이트로, 특정 회사 개발, 글로벌 이벤트, 거시 경제 동향 및 정부 업데이트를 다룬다.
• 소셜 미디어 게시물 및 감정: Reddit, X/Twitter 및 기타 플랫폼의 게시물과 보조 언어 모델에 의해 계산된 게시물의 감정 점수.
• 내부자 감정 및 거래: SEDI 및 관련 회사 제출 자료에서의 거래를 포함한 공개 정보에서 파생된 감정.
• 재무제표 및 실적 보고서: 회사가 제출한 분기 및 연간 보고서.
• 회사 프로필 및 재무 이력: 제3자가 보고한 회사 프로필, 목표 산업 및 재무 이력 설명.
• 기술 지표: 각 자산에 대해 계산된 60개의 표준 기술 분석 지표, MACD, RSI, 볼린저 밴드 등 포함.

시뮬레이션 설정
우리는 2024년 1월 1일부터 2024년 3월 29일까지의 기간 동안 거래 환경을 시뮬레이션한다. TradingAgents는 시뮬레이션 동안 플러그 앤 플레이 전략을 원활하게 지원하여 어떤 기준선과도 간단한 비교를 가능하게 한다. 에이전트는 각 거래일까지 사용 가능한 데이터에만 기반하여 결정을 내리며, 미래 데이터를 사용하지 않도록 보장한다 (선행 편향 제거). 분석에 따라, TradingAgents는 자산을 매수, 매도 또는 보유할 거래 신호를 생성하고, 이를 실행한다. 이후, 분석 지표가 계산된 후 다음 날의 데이터로 진행한다.

기준 모델
우리는 여러 기준선과 우리의 TradingAgents 프레임워크를 비교한다:
• 매수 및 보유: 선택된 모든 주식에 동일한 금액을 투자하고 시뮬레이션 기간 동안 보유.
• MACD (이동 평균 수렴 발산): MACD 선과 신호 선 사이의 교차점을 기반으로 매수 및 매도 신호를 생성하는 추세 추종 모멘텀 전략.

[표1]: 모든 방법의 성능 비교는 네 가지 평가 지표를 사용하여 수행한다. 녹색으로 강조된 결과는 각 모델의 최고 성능 통계를 나타낸다. 개선 행은 최고 성능의 기준선 대비 TradingAgents의 성능 향상을 보여준다.

• KDJ와 RSI (상대 강도 지수): KDJ(스토캐스틱 오실레이터)와 RSI(상대 강도 지수) 지표를 결합하여 과매수 및 과매도 조건을 식별하는 모멘텀 전략이다.
• ZMR (제로 평균 회귀): 가격이 제로 기준선에서 벗어나고 다시 회귀하는 것을 기반으로 신호를 생성하는 평균 회귀 거래 전략이다.
• SMA (단순 이동 평균): 단기 및 장기 이동 평균 간의 교차를 기반으로 거래 신호를 생성하는 추세 추종 전략이다.

평가 지표
TradingAgents 프레임워크의 성능을 철저히 평가하기 위해 널리 인정된 지표를 사용하여 TradingAgents 전략의 위험 관리, 수익성 및 안전성을 기준 접근 방식과 비교하여 평가한다. 여기서 이러한 지표를 설명한다:

누적 수익률 (CR)
누적 수익률은 시뮬레이션 기간 동안 생성된 총 수익률을 측정한다. 이는 다음과 같이 계산된다:
CR = (Vend − Vstart) / Vstart × 100%
여기서 Vend는 시뮬레이션 종료 시 포트폴리오 가치이고, Vstart는 초기 포트폴리오 가치이다.

연간 수익률 (AR)
연간 수익률은 누적 수익률을 연수로 정규화한다:
AR = (Vend / Vstart)^(1/N) − 1 × 100%
여기서 N은 시뮬레이션의 연수이다.

샤프 비율 (SR)
샤프 비율은 포트폴리오의 초과 수익률을 위험 프리미엄과 비교하여 위험 조정 수익률을 측정한다:
SR = (¯R − Rf) / σ
여기서 ¯R은 평균 포트폴리오 수익률, Rf는 무위험 이자율(예: 3개월 만기 국채 수익률), σ는 포트폴리오 수익률의 표준 편차이다.

최대 낙폭 (MDD)
최대 낙폭은 포트폴리오 가치의 가장 큰 고점에서 저점까지의 하락을 측정한다:
MDD = max (Peakt − Trought) / Peakt × 100%

결과 및 분석

이 섹션에서는 실험 결과를 제시하고 TradingAgents의 성능을 기준 모델과 비교하여 분석한다.

성능 비교
누적 및 연간 수익률
[표]와 그림 6, 7, 8은 우리의 방법이 기존 규칙 기반 거래 기준선을 특히 수익성 측면에서 크게 능가함을 보여준다. TradingAgents는 샘플링된 세 개의 주식에서 최소 23.21%의 누적 수익률과 24.90%의 연간 수익률을 달성하여 최고 성능의 기준선을 6.1% 이상 초과한다. 특히, $AAPL 주식에서는 테스트 기간 동안 시장 변동성으로 인해 전통적인 방법이 어려움을 겪었으나, TradingAgents는 이러한 불리한 조건에서도 월간 26% 이상의 수익률을 달성하였다.

샤프 비율
샤프 비율 성능은 TradingAgents의 뛰어난 위험 조정 수익률 제공 능력을 강조한다. TradingAgents는 모든 기준 모델을 능가한다. TradingAgents는 3개월 동안 집중적인 LLM 및 도구 사용으로 벤치마킹되었다. 최고 샤프 비율은 예상 경험적 범위를 초과한다(SR 2 이상 - 매우 좋음, 3 이상 - 우수). TradingAgents의 결정 시퀀스를 내보내어 계산의 정확성을 확인하였다. 이 기간 동안 TradingAgents에서 후퇴가 거의 없었던 현상으로 인해 매우 높은 SR이 발생한 것으로 믿는다. 실험 결과를 충실히 보고한다. 향후 연구에서는 제한된 예산 하에서 더 긴 백테스팅을 가능하게 하기 위해 LLM 추론 및 도구 사용을 최적화할 것이다.

(b) AAPL에 대한 TradingAgents 거래. 녹색/빨간색 화살표는 롱/숏 포지션을 나타냄.

그림 6: TradingAgents: AAPL에 대한 누적 수익률 (CR) 및 상세 거래 내역.

결과는 TradingAgents가 수익과 위험을 균형 있게 조절하는 효과를 강조하며, 이는 지속 가능하고 예측 가능한 투자 성장을 위한 중요한 요소임을 보여준다. TradingAgents는 Buy-and-Hold 및 규칙 기반 전략과 같은 시장 벤치마크를 일관되게 능가하며, 적응성을 입증한다. 수익을 극대화하면서도 통제된 위험 노출을 유지하는 능력은 다중 에이전트 및 토론 기반 자동 거래 알고리즘을 위한 강력한 기반을 마련한다.
최대 손실
규칙 기반 기준선은 위험을 통제하는 데 있어 우수한 성과를 보였으나, 높은 수익을 포착하는 데는 실패했다. 이 위험과 보상의 균형은 TradingAgents의 강점으로, 균형 잡힌 접근 방식을 보여준다. 높은 수익이 일반적으로 높은 위험과 연관되어 있음에도 불구하고, TradingAgents는 많은 기준선에 비해 상대적으로 낮은 최대 손실을 유지했다. 위험 통제 에이전트 간의 토론을 통해 효과적인 위험 통제 메커니즘이 최대 손실을 관리 가능한 한도 내로 유지하도록 보장했다. 이는 TradingAgents가 수익을 극대화하고 위험을 효과적으로 관리하는 강력한 균형을 이루는 능력을 보여준다.
설명 가능성
현재 거래를 위한 딥러닝 방법의 주요 단점은 복잡한 구조로 인해 거래 에이전트의 결정을 이해하기 어렵다는 점이다. 이 문제는 AI 설명 가능성에 뿌리를 두고 있으며, 실제 금융 시장에서 거래 에이전트가 운영될 때 잘못된 결정이 심각한 손실을 초래할 수 있다.
반면, LLM 기반 에이전트 프레임워크는 변혁적인 이점을 제공한다. 결정이 자연어로 전달되어 해석 가능성을 높인다. 예를 들어, TradingAgents의 전체 거래 로그를 부록에 제공하여 ReAct 스타일의 프롬프트 프레임워크(Yao et al. 2023)를 사용하는 것을 보여준다. 각 결정에는 상세한 이유, 도구 사용, 사고 과정이 포함되어 있어 거래자가 시스템을 이해하고 디버그할 수 있다. 이 투명성은 거래자가 프레임워크를 미세 조정할 수 있도록 하여, 딥러닝 거래 알고리즘보다 우수한 설명 가능성을 제공한다.

논의

결과는 여러 전문화된 LLM 에이전트를 통합하고 에이전트 토론을 촉진함으로써 거래 성과가 크게 향상됨을 보여준다. 이 프레임워크는 다양한 데이터 소스와 전문가 분석을 효율적으로 종합하여 거래 에이전트가 특정 위험 프로필에 맞춘 잘-informed된 결정을 내릴 수 있도록 한다. 반성적 에이전트와 전담 위험 관리 팀의 포함은 전략을 정제하고 위험을 완화하는 데 중요한 역할을 한다. 결과적으로 프레임워크는 뛰어난 수익 포착을 달성하면서 강력한 위험 관리 지표를 유지하여 보상을 극대화하고 위험을 최소화하는 최적의 균형을 이룬다. 또한, 다중 에이전트 LLM 프레임워크의 자연어 기반 운영은 높은 설명 가능성을 보장하여, TradingAgents가 전통적 및 딥러닝 방법에 비해 투명성과 해석 가능성에서 뚜렷한 이점을 제공한다.

결론

이 논문에서는 TradingAgents라는 LLM 에이전트 기반 주식 거래 프레임워크를 소개했다. 이는 여러 전문화된 에이전트가 에이전트 토론과 대화를 통해 거래 회사 환경을 현실적으로 시뮬레이션한다. 다양한 금융 데이터 소스를 처리하고 분석하는 LLM의 고급 기능을 활용하여, 프레임워크는 더 잘-informed된 거래 결정을 가능하게 하며, 포괄적인 추론과 토론을 통해 성과를 향상시킨다. 각기 다른 역할과 위험 프로필을 가진 에이전트와 반성적 에이전트 및 전담 위험 관리 팀을 통합함으로써, TradingAgents는 기준 모델에 비해 거래 결과와 전반적인 위험 관리를 크게 개선한다. 또한, 이러한 에이전트의 협력적 특성은 다양한 시장 조건에 대한 적응성을 보장한다. 광범위한 실험은 TradingAgents가 누적 수익률, 샤프 비율 및 기타 중요한 금융 지표에서 전통적 거래 전략과 기준선을 능가함을 보여준다. 향후 연구는 실시간 거래 환경에서 프레임워크를 배포하고, 에이전트 역할을 확장하며, 실시간 데이터 처리를 통합하여 성과를 더욱 향상시키는 데 중점을 둘 것이다.