트리 앙상블 방법을 활용한 두 자산 포트폴리오 최적화: 머신러닝 사례 연구

1. 서론

본 연구는 머신러닝 기법을 활용하여 최적의 두 자산 투자 포트폴리오를 구성하는 과제를 다룹니다. 연구는 S&P 500 주가지수와 USD/GBP 통화쌍으로 구성된 포트폴리오에 초점을 맞춥니다. 주요 목표는 월별 및 분기별 거시경제 데이터를 활용하여 트리 앙상블 방법—구체적으로 랜덤 포레스트와 XGBoost—을 사용하여 이들 자산의 수익률을 예측하는 것입니다. 이러한 예측치는 현대 포트폴리오 이론(MPT) 최적화를 위한 기대수익률 입력값으로 사용됩니다. 부차적 목표는 예측에 유의미한 영향을 미치는 거시경제 변수를 식별하는 것입니다. 본 연구는 ML로 추정된 데이터를 기반으로 구축된 포트폴리오가 단순한 역사적 평균을 사용하여 구성된 포트폴리오와 의미 있는 차이를 보이는지 비판적으로 검토합니다.

2. 방법론 및 데이터

2.1 데이터 수집 및 전처리

분석은 S&P 500 지수와 USD/GBP 환율에 대한 시계열 데이터를 활용합니다. 잠재적 예측 변수로서 일련의 거시경제 지표(금리, 물가지수, 산업생산지수, 실업률 등과 같은 변수를 포함할 수 있음)를 FRED와 같은 데이터베이스에서 수집합니다. 데이터는 훈련, 검증, 테스트 세트로 분할되며, 미래 정보 유입 편향을 피하는 데 세심한 주의를 기울입니다. 변수들은 모델의 요구에 따라 정규화 또는 표준화됩니다.

2.2 트리 앙상블 모델: 랜덤 포레스트와 XGBoost

시계열 예측을 위해 두 가지 고급 앙상블 학습 알고리즘이 사용됩니다:

랜덤 포레스트: 무작위 변수 선택을 통해 데이터의 부트스트랩 샘플로 훈련된 의사결정나무의 앙상블로, 과적합을 줄이고 강건한 예측을 제공합니다.
XGBoost (Extreme Gradient Boosting): 속도와 성능으로 유명한 확장 가능한 정규화된 그래디언트 부스팅 프레임워크입니다. 이전 트리의 오류를 수정하기 위해 순차적으로 트리를 구축하며, 구조화된 데이터에서 최첨단 결과를 제공하는 경우가 많습니다.

이 모델들은 엄격한 모수적 가정 없이도 거시경제 변수 간의 비선형 관계와 복잡한 상호작용을 처리할 수 있는 능력 때문에 선택되었습니다.

2.3 포트폴리오 구성 프레임워크

ML 모델로부터 예측된 수익률은 마코위츠 평균-분산 최적화 프레임워크에서 기대수익률 벡터 $\mu$ 역할을 합니다. 두 자산에 대한 포트폴리오 가중치 $w$는 샤프 비율을 최대화하거나 목표 수익률에 대한 분산을 최소화하는 최적화 문제를 해결하여 결정됩니다. 공분산 행렬 $\Sigma$는 일반적으로 역사적 수익률로부터 추정됩니다. 그런 다음 "ML 기반 포트폴리오"의 성과는 역사적 평균 수익률을 사용하여 구성된 벤치마크 포트폴리오와 비교됩니다.

3. 실험 결과 및 분석

3.1 예측 성능

트리 앙상블 모델들은 S&P 500과 USD/GBP 모두에 대해 방향성 움직임과, 다소 낮은 수준이지만 수익률의 크기를 통계적으로 유의미하게 예측할 수 있는 능력을 보였습니다. 평균 절대 오차(MAE), 평균 제곱근 오차(RMSE), 방향 정확도와 같은 평가 지표가 보고되었습니다. XGBoost는 특히 분기별 데이터에서 예측 정확도 측면에서 랜덤 포레스트에 비해 약간의 우위를 보였는데, 이는 보다 정교한 부스팅 메커니즘과 정규화 때문일 가능성이 높습니다.

3.2 포트폴리오 성과 비교

차트 설명: 비교 선형 차트는 표본 외 테스트 기간 동안 세 가지 포트폴리오의 누적 수익률을 보여줄 것입니다: 1) ML 예측 기반 최적 포트폴리오, 2) 역사적 평균 기반 최적 포트폴리오, 3) 동일 가중치 벤치마크.

결과는 ML 예측을 사용하여 구성된 포트폴리오가 역사적 평균을 기반으로 한 포트폴리오에 비해 우수한 위험조정 수익률 프로파일(더 높은 샤프 비율)을 달성했음을 나타냈습니다. S&P 500과 USD/GBP 간의 자산배분 가중치도 의미 있게 달랐는데, 이는 ML 모델이 단순한 역사적 평균이 포착하지 못하는 시변동 기대수익률을 포착했음을 시사합니다.

3.3 변수 중요도 분석

랜덤 포레스트와 XGBoost 모두 자체적인 변수 중요도 점수를 제공합니다. 분석 결과, S&P 500의 경우 만기 스프레드, 소비자 심리, 이전 주식시장 변동성과 같은 선행 지표들이 주요 예측 변수 중 하나였습니다. USD/GBP의 경우 금리 차이, 무역수지 데이터, 광범위한 달러 지수 움직임이 가장 큰 영향을 미쳤습니다. 이러한 통찰은 경제적 해석과 모델 단순화에 가치가 있습니다.

4. 핵심 통찰 및 논의

핵심 통찰

본 논문의 가장 설득력 있는 주장은 ML이 시장을 이길 수 있다는 것이 아니라, 트리 앙상블을 통한 예측에서의 미미하지만 설명 가능한 개선조차도 단순한 두 자산 포트폴리오에 대한 효율적 프론티어 계산을 실질적으로 변화시킬 수 있다는 점입니다. 이는 비주식/채권 혼합 포트폴리오를 보유한 장기 투자자들의 수동적 "설정 후 방치" 배분 관행에 도전합니다.

논리적 흐름

연구 논리는 건실합니다: 1) 강건한 비모수적 ML(RF/XGBoost)을 사용하여 거시 데이터를 수익률 예측으로 소화하고, 선형 모델의 함정을 피합니다. 2) 이러한 예측치를 고전적인 마코위츠 엔진에 투입합니다. 3) 결과 포트폴리오가 단순한 역사적 벤치마크와 다름을 검증합니다. 거시 동인에서 자산 예측으로, 다시 포트폴리오 가중치로의 흐름은 명확하고 재현 가능합니다.

강점과 한계

강점: 다루기 쉬운 두 자산 사례에 대한 실용적 초점이 명확성을 높입니다. 트리 모델을 사용함으로써 고유한 비선형성과 변수 중요도를 제공하여, 딥러닝 금융 논문에서 종종 빠지는 경제적 해석 가능성을 추가합니다. 역사적 평균 기준선과의 비교는 공정하고 관련성이 있습니다.

한계: 가장 큰 문제는 공분산 추정입니다. 본 연구는 악명 높게 불안정한 역사적 공분산을 사용합니다. ML로 예측된 공분산 구조는 논리적인 다음 단계가 될 수 있지만 본 연구에는 포함되지 않았습니다. 두 자산 단순화는 명확성을 위한 강점이지만, ML이 다중 자산 맥락에서 발휘할 수 있는 분산 효과를 제한합니다. 거래 비용과 이러한 신호를 기반으로 한 월별/분기별 재조정의 실현 가능성은 다루지 않았습니다.

실행 가능한 통찰

실무자들을 위해: 수익률 예측을 위해 XGBoost와 같은 단순한 앙상블 방법을 간과하지 마십시오; 구조화된 거시/금융 데이터에 대해 신경망보다 더 강건하고 해석 가능할 수 있습니다. 식별된 주요 거시 동인(예: 주식의 만기 스프레드, 외환의 금리 차이)은 이러한 자산군을 모니터링하는 애널리스트들이 최우선으로 고려해야 합니다. 이 접근법은 이러한 전략을 체계적으로 실행하고 재조정할 수 있는 기관 투자자나 정교한 개인 투자자에게 가장 타당하며, 단기 알파를 추구하는 소매 트레이더를 위한 것은 아닙니다.

5. 기술적 세부사항 및 수학적 프레임워크

포트폴리오 최적화의 핵심은 마코위츠 평균-분산 모델입니다. 목표는 다음 두 문제 중 하나를 해결하는 가중치 벡터 $w$를 찾는 것입니다:

최대 샤프 비율:
$\max_{w} \frac{w^T \mu}{\sqrt{w^T \Sigma w}}$
제약 조건: $\sum_i w_i = 1$, 그리고 공매도 금지를 위해 $w_i \ge 0$ (선택적).

목표 수익률 $R_p$에 대한 최소 분산:
$\min_{w} w^T \Sigma w$
제약 조건: $w^T \mu = R_p$ 및 $\sum_i w_i = 1$.

여기서 $\mu$는 기대수익률 벡터(RF/XGBoost로 예측됨)이고 $\Sigma$는 수익률의 공분산 행렬입니다. 트리 앙상블 모델 자체는 입력 변수 $x$를 예측 수익률 $\hat{y}$로 매핑하는 $M$개의 트리(랜덤 포레스트의 경우) 또는 순차적으로 구축된 트리(XGBoost의 경우) 세트를 생성하여 작동합니다. 랜덤 포레스트의 경우 예측은 평균입니다: $\hat{y} = \frac{1}{M} \sum_{m=1}^{M} T_m(x)$. XGBoost의 예측은 가법 모델입니다: $\hat{y} = \sum_{k=1}^{K} f_k(x)$, 여기서 각 $f_k$는 함수 공간 $\mathcal{F}$의 트리이며, 모델은 정규화된 목적 함수를 최소화하여 훈련됩니다: $\mathcal{L}(\phi) = \sum_i l(\hat{y}_i, y_i) + \sum_k \Omega(f_k)$, 여기서 $\Omega(f) = \gamma T + \frac{1}{2}\lambda ||w||^2$가 복잡도를 제어합니다.

6. 분석 프레임워크: 예시 사례

시나리오: 한 투자 펀드가 다음 분기를 위해 미국 주식(SPY ETF로 대리)과 GBP/USD 환율(외환 포지션으로 대리) 사이에 자금을 배분하려고 합니다.

1단계 - 데이터 준비: SPY 수익률, GBP/USD 수익률 및 20개의 거시경제 변수(예: 미국 CPI, 영국 CPI, 연방기금금리, 영란은행 금리, 미-영 10년물 금리 스프레드, VIX 등)에 대한 지난 10년간의 월별 데이터를 수집합니다. 목표 변수는 다음 기간의 수익률입니다. 가장 최근 2년은 테스트 세트로 보류합니다.

2단계 - 모델 훈련 및 예측: 훈련 데이터에 XGBoost 모델을 훈련시켜 SPY 수익률을 예측하고, GBP/USD 수익률을 예측하기 위해 별도의 모델을 훈련시킵니다. `max_depth`, `learning_rate`, `n_estimators`와 같은 하이퍼파라미터 튜닝(교차 검증을 통해)을 사용합니다. 테스트 기간에 대해 1-스텝 앞선 예측을 생성합니다.

3단계 - 포트폴리오 최적화: 테스트 세트의 각 월에 대해 XGBoost 예측치를 $\mu$로 사용하고, 최근 3년간의 역사적 수익률을 사용하여 공분산 행렬 $\Sigma$를 계산합니다. 접선 포트폴리오(최대 샤프 비율) 가중치를 구합니다.

4단계 - 백테스트 및 평가: 동적으로 재조정된 ML 기반 포트폴리오의 누적 수익률, 변동성, 샤프 비율을 계산합니다. 이를 정적 60/40 포트폴리오와 $\mu$에 역사적 평균 수익률을 사용한 포트폴리오와 비교합니다.

7. 향후 적용 및 연구 방향

다중 자산 포트폴리오: 프레임워크를 더 넓은 범위의 자산(채권, 원자재, 국제 주식)으로 확장하여 ML의 진정한 분산 효과를 테스트합니다.
동적 공분산 추정: ML 기법(예: Graphical LASSO, RNN)을 통합하여 수익률과 함께 공분산 행렬 $\Sigma$를 예측하고, 역사적 추정치를 넘어서는 방법을 모색합니다.
대체 데이터 통합: 뉴스/소셜 미디어의 정서 데이터, 공급망 정보, 위성 이미지와 같은 데이터로 변수 세트를 강화합니다. (예: "The Impact of News on Volatility" (Tetlock, 2007) 연구에서 탐구된 바와 같이).
온라인 학습 및 적응: 변화하는 시장 환경에 실시간으로 적응할 수 있는 트리 앙상블의 온라인 버전을 구현합니다. 이는 AI의 "지속 학습" 과제와 부합하는 개념입니다.
설명 가능한 AI(XAI) 통합: 변수 중요도와 함께 SHAP(SHapley Additive exPlanations) 값을 사용하여 특정 예측이 왜 이루어졌는지에 대한 더 깊은, 인스턴스 수준의 설명을 제공합니다. 이는 금융 분야에서 이해관계자의 신뢰에 중요합니다.
팩터 통합: ML 예측과 전통적 팩터 모델(예: 파마-프렌치 팩터)을 혼합하여 하이브리드 기대수익률 추정치를 생성합니다.

8. 참고문헌

Ahmed, N. K., Atiya, A. F., Gayar, N. E., & El-Shishiny, H. (2010). An empirical comparison of machine learning models for time series forecasting. Econometric Reviews, 29(5-6), 594-621.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.
Markowitz, H. (1952). Portfolio selection. The Journal of Finance, 7(1), 77-91.
Pham, H. (2025). [PDF에 인용된 주식/채권 전략 관련 연구].
Ţiţan, A. G. (2015). The efficient market hypothesis: Review of specialized literature and empirical research. Procedia Economics and Finance, 32, 442-449.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE International Conference on Computer Vision, 2223-2232. (개념적 참고를 위한 획기적인 ML 아키텍처 논문의 예시로 인용됨).

목차