目次
1. 序論
本研究は、機械学習技術を用いて最適な2資産投資ポートフォリオを構築するという課題に取り組む。研究の焦点は、S&P 500株価指数とUSD/GBP通貨ペアで構成されるポートフォリオである。主目的は、月次および四半期のマクロ経済データを活用し、ツリーアンサンブル手法―具体的にはランダムフォレストとXGBoost―を用いてこれらの資産のリターンを予測することである。これらの予測は、現代ポートフォリオ理論(MPT)最適化における期待リターンの入力として使用される。副次的な目的は、どのマクロ経済変数が予測に大きな影響を与えるかを特定することである。本研究は、ML推定データに基づいて構築されたポートフォリオが、単純な過去平均を用いて構築されたポートフォリオと有意に異なるかどうかを批判的に検証する。
2. 方法論とデータ
2.1 データ収集と前処理
分析には、S&P 500指数とUSD/GBP為替レートの時系列データを利用する。潜在的な予測特徴量として、金利、インフレ指数、鉱工業生産指数、失業率などの変数を含む可能性のある一連のマクロ経済指標を、FREDなどのデータベースから収集する。データは訓練用、検証用、テスト用に分割され、先読みバイアスを回避することに細心の注意を払う。特徴量はモデルの要件に応じて正規化または標準化される。
2.2 ツリーアンサンブルモデル:ランダムフォレストとXGBoost
時系列予測のために、2つの高度なアンサンブル学習アルゴリズムを採用する:
- ランダムフォレスト: データのブートストラップサンプルとランダムな特徴選択を用いて訓練された決定木のアンサンブルであり、過学習を抑制し、ロバストな予測を提供する。
- XGBoost(Extreme Gradient Boosting): その速度と性能で知られる、スケーラブルで正則化された勾配ブースティングフレームワーク。前の木の誤差を修正するために木を逐次的に構築し、構造化データにおいて最先端の結果をもたらすことが多い。
これらのモデルは、厳密なパラメトリックな仮定なしに、マクロ経済変数間の非線形関係や複雑な相互作用を扱える能力ゆえに選択された。
2.3 ポートフォリオ構築フレームワーク
MLモデルからの予測リターンは、マルコビッツの平均・分散最適化フレームワークにおける期待リターンベクトル $\mu$ として機能する。2資産のポートフォリオウェイト $w$ は、シャープレシオを最大化するか、目標リターンに対して分散を最小化する最適化問題を解くことによって決定される。共分散行列 $\Sigma$ は通常、過去のリターンから推定される。「MLベースのポートフォリオ」の性能は、過去平均リターンを用いて構築されたベンチマークポートフォリオと比較される。
3. 実験結果と分析
3.1 予測性能
ツリーアンサンブルモデルは、S&P 500とUSD/GBPの両方について、リターンの方向性の動きを統計的に有意に予測する能力を示し、リターンの大きさについてもある程度予測できた。平均絶対誤差(MAE)、二乗平均平方根誤差(RMSE)、方向性精度などの評価指標が報告された。XGBoostは、特に四半期データにおいて、予測精度の点でランダムフォレストに対してわずかに優位性を示すことが多く、これはそのより洗練されたブースティングメカニズムと正則化による可能性が高い。
3.2 ポートフォリオ性能比較
チャートの説明: 比較折れ線グラフは、サンプル外テスト期間における3つのポートフォリオの累積リターンを示す:1) ML予測ベースの最適ポートフォリオ、2) 過去平均ベースの最適ポートフォリオ、3) 均等加重ベンチマーク。
結果は、ML予測を用いて構築されたポートフォリオが、過去平均に基づくポートフォリオと比較して、優れたリスク調整後リターンプロファイル(より高いシャープレシオ)を達成したことを示した。S&P 500とUSD/GBPの間の資産配分ウェイトも有意に異なり、MLモデルが単純な過去平均では捉えられない時変的な期待リターンを捉えていることを示唆している。
3.3 特徴量重要度分析
ランダムフォレストとXGBoostの両方が、ネイティブの特徴量重要度スコアを提供する。分析により、S&P 500については、期間構造(タームスプレッド)、消費者センチメント、過去の株式市場のボラティリティなどの先行指標が上位の予測因子の一つであることが明らかになった。USD/GBPについては、金利差、貿易収支データ、より広範なドル指数の動きが最も影響力があった。この知見は、経済的解釈とモデルの簡素化にとって貴重である。
4. 主要な知見と考察
中核的知見
本論文の最も説得力のある主張は、MLが市場を打ち負かせるということではなく、ツリーアンサンブルによる予測の、控えめで説明可能な改善でさえ、単純な2資産ポートフォリオの効率的フロンティア計算を実質的に変化させうるということである。これは、株式/債券以外の組み合わせにおける長期投資家の受動的な「設定して忘れる」配分ドグマに疑問を投げかける。
論理的流れ
研究の論理は健全である:1) ロバストでノンパラメトリックなML(RF/XGBoost)を用いてマクロデータをリターン予測に消化し、線形モデルの落とし穴を回避する。2) これらの予測を古典的なマルコビッツ・エンジンに投入する。3) 出力されたポートフォリオが単純な過去ベンチマークと異なることを検証する。マクロ要因から資産予測、そしてポートフォリオウェイトへの流れは明確で再現可能である。
強みと欠点
強み: 扱いやすい2資産ケースに実用的に焦点を当てることで明確性が高まっている。ツリーモデルを使用することで、本質的な非線形性と特徴量重要度が提供され、ディープラーニングを用いた金融論文ではしばしば欠けている経済的解釈可能性が追加される。過去平均ベースラインとの比較は公平で関連性がある。
欠点: 明白な問題は共分散の推定である。本研究では過去の共分散を使用しているが、これは不安定であることで悪名高い。ML予測による共分散構造は論理的な次のステップとなりうるが、本稿では扱われていない。2資産への単純化は明確性の点では強みであるが、マルチアセットの文脈でMLが解き放つ可能性のある分散化のメリットを制限している。取引コストや、これらのシグナルに基づく月次/四半期のリバランスの実現可能性については言及されていない。
実践的知見
実務家向け:リターン予測のためにXGBoostのような単純なアンサンブル手法を見落とさないこと。構造化されたマクロ/金融データに対しては、ニューラルネットよりもロバストで解釈可能な場合がある。特定された主要なマクロ要因(例:株式のためのタームスプレッド、為替のための金利差)は、これらの資産クラスをモニタリングするアナリストが常に念頭に置くべきものである。このアプローチは、このような戦略を体系的に実装しリバランスできる機関投資家や熟練した個人投資家にとって最も正当化されるものであり、短期的なアルファを求める個人トレーダー向けではない。
5. 技術詳細と数学的フレームワーク
ポートフォリオ最適化の中核は、マルコビッツの平均・分散モデルである。目的は、以下の2つの問題のいずれかを解く重みベクトル $w$ を見つけることである:
最大シャープレシオ:
$\max_{w} \frac{w^T \mu}{\sqrt{w^T \Sigma w}}$
制約条件:$\sum_i w_i = 1$、および空売り禁止の場合は $w_i \ge 0$。
目標リターン $R_p$ に対する最小分散:
$\min_{w} w^T \Sigma w$
制約条件:$w^T \mu = R_p$ および $\sum_i w_i = 1$。
ここで、$\mu$ は期待リターンのベクトル(RF/XGBoostによって予測)、$\Sigma$ はリターンの共分散行列である。ツリーアンサンブルモデル自体は、入力特徴量 $x$ を予測リターン $\hat{y}$ にマッピングする $M$ 本の木(ランダムフォレストの場合)または逐次的に構築された木(XGBoostの場合)のセットを作成することで機能する。ランダムフォレストの場合、予測は平均値である:$\hat{y} = \frac{1}{M} \sum_{m=1}^{M} T_m(x)$。XGBoostの予測は加法モデルである:$\hat{y} = \sum_{k=1}^{K} f_k(x)$。ここで、各 $f_k$ は関数空間 $\mathcal{F}$ からの木であり、モデルは正則化された目的関数を最小化することで訓練される:$\mathcal{L}(\phi) = \sum_i l(\hat{y}_i, y_i) + \sum_k \Omega(f_k)$。ここで、$\Omega(f) = \gamma T + \frac{1}{2}\lambda ||w||^2$ が複雑さを制御する。
6. 分析フレームワーク:事例ケース
シナリオ: ある投資ファンドが、次の四半期において米国株式(SPY ETFで代理)とGBP/USD為替レート(外国為替ポジションで代理)の間で配分したいと考えている。
ステップ1 - データ準備: SPYリターン、GBP/USDリターン、および20のマクロ経済変数(例:米国CPI、英国CPI、フェデラルファンド金利、英中銀政策金利、米英10年債利回りスプレッド、VIXなど)の過去10年間の月次データを収集する。目的変数は次の期間のリターンである。直近2年間はテストセットとして確保する。
ステップ2 - モデル訓練と予測: 訓練データに対してXGBoostモデルを訓練し、SPYリターンを予測する。GBP/USDリターン用には別のモデルを訓練する。`max_depth`、`learning_rate`、`n_estimators` などのハイパーパラメータのチューニング(交差検証による)を行う。テスト期間に対して一期先予測を生成する。
ステップ3 - ポートフォリオ最適化: テストセットの各月について、XGBoost予測を $\mu$ として使用し、過去3年間の履歴リターンを使用して共分散行列 $\Sigma$ を計算する。接点ポートフォリオ(最大シャープレシオ)のウェイトを解く。
ステップ4 - バックテストと評価: 動的にリバランスされたMLベースのポートフォリオの累積リターン、ボラティリティ、シャープレシオを計算する。これを静的な60/40ポートフォリオおよび $\mu$ に過去平均リターンを使用したポートフォリオと比較する。
7. 将来の応用と研究の方向性
- マルチアセット・ポートフォリオ: フレームワークをより広範な資産群(債券、商品、国際株式)に拡張し、MLの真の分散化パワーをテストする。
- 動的共分散推定: ML技術(例:Graphical LASSO、RNN)を統合して、リターンとともに共分散行列 $\Sigma$ を予測し、過去推定を超える。
- オルタナティブデータの組み込み: ニュース/ソーシャルメディアからのセンチメントデータ、サプライチェーン情報、衛星画像などの特徴量セットを強化する(例:"The Impact of News on Volatility" (Tetlock, 2007) などの研究で探求されているように)。
- オンライン学習と適応: 変化する市場体制にリアルタイムで適応できるツリーアンサンブルのオンライン版を実装する。これはAIにおける「継続学習」の課題と整合する概念である。
- 説明可能なAI(XAI)の統合: SHAP(SHapley Additive exPlanations)値を特徴量重要度とともに使用し、なぜ特定の予測がなされたのかについて、インスタンスレベルのより深い説明を提供する。これは金融におけるステークホルダーの信頼にとって重要である。
- ファクター統合: ML予測と伝統的なファクターモデル(例:ファマ・フレンチ・ファクター)を組み合わせて、ハイブリッドな期待リターン推定を作成する。
8. 参考文献
- Ahmed, N. K., Atiya, A. F., Gayar, N. E., & El-Shishiny, H. (2010). An empirical comparison of machine learning models for time series forecasting. Econometric Reviews, 29(5-6), 594-621.
- Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
- Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.
- Markowitz, H. (1952). Portfolio selection. The Journal of Finance, 7(1), 77-91.
- Pham, H. (2025). [PDFで引用されている株式/債券戦略に関する関連研究].
- Ţiţan, A. G. (2015). The efficient market hypothesis: Review of specialized literature and empirical research. Procedia Economics and Finance, 32, 442-449.
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE International Conference on Computer Vision, 2223-2232. (概念的な参照のための画期的なMLアーキテクチャ論文の例として引用).