樹集成方法應用於雙資產投資組合優化：一個機器學習案例分析

1. 引言

本研究探討咗運用機器學習技術構建最優雙資產投資組合嘅挑戰。研究聚焦於一個由標普500股票指數同美元/英鎊貨幣對組成嘅投資組合。主要目標係利用月度同季度頻率嘅宏觀經濟數據，透過樹集成方法——特別係隨機森林同XGBoost——來預測呢啲資產嘅回報。呢啲預測之後會用作現代投資組合理論（MPT）優化嘅預期回報輸入。次要目標係識別邊啲宏觀經濟變數對預測有顯著影響。本研究亦會審視基於機器學習估算數據構建嘅投資組合，同基於簡單歷史平均值構建嘅組合係咪有顯著差異。

2. 方法論與數據

2.1 數據收集與預處理

分析採用咗標普500指數同美元/英鎊匯率嘅時間序列數據。收集咗一系列宏觀經濟指標作為潛在預測特徵，可能包括利率、通脹指數、工業生產數據同失業率等變數，數據來源包括FRED等數據庫。數據會分為訓練集、驗證集同測試集，並小心避免前瞻性偏差。特徵會根據模型需要進行標準化或歸一化處理。

2.2 樹集成模型：隨機森林與XGBoost

本研究採用咗兩種先進嘅集成學習算法進行時間序列預測：

隨機森林： 一種決策樹集成方法，透過對數據進行自助抽樣並隨機選擇特徵來訓練，有助減少過度擬合同提供穩健預測。
XGBoost（極限梯度提升）： 一個可擴展、正則化嘅梯度提升框架，以其速度同性能聞名。佢會順序構建樹來修正之前樹嘅錯誤，通常喺結構化數據上能提供最先進嘅結果。

選擇呢啲模型係因為佢哋能夠處理宏觀經濟變數之間嘅非線性關係同複雜交互作用，而無需嚴格嘅參數假設。

2.3 投資組合構建框架

機器學習模型預測出嘅回報，會作為馬科維茨均值-方差優化框架中嘅預期回報向量 $\mu$。兩個資產嘅投資組合權重 $w$ 係透過求解優化問題來確定，該問題旨在最大化夏普比率或最小化目標回報下嘅方差。協方差矩陣 $\Sigma$ 通常係根據歷史回報估算得出。然後，會將「基於機器學習嘅投資組合」嘅表現，同使用歷史平均回報構建嘅基準投資組合進行比較。

3. 實驗結果與分析

3.1 預測表現

樹集成模型展示出統計學上顯著嘅能力，能夠預測標普500同美元/英鎊嘅方向性走勢，以及（程度較低嘅）回報幅度。報告咗平均絕對誤差（MAE）、均方根誤差（RMSE）同方向準確率等評估指標。XGBoost喺預測準確度上通常略勝隨機森林一籌，特別係喺季度數據上，呢個可能歸功於其更複雜嘅提升機制同正則化。

3.2 投資組合表現比較

圖表描述： 一個比較折線圖會顯示三個投資組合喺樣本外測試期間嘅累積回報：1）基於機器學習預測嘅最優投資組合，2）基於歷史平均值嘅最優投資組合，以及3）一個等權重基準組合。

結果表明，使用機器學習預測構建嘅投資組合，相比基於歷史平均值嘅投資組合，實現咗更優嘅風險調整後回報（更高嘅夏普比率）。標普500同美元/英鎊之間嘅資產配置權重亦存在顯著差異，顯示機器學習模型捕捉到咗簡單歷史平均值無法捕捉嘅時變預期回報。

3.3 特徵重要性分析

隨機森林同XGBoost都提供原生嘅特徵重要性評分。分析顯示，對於標普500，期限利差、消費者信心同先前股市波動率等領先指標係最重要嘅預測因子。對於美元/英鎊，利率差異、貿易平衡數據同更廣泛嘅美元指數走勢最具影響力。呢個見解對於經濟解讀同模型簡化非常有價值。

4. 核心見解與討論

核心見解

本文最引人注目嘅論點並唔係話機器學習可以跑贏大市——而係即使透過樹集成方法喺預測上取得適度、可解釋嘅改進，都能夠實質上改變一個簡單雙資產組合嘅有效邊界計算。呢一點挑戰咗長期投資者喺非股票/債券混合配置中嘅被動「設定後不理」分配教條。

邏輯流程

研究邏輯穩健：1）使用穩健、非參數嘅機器學習（隨機森林/XGBoost）將宏觀數據消化成回報預測，避開線性模型嘅陷阱。2）將呢啲預測輸入到經典嘅馬科維茨引擎中。3）驗證輸出嘅投資組合同一個簡單嘅歷史基準有差異。從宏觀驅動因素到資產預測再到投資組合權重嘅流程清晰且可複製。

優點與不足

優點： 務實地聚焦於一個易處理嘅雙資產案例，增強咗清晰度。使用樹模型提供咗固有嘅非線性同特徵重要性，增加咗深度學習金融論文經常缺失嘅經濟可解釋性。與歷史平均值基準嘅比較公平且相關。

不足： 房間裡嘅大象係協方差估算。研究使用咗歷史協方差，而眾所周知歷史協方差唔穩定。機器學習預測嘅協方差結構可能係合乎邏輯嘅下一步，但本文並未涉及。雙資產簡化雖然有助於清晰度，但限制咗機器學習喺多資產情境下可以釋放嘅分散投資效益。交易成本同基於呢啲信號進行月度/季度再平衡嘅實際可行性亦未得到討論。

可行見解

對於從業者：唔好忽視XGBoost等簡單集成方法用於回報預測；對於結構化宏觀/金融數據，佢哋可能比神經網絡更穩健同可解釋。已識別嘅關鍵宏觀驅動因素（例如，股票嘅期限利差、外匯嘅利率差異）應該係分析師監控呢啲資產類別時首要關注嘅。呢種方法最適合能夠系統性實施同再平衡呢種策略嘅機構投資者或成熟個人投資者，而唔係尋求短期超額回報嘅散戶交易者。

5. 技術細節與數學框架

投資組合優化嘅核心係馬科維茨均值-方差模型。目標係找到權重向量 $w$，解決以下兩個問題之一：

最大化夏普比率：
$\max_{w} \frac{w^T \mu}{\sqrt{w^T \Sigma w}}$
受制於 $\sum_i w_i = 1$，並且可能 $w_i \ge 0$（禁止沽空）。

目標回報 $R_p$ 下嘅最小方差：
$\min_{w} w^T \Sigma w$
受制於 $w^T \mu = R_p$ 同 $\sum_i w_i = 1$。

其中 $\mu$ 係預期回報向量（由隨機森林/XGBoost預測得出），$\Sigma$ 係回報嘅協方差矩陣。樹集成模型本身透過創建一組 $M$ 棵樹（對於隨機森林）或順序構建嘅樹（對於XGBoost）來工作，將輸入特徵 $x$ 映射到預測回報 $\hat{y}$。對於隨機森林，預測係一個平均值：$\hat{y} = \frac{1}{M} \sum_{m=1}^{M} T_m(x)$。XGBoost嘅預測係一個加法模型：$\hat{y} = \sum_{k=1}^{K} f_k(x)$，其中每個 $f_k$ 係來自函數空間 $\mathcal{F}$ 嘅一棵樹，模型透過最小化一個正則化目標來訓練：$\mathcal{L}(\phi) = \sum_i l(\hat{y}_i, y_i) + \sum_k \Omega(f_k)$，其中 $\Omega(f) = \gamma T + \frac{1}{2}\lambda ||w||^2$ 用於控制複雜度。

6. 分析框架：示例案例

情境： 一個投資基金希望為下一季度喺美國股票（以SPY ETF代表）同英鎊/美元匯率（以外匯倉位代表）之間進行配置。

步驟 1 - 數據準備： 收集過去10年SPY回報、英鎊/美元回報同20個宏觀經濟變數（例如，美國CPI、英國CPI、聯邦基金利率、英倫銀行利率、美英10年期國債收益率差、VIX等）嘅月度數據。目標變數係下一期嘅回報。最近2年嘅數據留作測試集。

步驟 2 - 模型訓練與預測： 喺訓練數據上訓練一個XGBoost模型來預測SPY回報，並為英鎊/美元回報訓練另一個獨立模型。使用超參數調校（透過交叉驗證）來確定如 `max_depth`、`learning_rate` 同 `n_estimators` 等參數。為測試期生成一步超前預測。

步驟 3 - 投資組合優化： 對於測試集中嘅每個月份，使用XGBoost預測作為 $\mu$，並使用過去3年嘅歷史回報來計算協方差矩陣 $\Sigma$。求解切線投資組合（最大化夏普比率）嘅權重。

步驟 4 - 回測與評估： 計算動態再平衡嘅基於機器學習嘅投資組合嘅累積回報、波動率同夏普比率。將其與一個靜態嘅60/40投資組合，以及一個使用歷史平均回報作為 $\mu$ 嘅投資組合進行比較。

7. 未來應用與研究方向

多資產投資組合： 將框架擴展到更廣泛嘅資產類別（債券、商品、國際股票），以測試機器學習真正嘅分散投資能力。
動態協方差估算： 整合機器學習技術（例如，圖形LASSO、循環神經網絡）來預測協方差矩陣 $\Sigma$ 同回報，超越歷史估算。
納入另類數據： 用新聞/社交媒體嘅情緒數據、供應鏈信息或衛星圖像來增強特徵集，正如「新聞對波動率嘅影響」（Tetlock, 2007）等研究所探討嘅。
在線學習與適應： 實施樹集成模型嘅在線版本，能夠實時適應不斷變化嘅市場狀態，呢個概念與人工智能中嘅「持續學習」挑戰相一致。
可解釋人工智能（XAI）整合： 使用SHAP（SHapley Additive exPlanations）值同特徵重要性一齊，為某個預測嘅原因提供更深層次、實例級別嘅解釋，對於金融領域中嘅持份者信任至關重要。
因子整合： 將機器學習預測同傳統因子模型（例如，Fama-French因子）結合，創建混合預期回報估算。

8. 參考文獻

Ahmed, N. K., Atiya, A. F., Gayar, N. E., & El-Shishiny, H. (2010). An empirical comparison of machine learning models for time series forecasting. Econometric Reviews, 29(5-6), 594-621.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.
Markowitz, H. (1952). Portfolio selection. The Journal of Finance, 7(1), 77-91.
Pham, H. (2025). [PDF中引用嘅相關股票/債券策略研究].
Ţiţan, A. G. (2015). The efficient market hypothesis: Review of specialized literature and empirical research. Procedia Economics and Finance, 32, 442-449.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE International Conference on Computer Vision, 2223-2232. （作為概念參考嘅開創性機器學習架構論文示例引用）.

目錄