樹狀集成方法於雙資產投資組合最佳化：機器學習個案研究

1. 緒論

本研究旨在探討運用機器學習技術建構最佳雙資產投資組合所面臨的挑戰。研究聚焦於一個由S&P 500股價指數與美元/英鎊貨幣對所組成的投資組合。主要目標是運用月頻率與季頻率的總體經濟數據，透過樹狀集成方法——特別是隨機森林與XGBoost——來預測這些資產的報酬率。這些預測結果隨後將作為現代投資組合理論最佳化中的預期報酬輸入。次要目標是識別哪些總體經濟變數對預測結果具有顯著影響。本研究深入檢視基於機器學習估計數據所建構的投資組合，是否與使用簡單歷史平均報酬所建構的組合存在顯著差異。

2. 方法論與數據

2.1 數據收集與前處理

本分析使用S&P 500指數與美元/英鎊匯率的時間序列數據。收集一系列總體經濟指標作為潛在預測特徵，這些指標可能包含利率、通膨指數、工業生產數據與失業率等變數，資料來源如FRED資料庫。數據被劃分為訓練集、驗證集與測試集，並謹慎避免前瞻性偏誤。特徵根據模型需求進行標準化或正規化處理。

2.2 樹狀集成模型：隨機森林與XGBoost

本研究採用兩種先進的集成學習演算法進行時間序列預測：

隨機森林： 一種決策樹的集成方法，透過對數據進行自助抽樣並隨機選擇特徵來訓練多棵樹，能有效降低過度擬合並提供穩健的預測。
XGBoost（極限梯度提升）： 一個可擴展、具正規化的梯度提升框架，以其速度與效能著稱。它依序建立樹模型以修正前一棵樹的錯誤，通常在結構化數據上能提供最先進的預測結果。

選擇這些模型是因為它們能夠處理總體經濟變數間的非線性關係與複雜交互作用，且無需嚴格的參數假設。

2.3 投資組合建構框架

來自機器學習模型的預測報酬，將作為馬科維茲平均數-變異數最佳化框架中的預期報酬向量 $\mu$。兩種資產的投資組合權重 $w$ 透過求解最佳化問題來決定，該問題旨在最大化夏普比率或在給定目標報酬下最小化變異數。共變異數矩陣 $\Sigma$ 通常由歷史報酬估計得出。隨後，將「基於機器學習的投資組合」之績效，與使用歷史平均報酬建構的基準投資組合進行比較。

3. 實驗結果與分析

3.1 預測表現

樹狀集成模型在預測S&P 500與美元/英鎊的報酬方向性變動上，展現了統計上顯著的能力，在預測報酬幅度方面亦有一定程度表現。報告的評估指標包括平均絕對誤差、均方根誤差與方向準確率。XGBoost在預測準確度上通常略優於隨機森林，特別是在季頻率數據上，這可能歸因於其更為精密的提升機制與正規化。

3.2 投資組合績效比較

圖表說明： 比較折線圖將展示三種投資組合在樣本外測試期間的累積報酬：1) 基於機器學習預測的最佳投資組合，2) 基於歷史平均的最佳投資組合，以及 3) 等權重基準投資組合。

結果顯示，相較於基於歷史平均報酬建構的投資組合，使用機器學習預測建構的投資組合實現了更優的風險調整後報酬（更高的夏普比率）。S&P 500與美元/英鎊之間的資產配置權重也存在顯著差異，這表明機器學習模型捕捉到了簡單歷史平均法無法捕捉的時變預期報酬。

3.3 特徵重要性分析

隨機森林與XGBoost均提供內建的特徵重要性評分。分析顯示，對於S&P 500，殖利率利差、消費者信心指數與前期股市波動率等領先指標是排名靠前的預測因子。對於美元/英鎊，利率差異、貿易收支數據與更廣泛的美元指數走勢最具影響力。此洞見對於經濟解讀與模型簡化具有重要價值。

4. 核心洞見與討論

核心洞見

本文最具說服力的論點並非機器學習能夠擊敗市場，而是透過樹狀集成方法實現的、即使是適度且可解釋的預測改進，也能顯著改變簡單雙資產投資組合的效率前緣計算。這挑戰了長期投資者在非股/債混合配置中「設定後即遺忘」的被動配置教條。

邏輯流程

研究邏輯嚴謹：1) 使用穩健、非參數的機器學習方法消化總體經濟數據以產生報酬預測，避開線性模型的缺陷。2) 將這些預測輸入經典的馬科維茲最佳化引擎。3) 驗證輸出的投資組合與天真的歷史基準組合存在差異。從總體經濟驅動因子到資產預測，再到投資組合權重的流程清晰且可複製。

優勢與缺陷

優勢： 務實地聚焦於易處理的雙資產案例，增強了清晰度。使用樹狀模型提供了內在的非線性處理能力與特徵重要性，增加了深度學習金融論文中常缺乏的經濟可解釋性。與歷史平均基準的比較公平且相關。

缺陷： 最顯著的問題是共變異數估計。本研究使用歷史共變異數，而眾所周知這並不穩定。使用機器學習預測共變異數結構應是合理的下一步，但本文並未涉及。雙資產的簡化雖有助於清晰度，但也限制了機器學習在多資產情境下可釋放的分散風險效益。交易成本以及基於這些訊號進行月/季頻率再平衡的實際可行性並未討論。

可執行洞見

對於實務工作者：勿忽視如XGBoost等簡單集成方法在報酬預測上的應用；對於結構化的總體/金融數據，它們可能比神經網路更穩健且可解釋。所識別的關鍵總體經濟驅動因子應成為分析師監控這些資產類別時的首要關注點。此方法最適合能夠系統性實施並對此策略進行再平衡的機構投資者或成熟個人投資者，而非尋求短期超額報酬的散戶交易者。

5. 技術細節與數學框架

投資組合最佳化的核心是馬科維茲平均數-變異數模型。目標是找到權重向量 $w$，以解決以下兩個問題之一：

最大化夏普比率：
$\max_{w} \frac{w^T \mu}{\sqrt{w^T \Sigma w}}$
限制條件為 $\sum_i w_i = 1$，且可能加上 $w_i \ge 0$ 以禁止放空。

在目標報酬 $R_p$ 下最小化變異數：
$\min_{w} w^T \Sigma w$
限制條件為 $w^T \mu = R_p$ 且 $\sum_i w_i = 1$。

其中 $\mu$ 是預期報酬向量（由隨機森林/XGBoost預測得出），$\Sigma$ 是報酬的共變異數矩陣。樹狀集成模型本身透過建立一組 $M$ 棵樹（隨機森林）或依序建立的樹（XGBoost）來運作，這些樹將輸入特徵 $x$ 映射到預測報酬 $\hat{y}$。對於隨機森林，預測是平均值：$\hat{y} = \frac{1}{M} \sum_{m=1}^{M} T_m(x)$。XGBoost的預測是一個加法模型：$\hat{y} = \sum_{k=1}^{K} f_k(x)$，其中每個 $f_k$ 是來自函數空間 $\mathcal{F}$ 的一棵樹，模型透過最小化一個正規化目標函數來訓練：$\mathcal{L}(\phi) = \sum_i l(\hat{y}_i, y_i) + \sum_k \Omega(f_k)$，其中 $\Omega(f) = \gamma T + \frac{1}{2}\lambda ||w||^2$ 用於控制模型複雜度。

6. 分析框架：範例個案

情境： 一家投資基金希望為下一季度在美國股票與英鎊/美元匯率之間進行資產配置。

步驟 1 - 數據準備： 收集過去10年SPY ETF報酬率、英鎊/美元匯率報酬率以及20個總體經濟變數的月數據。目標變數是下一期的報酬率。最近2年的數據保留作為測試集。

步驟 2 - 模型訓練與預測： 在訓練數據上訓練一個XGBoost模型來預測SPY報酬率，並為英鎊/美元報酬率訓練另一個獨立模型。使用超參數調校來優化參數。為測試期間生成一步向前預測。

步驟 3 - 投資組合最佳化： 對於測試集中的每個月份，使用XGBoost預測作為 $\mu$，並使用過去3年的歷史報酬計算共變異數矩陣 $\Sigma$。求解切線投資組合的權重。

步驟 4 - 回測與評估： 計算動態再平衡的機器學習投資組合的累積報酬、波動率與夏普比率。將其與靜態的60/40投資組合以及使用歷史平均報酬作為 $\mu$ 的投資組合進行比較。

7. 未來應用與研究方向

多資產投資組合： 將框架擴展至更廣泛的資產類別，以測試機器學習真正的分散風險能力。
動態共變異數估計： 整合機器學習技術來預測共變異數矩陣 $\Sigma$，超越歷史估計法。
納入另類數據： 使用來自新聞/社媒的情緒數據、供應鏈資訊或衛星影像來增強特徵集。
線上學習與適應： 實作樹狀集成模型的線上版本，使其能即時適應變化的市場狀態。
可解釋人工智慧整合： 使用SHAP值與特徵重要性相結合，為特定預測提供更深層、實例層級的解釋。
因子整合： 將機器學習預測與傳統因子模型相結合，創建混合的預期報酬估計。

8. 參考文獻

Ahmed, N. K., Atiya, A. F., Gayar, N. E., & El-Shishiny, H. (2010). An empirical comparison of machine learning models for time series forecasting. Econometric Reviews, 29(5-6), 594-621.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.
Markowitz, H. (1952). Portfolio selection. The Journal of Finance, 7(1), 77-91.
Pham, H. (2025). [Relevant work on equity/bond strategies cited in the PDF].
Ţiţan, A. G. (2015). The efficient market hypothesis: Review of specialized literature and empirical research. Procedia Economics and Finance, 32, 442-449.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE International Conference on Computer Vision, 2223-2232. (Cited as an example of a seminal ML architecture paper for conceptual reference).

目錄