基于树集成方法的双资产组合优化：一个机器学习案例研究

1. 引言

本研究旨在应对利用机器学习技术构建最优双资产投资组合的挑战。研究聚焦于一个由标普500股票指数和美元/英镑货币对组成的投资组合。主要目标是利用月度及季度频率的宏观经济数据，通过树集成方法——特别是随机森林和XGBoost——来预测这些资产的收益率。这些预测随后被用作现代投资组合理论（MPT）优化中的预期收益输入。次要目标是识别哪些宏观经济变量对预测结果具有显著影响。本研究批判性地检验了基于机器学习估计数据构建的投资组合，与使用简单历史平均值构建的投资组合是否存在有意义的差异。

2. 方法与数据

2.1 数据收集与预处理

分析使用了标普500指数和美元/英镑汇率的时间序列数据。收集了一系列宏观经济指标作为潜在的预测特征，这些指标可能包括利率、通胀指数、工业生产数据和失业率等变量，数据来源于FRED等数据库。数据被划分为训练集、验证集和测试集，并特别注意避免前瞻性偏差。根据模型要求，对特征进行了归一化或标准化处理。

2.2 树集成模型：随机森林与XGBoost

本研究采用两种先进的集成学习算法进行时间序列预测：

随机森林：一种决策树的集成方法，通过对数据的自助采样和随机特征选择进行训练，减少了过拟合，提供了稳健的预测。
XGBoost（极限梯度提升）：一个可扩展的、正则化的梯度提升框架，以其速度和性能著称。它顺序地构建树以纠正前序树的误差，通常在结构化数据上能提供最先进的预测结果。

选择这些模型是因为它们能够处理宏观经济变量之间的非线性关系和复杂交互，而无需严格的参数假设。

2.3 投资组合构建框架

机器学习模型的预测收益率作为马科维茨均值-方差优化框架中的预期收益向量 $\mu$。两种资产的组合权重 $w$ 通过求解优化问题来确定，该问题旨在最大化夏普比率或在给定目标收益率下最小化方差。协方差矩阵 $\Sigma$ 通常根据历史收益率进行估计。随后，将“基于机器学习的投资组合”的绩效与使用历史平均收益率构建的基准投资组合进行比较。

3. 实验结果与分析

3.1 预测性能

树集成模型在预测标普500和美元/英镑的收益率方向性变动方面表现出统计上显著的能力，在预测收益率幅度方面也有一定能力。报告了平均绝对误差（MAE）、均方根误差（RMSE）和方向准确性等评估指标。XGBoost在预测准确性方面通常略优于随机森林，尤其是在季度数据上，这很可能归因于其更复杂的提升机制和正则化。

3.2 投资组合绩效比较

图表描述： 一个比较性折线图将展示样本外测试期内三个投资组合的累计收益率：1）基于机器学习预测的最优投资组合，2）基于历史均值的最优投资组合，以及3）等权重基准投资组合。

结果表明，与基于历史均值的投资组合相比，使用机器学习预测构建的投资组合实现了更优的风险调整后收益特征（更高的夏普比率）。标普500和美元/英镑之间的资产配置权重也存在有意义的差异，这表明机器学习模型捕捉到了简单历史平均值无法捕捉的时变预期收益。

3.3 特征重要性分析

随机森林和XGBoost都提供了原生特征重要性评分。分析显示，对于标普500，期限利差、消费者信心和前期股票市场波动率等领先指标是排名靠前的预测因子。对于美元/英镑，利率差异、贸易平衡数据和更广泛的美元指数走势最具影响力。这一见解对于经济解释和模型简化具有重要价值。

4. 核心见解与讨论

核心见解

本文最具说服力的论点并非机器学习能够战胜市场，而是即使通过树集成方法实现的、可解释的、适度的预测改进，也能显著改变简单双资产投资组合的有效前沿计算。这对长期投资者在非股票/债券混合资产配置中被动“设置后遗忘”的信条提出了挑战。

逻辑脉络

研究逻辑是合理的：1）使用稳健、非参数的机器学习（随机森林/XGBoost）将宏观数据消化为收益率预测，规避线性模型的缺陷。2）将这些预测输入经典的马科维茨优化引擎。3）验证输出投资组合与简单历史基准的差异。从宏观驱动因素到资产预测，再到组合权重的流程清晰且可复现。

优势与不足

优势： 聚焦于一个易于处理的二资产案例，增强了清晰度。使用树模型提供了固有的非线性和特征重要性，增加了深度学习金融论文中常缺失的经济可解释性。与历史均值基线的比较是公平且相关的。

不足： 一个显而易见的问题是协方差估计。本研究使用了历史协方差，而众所周知历史协方差是不稳定的。使用机器学习预测协方差结构可能是合乎逻辑的下一步，但本文未涉及。二资产的简化虽然增强了清晰度，但也限制了机器学习在多资产背景下可能释放的分散化效益。交易成本以及基于这些信号进行月度/季度再平衡的实际可行性也未作讨论。

可操作的见解

对于从业者而言：不要忽视像XGBoost这样的简单集成方法用于收益率预测；对于结构化的宏观/金融数据，它们可能比神经网络更稳健、更易解释。识别出的关键宏观驱动因素（例如，股票的期限利差、外汇的利率差异）应是分析师监控这些资产类别时的首要关注点。这种方法最适合能够系统性地实施和再平衡此类策略的机构投资者或成熟个人投资者，而非寻求短期超额收益的散户交易者。

5. 技术细节与数学框架

投资组合优化的核心是马科维茨均值-方差模型。目标是找到解决以下两个问题之一的权重向量 $w$：

最大化夏普比率：
$\max_{w} \frac{w^T \mu}{\sqrt{w^T \Sigma w}}$
约束条件为 $\sum_i w_i = 1$，并且可能要求 $w_i \ge 0$（禁止卖空）。

在目标收益率 $R_p$ 下最小化方差：
$\min_{w} w^T \Sigma w$
约束条件为 $w^T \mu = R_p$ 且 $\sum_i w_i = 1$。

其中 $\mu$ 是预期收益向量（由随机森林/XGBoost预测），$\Sigma$ 是收益率的协方差矩阵。树集成模型本身通过创建一组 $M$ 棵树（对于随机森林）或顺序构建的树（对于XGBoost）来工作，这些树将输入特征 $x$ 映射到预测收益率 $\hat{y}$。对于随机森林，预测是平均值：$\hat{y} = \frac{1}{M} \sum_{m=1}^{M} T_m(x)$。XGBoost的预测是一个加法模型：$\hat{y} = \sum_{k=1}^{K} f_k(x)$，其中每个 $f_k$ 是来自函数空间 $\mathcal{F}$ 的一棵树，模型通过最小化一个正则化目标进行训练：$\mathcal{L}(\phi) = \sum_i l(\hat{y}_i, y_i) + \sum_k \Omega(f_k)$，其中 $\Omega(f) = \gamma T + \frac{1}{2}\lambda ||w||^2$ 用于控制复杂度。

6. 分析框架：示例案例

场景： 一家投资基金希望为下一季度在美国股票（以SPY ETF为代表）和英镑/美元汇率（以外汇头寸为代表）之间进行资产配置。

步骤 1 - 数据准备： 收集过去10年的月度数据，包括SPY收益率、英镑/美元收益率以及20个宏观经济变量（例如，美国CPI、英国CPI、联邦基金利率、英国央行利率、美英10年期国债收益率利差、VIX指数等）。目标变量是下一期的收益率。最近2年的数据留作测试集。

步骤 2 - 模型训练与预测： 在训练数据上训练一个XGBoost模型来预测SPY收益率，并训练另一个单独的模型来预测英镑/美元收益率。对 `max_depth`、`learning_rate` 和 `n_estimators` 等参数进行超参数调优（通过交叉验证）。为测试期生成一步向前预测。

步骤 3 - 投资组合优化： 对于测试集中的每个月，使用XGBoost预测作为 $\mu$，并使用过去3年的历史收益率计算协方差矩阵 $\Sigma$。求解切线投资组合（最大化夏普比率）的权重。

步骤 4 - 回测与评估： 计算动态再平衡的基于机器学习的投资组合的累计收益率、波动率和夏普比率。将其与静态的60/40投资组合以及使用历史平均收益率作为 $\mu$ 的投资组合进行比较。

7. 未来应用与研究展望

多资产投资组合： 将框架扩展到更广泛的资产类别（债券、大宗商品、国际股票），以测试机器学习真正的分散化能力。
动态协方差估计： 整合机器学习技术（例如，图形LASSO、循环神经网络）来预测协方差矩阵 $\Sigma$ 和收益率，超越历史估计。
纳入另类数据： 使用来自新闻/社交媒体的情绪数据、供应链信息或卫星图像来增强特征集，如《新闻对波动率的影响》（Tetlock, 2007）等研究中所探讨的。
在线学习与适应： 实现树集成的在线版本，使其能够实时适应不断变化的市场状态，这一概念与人工智能中的“持续学习”挑战相一致。
可解释人工智能（XAI）集成： 将SHAP（SHapley Additive exPlanations）值与特征重要性结合使用，为特定预测提供更深层次的、实例级别的解释，这对于金融领域利益相关者的信任至关重要。
因子整合： 将机器学习预测与传统因子模型（例如，Fama-French因子）相结合，创建混合的预期收益估计。

8. 参考文献

Ahmed, N. K., Atiya, A. F., Gayar, N. E., & El-Shishiny, H. (2010). An empirical comparison of machine learning models for time series forecasting. Econometric Reviews, 29(5-6), 594-621.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.
Markowitz, H. (1952). Portfolio selection. The Journal of Finance, 7(1), 77-91.
Pham, H. (2025). [PDF中引用的关于股票/债券策略的相关工作]。
Ţiţan, A. G. (2015). The efficient market hypothesis: Review of specialized literature and empirical research. Procedia Economics and Finance, 32, 442-449.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE International Conference on Computer Vision, 2223-2232. （作为概念参考的经典机器学习架构论文示例被引用）。

目录