Méthodes d'Ensembles d'Arbres pour l'Optimisation de Portefeuille à Deux Actifs : Une Étude de Cas en Apprentissage Automatique

Table des matières

1. Introduction

Cette étude s'attaque au défi de la construction d'un portefeuille d'investissement optimal à deux actifs en utilisant des techniques d'apprentissage automatique. La recherche se concentre sur un portefeuille composé de l'indice boursier S&P 500 et de la paire de devises USD/GBP. L'objectif principal est d'exploiter des données macroéconomiques à des fréquences mensuelles et trimestrielles pour prévoir les rendements de ces actifs à l'aide de méthodes d'ensembles d'arbres – spécifiquement la Forêt Aléatoire et XGBoost. Ces prévisions sont ensuite utilisées comme intrants de rendement attendu pour l'optimisation de la théorie moderne du portefeuille (TMP). Un objectif secondaire est d'identifier quelles variables macroéconomiques exercent une influence significative sur les prévisions. L'étude examine de manière critique si un portefeuille construit sur des données estimées par l'IA diverge significativement d'un portefeuille construit en utilisant de simples moyennes historiques.

2. Méthodologie & Données

2.1 Collecte & Prétraitement des Données

L'analyse utilise des séries chronologiques pour l'indice S&P 500 et le taux de change USD/GBP. Une série d'indicateurs macroéconomiques est collectée comme caractéristiques prédictives potentielles, pouvant inclure des variables telles que les taux d'intérêt, les indices d'inflation, les chiffres de la production industrielle et les taux de chômage, provenant de bases de données comme FRED. Les données sont divisées en ensembles d'entraînement, de validation et de test, en veillant à éviter tout biais de prévision. Les caractéristiques sont normalisées ou standardisées selon les exigences des modèles.

2.2 Modèles d'Ensembles d'Arbres : Forêt Aléatoire & XGBoost

Deux algorithmes avancés d'apprentissage par ensemble sont employés pour la prévision de séries chronologiques :

Forêt Aléatoire : Un ensemble d'arbres de décision entraînés sur des échantillons bootstrap des données avec une sélection aléatoire de caractéristiques, réduisant le surajustement et fournissant des prédictions robustes.
XGBoost (Extreme Gradient Boosting) : Un cadre de boosting par gradient évolutif et régularisé, réputé pour sa vitesse et ses performances. Il construit séquentiellement des arbres pour corriger les erreurs des précédents, offrant souvent des résultats à la pointe sur des données structurées.

Ces modèles sont choisis pour leur capacité à gérer des relations non linéaires et des interactions complexes entre variables macroéconomiques sans hypothèses paramétriques strictes.

2.3 Cadre de Construction du Portefeuille

Les rendements prévus par les modèles d'IA servent de vecteur de rendement attendu $\mu$ dans le cadre d'optimisation moyenne-variance de Markowitz. Les pondérations du portefeuille $w$ pour les deux actifs sont déterminées en résolvant le problème d'optimisation qui maximise le ratio de Sharpe ou minimise la variance pour un rendement cible. La matrice de covariance $\Sigma$ est généralement estimée à partir des rendements historiques. La performance du « portefeuille basé sur l'IA » est ensuite comparée à celle d'un portefeuille de référence construit en utilisant les rendements moyens historiques.

3. Résultats Expérimentaux & Analyse

3.1 Performance de Prévision

Les modèles d'ensembles d'arbres ont démontré une capacité statistiquement significative à prévoir le mouvement directionnel et, dans une moindre mesure, l'amplitude des rendements pour le S&P 500 et l'USD/GBP. Des métriques d'évaluation telles que l'Erreur Absolue Moyenne (MAE), la Racine de l'Erreur Quadratique Moyenne (RMSE) et la précision directionnelle ont été rapportées. XGBoost a souvent montré un léger avantage sur la Forêt Aléatoire en termes de précision prédictive, particulièrement sur les données trimestrielles, probablement dû à son mécanisme de boosting plus sophistiqué et à sa régularisation.

3.2 Comparaison de la Performance du Portefeuille

Description du graphique : Un graphique linéaire comparatif montrerait les rendements cumulés de trois portefeuilles sur la période de test hors échantillon : 1) Le portefeuille optimal basé sur les prévisions IA, 2) Le portefeuille optimal basé sur la moyenne historique, et 3) Un portefeuille de référence à pondération égale.

Les résultats ont indiqué que le portefeuille construit en utilisant les prévisions IA a atteint un profil de rendement ajusté au risque supérieur (ratio de Sharpe plus élevé) par rapport au portefeuille basé sur les moyennes historiques. Les pondérations d'allocation d'actifs entre le S&P 500 et l'USD/GBP différaient également de manière significative, suggérant que les modèles IA capturaient des rendements attendus variant dans le temps que les simples moyennes historiques ne pouvaient pas saisir.

3.3 Analyse de l'Importance des Caractéristiques

La Forêt Aléatoire et XGBoost fournissent tous deux des scores d'importance des caractéristiques natifs. L'analyse a révélé que pour le S&P 500, des indicateurs avancés comme les écarts de taux, le sentiment des consommateurs et la volatilité antérieure du marché actions figuraient parmi les meilleurs prédicteurs. Pour l'USD/GBP, les différentiels de taux d'intérêt, les données de balance commerciale et les mouvements plus larges de l'indice dollar étaient les plus influents. Cette observation est précieuse pour l'interprétation économique et la simplification des modèles.

4. Principales Observations & Discussion

Observation Principale

L'argument le plus convaincant de l'article n'est pas que l'IA peut battre le marché – c'est que même des améliorations modestes et explicables de la prévision via les ensembles d'arbres peuvent modifier sensiblement les calculs de la frontière efficiente pour un simple portefeuille à deux actifs. Cela remet en question le dogme d'allocation passive « définir et oublier » pour les investisseurs à long terme dans des mélanges non actions/obligations.

Enchaînement Logique

La logique de la recherche est solide : 1) Utiliser une IA robuste et non paramétrique (RF/XGBoost) pour digérer les données macro en prévisions de rendement, contournant les pièges des modèles linéaires. 2) Injecter ces prévisions dans le moteur classique de Markowitz. 3) Valider que le portefeuille résultant diffère d'un référentiel historique naïf. L'enchaînement des moteurs macroéconomiques aux prévisions d'actifs, puis aux pondérations du portefeuille, est clair et reproductible.

Points Forts & Faiblesses

Points Forts : L'accent pragmatique sur un cas à deux actifs gérable améliore la clarté. L'utilisation de modèles d'arbres fournit une non-linéarité inhérente et une importance des caractéristiques, ajoutant une interprétabilité économique souvent absente dans les articles de finance utilisant l'apprentissage profond. La comparaison avec une base de référence historique est juste et pertinente.

Faiblesses : Le problème évident est l'estimation de la covariance. L'étude utilise la covariance historique, notoirement instable. Une structure de covariance prévue par l'IA pourrait être une prochaine étape logique mais est absente. La simplification à deux actifs, bien qu'un point fort pour la clarté, limite les bénéfices de diversification que l'IA pourrait débloquer dans un contexte multi-actifs. Les coûts de transaction et la faisabilité pratique d'un rééquilibrage mensuel/trimestriel basé sur ces signaux ne sont pas abordés.

Observations Actionnables

Pour les praticiens : Ne négligez pas les méthodes d'ensemble simples comme XGBoost pour la prévision des rendements ; elles peuvent être plus robustes et interprétables que les réseaux de neurones pour les données macro/financières structurées. Les principaux moteurs macro identifiés (par ex., les écarts de taux pour les actions, les différentiels de taux pour le forex) doivent être au premier plan pour les analystes surveillant ces classes d'actifs. Cette approche est surtout justifiée pour les investisseurs institutionnels ou les particuliers sophistiqués qui peuvent mettre en œuvre et rééquilibrer systématiquement une telle stratégie, et non pour les traders de détail cherchant un alpha à court terme.

5. Détails Techniques & Cadre Mathématique

Le cœur de l'optimisation de portefeuille est le modèle moyenne-variance de Markowitz. L'objectif est de trouver le vecteur de pondération $w$ qui résout l'un des deux problèmes :

Ratio de Sharpe Maximum :
$\max_{w} \frac{w^T \mu}{\sqrt{w^T \Sigma w}}$
sous contraintes $\sum_i w_i = 1$, et potentiellement $w_i \ge 0$ pour interdire les ventes à découvert.

Variance Minimale pour un Rendement Cible $R_p$ :
$\min_{w} w^T \Sigma w$
sous contraintes $w^T \mu = R_p$ et $\sum_i w_i = 1$.

Où $\mu$ est le vecteur des rendements attendus (prévus par RF/XGBoost) et $\Sigma$ est la matrice de covariance des rendements. Les modèles d'ensembles d'arbres eux-mêmes fonctionnent en créant un ensemble de $M$ arbres (pour la Forêt Aléatoire) ou des arbres construits séquentiellement (pour XGBoost) qui mappent les caractéristiques d'entrée $x$ à un rendement prédit $\hat{y}$. Pour une Forêt Aléatoire, la prédiction est une moyenne : $\hat{y} = \frac{1}{M} \sum_{m=1}^{M} T_m(x)$. La prédiction de XGBoost est un modèle additif : $\hat{y} = \sum_{k=1}^{K} f_k(x)$, où chaque $f_k$ est un arbre de l'espace fonctionnel $\mathcal{F}$, et le modèle est entraîné en minimisant un objectif régularisé : $\mathcal{L}(\phi) = \sum_i l(\hat{y}_i, y_i) + \sum_k \Omega(f_k)$, avec $\Omega(f) = \gamma T + \frac{1}{2}\lambda ||w||^2$ contrôlant la complexité.

6. Cadre d'Analyse : Exemple de Cas

Scénario : Un fonds d'investissement souhaite allouer ses actifs entre les actions américaines (représentées par l'ETF SPY) et le taux de change GBP/USD (représenté par une position forex) pour le prochain trimestre.

Étape 1 - Préparation des Données : Collecter les 10 dernières années de données mensuelles pour les rendements de SPY, les rendements de GBP/USD et 20 variables macroéconomiques (par ex., IPC US, IPC UK, Taux des Fed Funds, Taux de la BoE, écart de rendement 10 ans US-UK, VIX, etc.). La variable cible est le rendement de la période suivante. Les 2 années les plus récentes sont mises de côté comme ensemble de test.

Étape 2 - Entraînement du Modèle & Prévision : Entraîner un modèle XGBoost sur les données d'entraînement pour prédire les rendements de SPY et un modèle séparé pour les rendements de GBP/USD. Utiliser un réglage d'hyperparamètres (via validation croisée) pour des paramètres comme `max_depth`, `learning_rate` et `n_estimators`. Générer des prévisions à un pas pour la période de test.

Étape 3 - Optimisation du Portefeuille : Pour chaque mois dans l'ensemble de test, utiliser la prévision XGBoost comme $\mu$ et les rendements historiques des 3 années glissantes pour calculer la matrice de covariance $\Sigma$. Résoudre pour les pondérations du portefeuille de tangence (ratio de Sharpe maximum).

Étape 4 - Backtest & Évaluation : Calculer le rendement cumulé, la volatilité et le ratio de Sharpe du portefeuille basé sur l'IA rééquilibré dynamiquement. Le comparer à un portefeuille statique 60/40 et à un portefeuille utilisant les rendements moyens historiques pour $\mu$.

7. Applications Futures & Axes de Recherche

Portefeuilles Multi-Actifs : Étendre le cadre à un univers plus large d'actifs (obligations, matières premières, actions internationales) pour tester le véritable pouvoir de diversification de l'IA.
Estimation Dynamique de la Covariance : Intégrer des techniques d'IA (par ex., Graphical LASSO, RNN) pour prévoir la matrice de covariance $\Sigma$ en plus des rendements, dépassant l'estimation historique.
Incorporation de Données Alternatives : Améliorer les ensembles de caractéristiques avec des données de sentiment issues de l'actualité/des réseaux sociaux, des informations sur la chaîne d'approvisionnement ou des images satellitaires, comme exploré dans des études telles que « The Impact of News on Volatility » (Tetlock, 2007).
Apprentissage en Ligne & Adaptation : Mettre en œuvre des versions en ligne des ensembles d'arbres pouvant s'adapter en temps réel aux changements de régimes de marché, un concept aligné sur les défis de « l'apprentissage continu » en IA.
Intégration de l'IA Explicable (XAI) : Utiliser les valeurs SHAP (SHapley Additive exPlanations) avec l'importance des caractéristiques pour fournir des explications plus profondes, au niveau de l'instance, sur les raisons d'une prévision donnée, cruciales pour la confiance des parties prenantes en finance.
Intégration de Facteurs : Combiner les prévisions de l'IA avec des modèles factoriels traditionnels (par ex., les facteurs de Fama-French) pour créer des estimations hybrides de rendement attendu.

8. Références

Ahmed, N. K., Atiya, A. F., Gayar, N. E., & El-Shishiny, H. (2010). An empirical comparison of machine learning models for time series forecasting. Econometric Reviews, 29(5-6), 594-621.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.
Markowitz, H. (1952). Portfolio selection. The Journal of Finance, 7(1), 77-91.
Pham, H. (2025). [Travail pertinent sur les stratégies actions/obligations cité dans le PDF].
Ţiţan, A. G. (2015). The efficient market hypothesis: Review of specialized literature and empirical research. Procedia Economics and Finance, 32, 442-449.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE International Conference on Computer Vision, 2223-2232. (Cité comme exemple d'article séminal sur l'architecture de l'IA pour référence conceptuelle).