Metodi ad Ensemble di Alberi per l'Ottimizzazione di Portafogli a Due Asset: Un Caso di Studio sul Machine Learning

Indice

1. Introduzione

Questo studio affronta la sfida di costruire un portafoglio di investimento ottimale a due asset utilizzando tecniche di machine learning. La ricerca si concentra su un portafoglio composto dall'indice azionario S&P 500 e dalla coppia valutaria USD/GBP. L'obiettivo principale è sfruttare dati macroeconomici a frequenza mensile e trimestrale per prevedere i rendimenti di questi asset utilizzando metodi ad ensemble di alberi—in particolare Random Forest e XGBoost. Queste previsioni vengono poi utilizzate come input dei rendimenti attesi per l'ottimizzazione della moderna teoria del portafoglio (MPT). Un obiettivo secondario è identificare quali variabili macroeconomiche esercitano un'influenza significativa sulle previsioni. Lo studio esamina criticamente se un portafoglio costruito su dati stimati tramite ML diverga in modo significativo da uno costruito utilizzando semplici medie storiche.

2. Metodologia & Dati

2.1 Raccolta & Pre-elaborazione dei Dati

L'analisi utilizza dati di serie temporali per l'indice S&P 500 e il tasso di cambio USD/GBP. Una serie di indicatori macroeconomici viene raccolta come potenziali feature predittive, che possono includere variabili come tassi di interesse, indici di inflazione, dati sulla produzione industriale e tassi di disoccupazione, provenienti da database come FRED. I dati vengono suddivisi in set di addestramento, validazione e test, prestando attenzione a evitare bias di "look-ahead". Le feature vengono normalizzate o standardizzate secondo i requisiti dei modelli.

2.2 Modelli ad Ensemble di Alberi: Random Forest & XGBoost

Per la previsione delle serie temporali vengono impiegati due algoritmi avanzati di ensemble learning:

Random Forest: Un insieme di alberi decisionali addestrati su campioni bootstrap dei dati con selezione casuale delle feature, riducendo l'overfitting e fornendo previsioni robuste.
XGBoost (Extreme Gradient Boosting): Un framework scalabile e regolarizzato di gradient boosting noto per la sua velocità e performance. Costruisce sequenzialmente alberi per correggere gli errori di quelli precedenti, ottenendo spesso risultati all'avanguardia su dati strutturati.

Questi modelli sono scelti per la loro capacità di gestire relazioni non lineari e interazioni complesse tra variabili macroeconomiche senza stringenti assunzioni parametriche.

2.3 Framework di Costruzione del Portafoglio

I rendimenti previsti dai modelli ML fungono da vettore dei rendimenti attesi $\mu$ nel framework di ottimizzazione media-varianza di Markowitz. I pesi del portafoglio $w$ per i due asset sono determinati risolvendo il problema di ottimizzazione che massimizza lo Sharpe ratio o minimizza la varianza per un rendimento target. La matrice di covarianza $\Sigma$ è tipicamente stimata dai rendimenti storici. La performance del "portafoglio basato su ML" viene quindi confrontata con un portafoglio benchmark costruito utilizzando i rendimenti medi storici.

3. Risultati Sperimentali & Analisi

3.1 Performance di Previsione

I modelli ad ensemble di alberi hanno dimostrato una capacità statisticamente significativa di prevedere il movimento direzionale e, in misura minore, l'entità dei rendimenti sia per l'S&P 500 che per USD/GBP. Sono stati riportati metriche di valutazione come Mean Absolute Error (MAE), Root Mean Square Error (RMSE) e accuratezza direzionale. XGBoost ha spesso mostrato un leggero vantaggio rispetto a Random Forest in termini di accuratezza predittiva, in particolare sui dati trimestrali, probabilmente grazie al suo meccanismo di boosting più sofisticato e alla regolarizzazione.

3.2 Confronto delle Performance del Portafoglio

Descrizione Grafico: Un grafico a linee comparativo mostrerebbe i rendimenti cumulativi di tre portafogli nel periodo di test out-of-sample: 1) Il portafoglio ottimale basato su previsioni ML, 2) Il portafoglio ottimale basato sulla media storica, e 3) Un benchmark a pesi uguali.

I risultati hanno indicato che il portafoglio costruito utilizzando le previsioni ML ha ottenuto un profilo di rendimento corretto per il rischio superiore (Sharpe ratio più alto) rispetto al portafoglio basato sulle medie storiche. Anche i pesi di allocazione tra S&P 500 e USD/GBP differivano in modo significativo, suggerendo che i modelli ML hanno catturato rendimenti attesi variabili nel tempo che le semplici medie storiche non potevano cogliere.

3.3 Analisi dell'Importanza delle Feature

Sia Random Forest che XGBoost forniscono punteggi nativi di importanza delle feature. L'analisi ha rivelato che per l'S&P 500, indicatori anticipatori come gli spread dei tassi, il sentiment dei consumatori e la volatilità precedente del mercato azionario erano tra i principali predittori. Per USD/GBP, i differenziali dei tassi di interesse, i dati sulla bilancia commerciale e i movimenti più ampi dell'indice del dollaro erano i più influenti. Questa intuizione è preziosa per l'interpretazione economica e la semplificazione del modello.

4. Approfondimenti Chiave & Discussione

Approfondimento Principale

L'argomentazione più convincente del paper non è che il ML possa battere il mercato—è che anche modesti, spiegabili miglioramenti nella previsione tramite ensemble di alberi possono modificare materialmente i calcoli della frontiera efficiente per un semplice portafoglio a due asset. Ciò mette in discussione il dogma dell'allocazione passiva "set-and-forget" per gli investitori a lungo termine in mix non azionari/obbligazionari.

Flusso Logico

La logica della ricerca è solida: 1) Utilizzare ML robusto e non parametrico (RF/XGBoost) per digerire dati macro in previsioni di rendimento, aggirando le insidie dei modelli lineari. 2) Inserire queste previsioni nel classico motore di Markowitz. 3) Validare che il portafoglio risultante differisca da un benchmark storico naive. Il flusso dai driver macro alle previsioni degli asset ai pesi del portafoglio è chiaro e replicabile.

Punti di Forza & Debolezze

Punti di Forza: Il focus pragmatico su un caso trattabile a due asset migliora la chiarezza. L'uso di modelli ad albero fornisce non linearità intrinseca e importanza delle feature, aggiungendo interpretabilità economica spesso assente nei paper finanziari sul deep learning. Il confronto con una baseline di media storica è equo e pertinente.

Debolezze: L'elefante nella stanza è la stima della covarianza. Lo studio utilizza la covarianza storica, notoriamente instabile. Una struttura di covarianza prevista dal ML potrebbe essere un passo logico successivo ma è assente. La semplificazione a due asset, sebbene un punto di forza per la chiarezza, limita i benefici di diversificazione che il ML potrebbe sbloccare in un contesto multi-asset. I costi di transazione e la fattibilità pratica del ribilanciamento mensile/trimestrale basato su questi segnali non sono affrontati.

Approfondimenti Azionabili

Per i professionisti: Non trascurare semplici metodi ensemble come XGBoost per la previsione dei rendimenti; possono essere più robusti e interpretabili delle reti neurali per dati macro/finanziari strutturati. I driver macro chiave identificati (es., spread dei tassi per le azioni, differenziali dei tassi per il forex) dovrebbero essere in primo piano per gli analisti che monitorano queste classi di asset. Questo approccio è più giustificabile per investitori istituzionali o individui sofisticati che possono implementare e ribilanciare sistematicamente tale strategia, non per trader al dettaglio in cerca di alpha a breve termine.

5. Dettagli Tecnici & Framework Matematico

Il nucleo dell'ottimizzazione del portafoglio è il modello media-varianza di Markowitz. L'obiettivo è trovare il vettore dei pesi $w$ che risolve uno dei due problemi:

Massimo Sharpe Ratio:
$\max_{w} \frac{w^T \mu}{\sqrt{w^T \Sigma w}}$
con il vincolo $\sum_i w_i = 1$, e potenzialmente $w_i \ge 0$ per il divieto di vendita allo scoperto.

Varianza Minima per Rendimento Target $R_p$:
$\min_{w} w^T \Sigma w$
con i vincoli $w^T \mu = R_p$ e $\sum_i w_i = 1$.

Dove $\mu$ è il vettore dei rendimenti attesi (previsti da RF/XGBoost) e $\Sigma$ è la matrice di covarianza dei rendimenti. I modelli ad ensemble di alberi funzionano creando un insieme di $M$ alberi (per Random Forest) o alberi costruiti sequenzialmente (per XGBoost) che mappano le feature di input $x$ a un rendimento previsto $\hat{y}$. Per un Random Forest, la previsione è una media: $\hat{y} = \frac{1}{M} \sum_{m=1}^{M} T_m(x)$. La previsione di XGBoost è un modello additivo: $\hat{y} = \sum_{k=1}^{K} f_k(x)$, dove ogni $f_k$ è un albero dallo spazio funzionale $\mathcal{F}$, e il modello è addestrato minimizzando un obiettivo regolarizzato: $\mathcal{L}(\phi) = \sum_i l(\hat{y}_i, y_i) + \sum_k \Omega(f_k)$, con $\Omega(f) = \gamma T + \frac{1}{2}\lambda ||w||^2$ che controlla la complessità.

6. Framework di Analisi: Caso Esempio

Scenario: Un fondo di investimento vuole allocare tra azioni USA (rappresentate dall'ETF SPY) e il tasso di cambio GBP/USD (rappresentato da una posizione forex) per il prossimo trimestre.

Step 1 - Preparazione dei Dati: Raccogliere 10 anni di dati mensili per i rendimenti di SPY, i rendimenti di GBP/USD e 20 variabili macroeconomiche (es., CPI USA, CPI UK, Fed Funds Rate, BoE Rate, spread dei rendimenti a 10Y USA-UK, VIX, ecc.). La variabile target è il rendimento del periodo successivo. Gli ultimi 2 anni sono tenuti da parte come set di test.

Step 2 - Addestramento del Modello & Previsione: Addestrare un modello XGBoost sui dati di addestramento per prevedere i rendimenti di SPY e un modello separato per i rendimenti di GBP/USD. Utilizzare l'ottimizzazione degli iperparametri (tramite cross-validation) per parametri come `max_depth`, `learning_rate` e `n_estimators`. Generare previsioni one-step-ahead per il periodo di test.

Step 3 - Ottimizzazione del Portafoglio: Per ogni mese nel set di test, utilizzare la previsione XGBoost come $\mu$ e i rendimenti storici dei 3 anni precedenti per calcolare la matrice di covarianza $\Sigma$. Risolvere per i pesi del portafoglio di tangenza (massimo Sharpe ratio).

Step 4 - Backtest & Valutazione: Calcolare il rendimento cumulativo, la volatilità e lo Sharpe ratio del portafoglio basato su ML ribilanciato dinamicamente. Confrontarlo con un portafoglio statico 60/40 e un portafoglio che utilizza i rendimenti medi storici per $\mu$.

7. Applicazioni Future & Direzioni di Ricerca

Portafogli Multi-Asset: Estendere il framework a un universo più ampio di asset (obbligazioni, materie prime, azioni internazionali) per testare il vero potere di diversificazione del ML.
Stima Dinamica della Covarianza: Integrare tecniche ML (es., Graphical LASSO, RNN) per prevedere la matrice di covarianza $\Sigma$ insieme ai rendimenti, andando oltre la stima storica.
Incorporazione di Dati Alternativi: Arricchire gli insiemi di feature con dati di sentiment da notizie/social media, informazioni sulla catena di approvvigionamento o immagini satellitari, come esplorato in studi come "The Impact of News on Volatility" (Tetlock, 2007).
Online Learning & Adattamento: Implementare versioni online di ensemble di alberi che possano adattarsi in tempo reale a regimi di mercato mutevoli, un concetto allineato con le sfide del "continual learning" nell'IA.
Integrazione di XAI (Explainable AI): Utilizzare valori SHAP (SHapley Additive exPlanations) insieme all'importanza delle feature per fornire spiegazioni più profonde, a livello di istanza, sul motivo per cui è stata fatta una certa previsione, cruciali per la fiducia degli stakeholder in finanza.
Integrazione di Fattori: Miscelare previsioni ML con modelli fattoriali tradizionali (es., fattori Fama-French) per creare stime ibride dei rendimenti attesi.

8. Riferimenti

Ahmed, N. K., Atiya, A. F., Gayar, N. E., & El-Shishiny, H. (2010). An empirical comparison of machine learning models for time series forecasting. Econometric Reviews, 29(5-6), 594-621.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.
Markowitz, H. (1952). Portfolio selection. The Journal of Finance, 7(1), 77-91.
Pham, H. (2025). [Lavoro pertinente sulle strategie azionarie/obbligazionarie citato nel PDF].
Ţiţan, A. G. (2015). The efficient market hypothesis: Review of specialized literature and empirical research. Procedia Economics and Finance, 32, 442-449.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE International Conference on Computer Vision, 2223-2232. (Citato come esempio di un paper seminale sull'architettura ML per riferimento concettuale).