Baum-Ensemble-Methoden für die Optimierung von Zwei-Asset-Portfolios: Eine Fallstudie im Maschinellen Lernen

Inhaltsverzeichnis

1. Einleitung

Diese Studie befasst sich mit der Herausforderung, ein optimales Zwei-Asset-Anlageportfolio mithilfe von Techniken des Maschinellen Lernens zu konstruieren. Der Fokus der Forschung liegt auf einem Portfolio, das aus dem S&P 500 Aktienindex und dem Währungspaar USD/GBP besteht. Das primäre Ziel ist es, makroökonomische Daten mit monatlicher und vierteljährlicher Frequenz zu nutzen, um die Renditen dieser Assets mithilfe von Baum-Ensemble-Methoden – konkret Random Forest und XGBoost – zu prognostizieren. Diese Prognosen werden dann als erwartete Rendite-Inputs für die Optimierung nach der Modernen Portfolio-Theorie (MPT) verwendet. Ein sekundäres Ziel ist es, zu identifizieren, welche makroökonomischen Variablen einen signifikanten Einfluss auf die Prognosen ausüben. Die Studie untersucht kritisch, ob sich ein Portfolio, das auf ML-geschätzten Daten basiert, wesentlich von einem Portfolio unterscheidet, das mit einfachen historischen Durchschnitten konstruiert wurde.

2. Methodik & Daten

2.1 Datenerfassung & Vorverarbeitung

Die Analyse nutzt Zeitreihendaten für den S&P 500 Index und den USD/GBP-Wechselkurs. Eine Reihe makroökonomischer Indikatoren wird als potenzielle prädiktive Merkmale erfasst, die Variablen wie Zinssätze, Inflationsindizes, Industrieproduktionszahlen und Arbeitslosenquoten umfassen können, bezogen aus Datenbanken wie FRED. Die Daten werden in Trainings-, Validierungs- und Testdatensätze aufgeteilt, wobei sorgfältig darauf geachtet wird, einen Look-Ahead-Bias zu vermeiden. Merkmale werden nach den Anforderungen der Modelle normalisiert oder standardisiert.

2.2 Baum-Ensemble-Modelle: Random Forest & XGBoost

Für die Zeitreihenprognose werden zwei fortgeschrittene Ensemble-Lernalgorithmen eingesetzt:

Random Forest: Ein Ensemble von Entscheidungsbäumen, die auf gebootstrappten Stichproben der Daten mit zufälliger Merkmalsauswahl trainiert werden, wodurch Overfitting reduziert und robuste Vorhersagen geliefert werden.
XGBoost (Extreme Gradient Boosting): Ein skalierbarer, regularisierter Gradient-Boosting-Rahmen, bekannt für seine Geschwindigkeit und Leistung. Er baut Bäume sequenziell auf, um die Fehler vorheriger Bäume zu korrigieren, und erzielt oft state-of-the-art Ergebnisse auf strukturierten Daten.

Diese Modelle wurden aufgrund ihrer Fähigkeit ausgewählt, nichtlineare Beziehungen und komplexe Interaktionen zwischen makroökonomischen Variablen ohne strenge parametrische Annahmen zu verarbeiten.

2.3 Portfolio-Konstruktionsrahmen

Die prognostizierten Renditen der ML-Modelle dienen als erwarteter Renditevektor $\mu$ im Markowitz-Mean-Variance-Optimierungsrahmen. Die Portfolio-Gewichte $w$ für die beiden Assets werden durch Lösen des Optimierungsproblems bestimmt, das die Sharpe Ratio maximiert oder die Varianz für eine Zielrendite minimiert. Die Kovarianzmatrix $\Sigma$ wird typischerweise aus historischen Renditen geschätzt. Die Performance des "ML-basierten Portfolios" wird dann mit einem Benchmark-Portfolio verglichen, das mit historischen Durchschnittsrenditen konstruiert wurde.

3. Experimentelle Ergebnisse & Analyse

3.1 Prognoseleistung

Die Baum-Ensemble-Modelle zeigten eine statistisch signifikante Fähigkeit, die Richtungsbewegung und in geringerem Maße die Größenordnung der Renditen sowohl für den S&P 500 als auch für USD/GBP vorherzusagen. Bewertungsmetriken wie der Mittlere Absolute Fehler (MAE), der Root Mean Square Error (RMSE) und die Richtungsgenauigkeit wurden berichtet. XGBoost zeigte oft einen leichten Vorteil gegenüber Random Forest in Bezug auf die Vorhersagegenauigkeit, insbesondere bei den vierteljährlichen Daten, wahrscheinlich aufgrund seines ausgefeilteren Boosting-Mechanismus und der Regularisierung.

3.2 Portfolio-Performance-Vergleich

Diagrammbeschreibung: Ein vergleichendes Liniendiagramm würde die kumulierten Renditen von drei Portfolios über den Out-of-Sample-Testzeitraum zeigen: 1) Das auf ML-Prognosen basierende optimale Portfolio, 2) Das auf historischen Durchschnitten basierende optimale Portfolio und 3) Ein gleichgewichteter Benchmark.

Die Ergebnisse zeigten, dass das mit ML-Prognosen konstruierte Portfolio im Vergleich zum Portfolio auf Basis historischer Durchschnitte ein überlegenes risikoadjustiertes Renditeprofil (höhere Sharpe Ratio) erzielte. Die Asset-Allokationsgewichte zwischen S&P 500 und USD/GBP unterschieden sich ebenfalls wesentlich, was darauf hindeutet, dass die ML-Modelle zeitlich variierende erwartete Renditen erfassten, die einfache historische Durchschnitte nicht erfassen konnten.

3.3 Analyse der Merkmalswichtigkeit

Sowohl Random Forest als auch XGBoost liefern native Merkmalswichtigkeitswerte. Die Analyse ergab, dass für den S&P 500 Frühindikatoren wie Zinsstrukturspreads, Verbraucherstimmung und frühere Aktienmarktvolatilität zu den wichtigsten Prädiktoren gehörten. Für USD/GBP waren Zinsdifferenzen, Handelsbilanzdaten und breitere Bewegungen des Dollar-Index am einflussreichsten. Diese Erkenntnis ist wertvoll für die ökonomische Interpretation und die Modellvereinfachung.

4. Zentrale Erkenntnisse & Diskussion

Kernaussage

Das überzeugendste Argument der Arbeit ist nicht, dass ML den Markt schlagen kann – sondern dass selbst bescheidene, erklärbare Verbesserungen in der Prognose durch Baum-Ensembles die Berechnungen der effizienten Grenze für ein einfaches Zwei-Asset-Portfolio wesentlich verschieben können. Dies stellt die passive "Set-and-Forget"-Allokationsdoktrin für langfristige Anleger in Nicht-Aktien-/Anleihen-Mischungen in Frage.

Logischer Ablauf

Die Forschungslogik ist schlüssig: 1) Nutzung robuster, nicht-parametrischer ML-Modelle (RF/XGBoost), um Makrodaten in Renditeprognosen zu verdauen und Fallstricke linearer Modelle zu umgehen. 2) Einspeisung dieser Prognosen in die klassische Markowitz-Maschinerie. 3) Validierung, dass das resultierende Portfolio sich von einem naiven historischen Benchmark unterscheidet. Der Ablauf von Makrotreibern zu Asset-Prognosen zu Portfolio-Gewichten ist klar und replizierbar.

Stärken & Schwächen

Stärken: Der pragmatische Fokus auf einen handhabbaren Zwei-Asset-Fall erhöht die Klarheit. Die Verwendung von Baummodellen bietet inhärente Nichtlinearität und Merkmalswichtigkeit, was eine ökonomische Interpretierbarkeit hinzufügt, die in Deep-Learning-Finanzpapieren oft fehlt. Der Vergleich mit einer historischen Durchschnitts-Baseline ist fair und relevant.

Schwächen: Der Elefant im Raum ist die Kovarianzschätzung. Die Studie verwendet historische Kovarianz, die notorisch instabil ist. Eine ML-prognostizierte Kovarianzstruktur wäre ein logischer nächster Schritt, fehlt aber. Die Zwei-Asset-Vereinfachung, obwohl eine Stärke für die Klarheit, begrenzt die Diversifikationsvorteile, die ML in einem Multi-Asset-Kontext freisetzen könnte. Transaktionskosten und die praktische Machbarkeit einer monatlichen/vierteljährlichen Rebalancierung basierend auf diesen Signalen werden nicht behandelt.

Umsetzbare Erkenntnisse

Für Praktiker: Übersehen Sie nicht einfache Ensemble-Methoden wie XGBoost für die Renditeprognose; sie können für strukturierte Makro-/Finanzdaten robuster und interpretierbarer sein als neuronale Netze. Die identifizierten Schlüsseltreiber (z.B. Zinsstrukturspreads für Aktien, Zinsdifferenzen für Devisen) sollten für Analysten, die diese Assetklassen überwachen, oberste Priorität haben. Dieser Ansatz ist am ehesten für institutionelle Anleger oder versierte Privatanleger gerechtfertigt, die eine solche Strategie systematisch implementieren und rebalancieren können, nicht für Privatanleger, die kurzfristige Alpha-Gewinne suchen.

5. Technische Details & Mathematischer Rahmen

Der Kern der Portfoliooptimierung ist das Markowitz-Mean-Variance-Modell. Das Ziel ist es, den Gewichtsvektor $w$ zu finden, der eines von zwei Problemen löst:

Maximale Sharpe Ratio:
$\max_{w} \frac{w^T \mu}{\sqrt{w^T \Sigma w}}$
unter der Nebenbedingung $\sum_i w_i = 1$ und gegebenenfalls $w_i \ge 0$ für Leerverkäufe.

Minimale Varianz für Zielrendite $R_p$:
$\min_{w} w^T \Sigma w$
unter den Nebenbedingungen $w^T \mu = R_p$ und $\sum_i w_i = 1$.

Wobei $\mu$ der Vektor der erwarteten Renditen (prognostiziert durch RF/XGBoost) und $\Sigma$ die Kovarianzmatrix der Renditen ist. Die Baum-Ensemble-Modelle selbst arbeiten, indem sie eine Menge von $M$ Bäumen (für Random Forest) oder sequenziell aufgebaute Bäume (für XGBoost) erstellen, die Eingangsmerkmale $x$ auf eine prognostizierte Rendite $\hat{y}$ abbilden. Für einen Random Forest ist die Vorhersage ein Durchschnitt: $\hat{y} = \frac{1}{M} \sum_{m=1}^{M} T_m(x)$. Die Vorhersage von XGBoost ist ein additives Modell: $\hat{y} = \sum_{k=1}^{K} f_k(x)$, wobei jedes $f_k$ ein Baum aus dem Funktionsraum $\mathcal{F}$ ist und das Modell durch Minimierung eines regularisierten Ziels trainiert wird: $\mathcal{L}(\phi) = \sum_i l(\hat{y}_i, y_i) + \sum_k \Omega(f_k)$, wobei $\Omega(f) = \gamma T + \frac{1}{2}\lambda ||w||^2$ die Komplexität kontrolliert.

6. Analyse-Rahmen: Beispielszenario

Szenario: Ein Investmentfonds möchte für das nächste Quartal zwischen US-Aktien (repräsentiert durch den SPY ETF) und dem GBP/USD-Wechselkurs (repräsentiert durch eine Forex-Position) allokieren.

Schritt 1 - Datenaufbereitung: Erfassung der letzten 10 Jahre monatlicher Daten für SPY-Renditen, GBP/USD-Renditen und 20 makroökonomische Variablen (z.B. US-CPI, UK-CPI, Fed Funds Rate, BoE Rate, US-UK 10Y Zinsspread, VIX, etc.). Die Zielvariable ist die Rendite der nächsten Periode. Die letzten 2 Jahre werden als Testdatensatz zurückgehalten.

Schritt 2 - Modelltraining & Prognose: Training eines XGBoost-Modells auf den Trainingsdaten zur Vorhersage der SPY-Renditen und eines separaten Modells für die GBP/USD-Renditen. Hyperparameter-Tuning (mittels Kreuzvalidierung) für Parameter wie `max_depth`, `learning_rate` und `n_estimators`. Generierung von One-Step-Ahead-Prognosen für den Testzeitraum.

Schritt 3 - Portfoliooptimierung: Für jeden Monat im Testdatensatz wird die XGBoost-Prognose als $\mu$ verwendet und die zurückliegenden 3-Jahres-historischen Renditen zur Berechnung der Kovarianzmatrix $\Sigma$ herangezogen. Lösung für die Gewichte des Tangentialportfolios (maximale Sharpe Ratio).

Schritt 4 - Backtest & Auswertung: Berechnung der kumulierten Rendite, Volatilität und Sharpe Ratio des dynamisch rebalancierten ML-basierten Portfolios. Vergleich mit einem statischen 60/40-Portfolio und einem Portfolio, das historische Durchschnittsrenditen für $\mu$ verwendet.

7. Zukünftige Anwendungen & Forschungsrichtungen

Multi-Asset-Portfolios: Erweiterung des Rahmens auf ein breiteres Universum von Assets (Anleihen, Rohstoffe, internationale Aktien), um die wahre Diversifikationskraft von ML zu testen.
Dynamische Kovarianzschätzung: Integration von ML-Techniken (z.B. Graphical LASSO, RNNs) zur Prognose der Kovarianzmatrix $\Sigma$ neben den Renditen, um über die historische Schätzung hinauszugehen.
Einbeziehung alternativer Daten: Erweiterung der Merkmalssätze um Sentiment-Daten aus Nachrichten/Sozialen Medien, Lieferketteninformationen oder Satellitenbildern, wie in Studien wie "The Impact of News on Volatility" (Tetlock, 2007) untersucht.
Online-Lernen & Anpassung: Implementierung von Online-Versionen von Baum-Ensembles, die sich in Echtzeit an wechselnde Marktregime anpassen können, ein Konzept, das mit den "Continual Learning"-Herausforderungen in der KI übereinstimmt.
Explainable AI (XAI) Integration: Verwendung von SHAP (SHapley Additive exPlanations)-Werten neben der Merkmalswichtigkeit, um tiefere, instanzbezogene Erklärungen dafür zu liefern, warum eine bestimmte Prognose getroffen wurde – entscheidend für das Vertrauen der Stakeholder in der Finanzwelt.
Faktorintegration: Kombination von ML-Prognosen mit traditionellen Faktormodellen (z.B. Fama-French-Faktoren), um hybride Schätzungen der erwarteten Rendite zu erstellen.

8. Literaturverzeichnis

Ahmed, N. K., Atiya, A. F., Gayar, N. E., & El-Shishiny, H. (2010). An empirical comparison of machine learning models for time series forecasting. Econometric Reviews, 29(5-6), 594-621.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.
Markowitz, H. (1952). Portfolio selection. The Journal of Finance, 7(1), 77-91.
Pham, H. (2025). [Relevante Arbeit zu Aktien-/Anleihenstrategien, wie im PDF zitiert].
Ţiţan, A. G. (2015). The efficient market hypothesis: Review of specialized literature and empirical research. Procedia Economics and Finance, 32, 442-449.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE International Conference on Computer Vision, 2223-2232. (Zitiert als Beispiel eines wegweisenden ML-Architekturpapiers zur konzeptionellen Referenz).