İki Varlıklı Portföy Optimizasyonu için Ağaç Topluluk Yöntemleri: Bir Makine Öğrenimi Vaka Çalışması

İçindekiler

1. Giriş

Bu çalışma, makine öğrenimi teknikleri kullanarak optimal iki varlıklı bir yatırım portföyü oluşturma zorluğunu ele almaktadır. Araştırma, S&P 500 hisse senedi endeksi ve USD/GBP döviz çiftinden oluşan bir portföye odaklanmaktadır. Temel amaç, aylık ve üç aylık frekanslardaki makroekonomik verileri kullanarak bu varlıkların getirilerini ağaç topluluk yöntemleri—özellikle Rastgele Orman ve XGBoost—ile tahmin etmektir. Bu tahminler daha sonra modern portföy teorisi (MPT) optimizasyonu için beklenen getiri girdileri olarak kullanılır. İkincil bir amaç ise hangi makroekonomik değişkenlerin tahminler üzerinde önemli bir etkiye sahip olduğunu belirlemektir. Çalışma, ML ile tahmin edilen verilere dayalı oluşturulan bir portföyün, basit tarihsel ortalamalar kullanılarak oluşturulan bir portföyden anlamlı şekilde farklılaşıp farklılaşmadığını eleştirel bir şekilde incelemektedir.

2. Metodoloji & Veri

2.1 Veri Toplama & Ön İşleme

Analiz, S&P 500 endeksi ve USD/GBP döviz kuru için zaman serisi verilerini kullanmaktadır. Potansiyel tahmin edici özellikler olarak, faiz oranları, enflasyon endeksleri, sanayi üretimi rakamları ve işsizlik oranları gibi değişkenleri içerebilecek bir dizi makroekonomik gösterge, FRED gibi veritabanlarından toplanmaktadır. Veriler, ileriye dönük yanlılıktan kaçınmaya özen gösterilerek eğitim, doğrulama ve test kümelerine ayrılmıştır. Özellikler, modellerin gerektirdiği şekilde normalize veya standardize edilmiştir.

2.2 Ağaç Topluluk Modelleri: Rastgele Orman & XGBoost

Zaman serisi tahmini için iki gelişmiş topluluk öğrenme algoritması kullanılmıştır:

Rastgele Orman: Rastgele özellik seçimi ile verinin önyükleme örnekleri üzerinde eğitilmiş karar ağaçları topluluğu, aşırı uyumu azaltır ve sağlam tahminler sağlar.
XGBoost (Extreme Gradient Boosting): Hızı ve performansı ile bilinen ölçeklenebilir, düzenlileştirilmiş bir gradyan artırma çerçevesi. Öncekilerin hatalarını düzeltmek için ağaçları sıralı olarak oluşturur ve yapılandırılmış verilerde genellikle en iyi sonuçları verir.

Bu modeller, katı parametrik varsayımlar olmaksızın makroekonomik değişkenler arasındaki doğrusal olmayan ilişkileri ve karmaşık etkileşimleri ele alma yetenekleri nedeniyle seçilmiştir.

2.3 Portföy Oluşturma Çerçevesi

ML modellerinden elde edilen tahmini getiriler, Markowitz ortalama-varyans optimizasyon çerçevesinde beklenen getiri vektörü $\mu$ olarak hizmet eder. İki varlık için portföy ağırlıkları $w$, Sharpe oranını maksimize eden veya hedef getiri için varyansı minimize eden optimizasyon problemini çözerek belirlenir. Kovaryans matrisi $\Sigma$ tipik olarak tarihsel getirilerden tahmin edilir. Daha sonra "ML tabanlı portföy"ün performansı, tarihsel ortalama getiriler kullanılarak oluşturulan bir kıyas portföy ile karşılaştırılır.

3. Deneysel Sonuçlar & Analiz

3.1 Tahmin Performansı

Ağaç topluluk modelleri, hem S&P 500 hem de USD/GBP için yönsel hareketi ve daha az ölçüde getirilerin büyüklüğünü tahmin etmede istatistiksel olarak anlamlı bir yetenek göstermiştir. Ortalama Mutlak Hata (MAE), Kök Ortalama Kare Hata (RMSE) ve yönsel doğruluk gibi değerlendirme metrikleri raporlanmıştır. XGBoost, özellikle üç aylık verilerde, daha sofistike artırma mekanizması ve düzenlileştirmesi nedeniyle, tahmin doğruluğu açısından genellikle Rastgele Orman'a göre marjinal bir üstünlük göstermiştir.

3.2 Portföy Performans Karşılaştırması

Grafik Açıklaması: Karşılaştırmalı bir çizgi grafiği, örneklem dışı test dönemi boyunca üç portföyün kümülatif getirilerini gösterecektir: 1) ML-tahmini tabanlı optimal portföy, 2) Tarihsel-ortalama tabanlı optimal portföy ve 3) Eşit ağırlıklı bir kıyas portföy.

Sonuçlar, ML tahminleri kullanılarak oluşturulan portföyün, tarihsel ortalamalara dayalı portföye kıyasla daha üstün bir risk-ayarlı getiri profili (daha yüksek Sharpe oranı) elde ettiğini göstermiştir. S&P 500 ve USD/GBP arasındaki varlık tahsis ağırlıkları da anlamlı şekilde farklılık göstermiştir; bu da ML modellerinin, basit tarihsel ortalamaların yakalayamadığı zamanla değişen beklenen getirileri yakaladığını düşündürmektedir.

3.3 Özellik Önem Analizi

Hem Rastgele Orman hem de XGBoost, yerel özellik önem puanları sağlar. Analiz, S&P 500 için, vade yapıları, tüketici güveni ve önceki hisse senedi piyasası oynaklığı gibi öncü göstergelerin en iyi tahmin ediciler arasında olduğunu ortaya koymuştur. USD/GBP için ise faiz oranı farkları, ticaret dengesi verileri ve daha geniş dolar endeksi hareketleri en etkili olanlardır. Bu içgörü, ekonomik yorumlama ve model basitleştirme için değerlidir.

4. Temel Çıkarımlar & Tartışma

Çekirdek İçgörü

Makalenin en ikna edici argümanı, ML'nin piyasayı yenebileceği değil, ağaç toplulukları yoluyla tahmindeki mütevazı, açıklanabilir iyileştirmelerin bile basit bir iki varlıklı portföy için etkin sınır hesaplamalarını maddi olarak değiştirebileceğidir. Bu, hisse senedi/tahvil karışımı olmayan uzun vadeli yatırımcılar için pasif "kur ve unut" tahsis dogmasını sorgulamaktadır.

Mantıksal Akış

Araştırma mantığı sağlamdır: 1) Doğrusal model tuzaklarından kaçınmak için makro verileri getiri tahminlerine dönüştürmek üzere sağlam, parametrik olmayan ML'yi (RF/XGBoost) kullanın. 2) Bu tahminleri klasik Markowitz motoruna besleyin. 3) Çıktı portföyünün naif bir tarihsel kıyastan farklı olduğunu doğrulayın. Makro itici güçlerden varlık tahminlerine ve oradan portföy ağırlıklarına olan akış açık ve tekrarlanabilirdir.

Güçlü & Zayıf Yönler

Güçlü Yönler: Yönetilebilir bir iki varlıklı vaka üzerine pragmatik odaklanma netliği artırır. Ağaç modellerinin kullanılması, derin öğrenme finans makalelerinde sıklıkla eksik olan ekonomik yorumlanabilirlik ekleyerek, doğal doğrusal olmama ve özellik önemi sağlar. Tarihsel-ortalama temeline kıyas yapılması adil ve ilgilidir.

Zayıf Yönler: Odadaki fil kovaryans tahminidir. Çalışma, istikrarsızlığıyla ünlü olan tarihsel kovaryansı kullanmaktadır. ML ile tahmin edilmiş bir kovaryans yapısı mantıklı bir sonraki adım olabilirdi ancak eksiktir. Netlik için bir güç olsa da, iki varlıklı basitleştirme, ML'nin çok varlıklı bir bağlamda açabileceği çeşitlendirme faydalarını sınırlamaktadır. İşlem maliyetleri ve bu sinyallere dayalı aylık/üç aylık yeniden dengelemenin pratik uygulanabilirliği ele alınmamıştır.

Uygulanabilir İçgörüler

Uygulayıcılar için: Getiri tahmini için XGBoost gibi basit topluluk yöntemlerini göz ardı etmeyin; yapılandırılmış makro/finansal veriler için sinir ağlarından daha sağlam ve yorumlanabilir olabilirler. Belirlenen temel makro itici güçler (örneğin, hisse senetleri için vade yapıları, döviz için faiz farkları), bu varlık sınıflarını izleyen analistlerin öncelikli olarak aklında tutması gerekenlerdir. Bu yaklaşım, böyle bir stratejiyi sistematik olarak uygulayabilen ve yeniden dengeleyebilen kurumsal yatırımcılar veya sofistike bireyler için en haklı görülürken, kısa vadeli alfa arayan perakende yatırımcılar için değildir.

5. Teknik Detaylar & Matematiksel Çerçeve

Portföy optimizasyonunun çekirdeği Markowitz ortalama-varyans modelidir. Amaç, iki problemden birini çözen ağırlık vektörü $w$'yi bulmaktır:

Maksimum Sharpe Oranı:
$\max_{w} \frac{w^T \mu}{\sqrt{w^T \Sigma w}}$
$\sum_i w_i = 1$ kısıtına tabi olarak ve potansiyel olarak kısa satış yoksa $w_i \ge 0$.

Hedef Getiri $R_p$ için Minimum Varyans:
$\min_{w} w^T \Sigma w$
$w^T \mu = R_p$ ve $\sum_i w_i = 1$ kısıtlarına tabi olarak.

Burada $\mu$ beklenen getiriler vektörüdür (RF/XGBoost tarafından tahmin edilir) ve $\Sigma$ getirilerin kovaryans matrisidir. Ağaç topluluk modellerinin kendisi, girdi özellikleri $x$'i tahmin edilen bir getiri $\hat{y}$'ye eşleyen $M$ ağaçtan (Rastgele Orman için) veya sıralı olarak oluşturulmuş ağaçlardan (XGBoost için) oluşan bir küme oluşturarak çalışır. Bir Rastgele Orman için tahmin bir ortalamadır: $\hat{y} = \frac{1}{M} \sum_{m=1}^{M} T_m(x)$. XGBoost'un tahmini ise toplamsal bir modeldir: $\hat{y} = \sum_{k=1}^{K} f_k(x)$, burada her $f_k$ fonksiyonel uzay $\mathcal{F}$'den bir ağaçtır ve model, düzenlileştirilmiş bir amaç fonksiyonunu minimize ederek eğitilir: $\mathcal{L}(\phi) = \sum_i l(\hat{y}_i, y_i) + \sum_k \Omega(f_k)$, $\Omega(f) = \gamma T + \frac{1}{2}\lambda ||w||^2$ karmaşıklığı kontrol eder.

6. Analiz Çerçevesi: Örnek Vaka

Senaryo: Bir yatırım fonu, önümüzdeki çeyrek için ABD hisse senetleri (SPY ETF'si ile temsil edilen) ve GBP/USD döviz kuru (bir forex pozisyonu ile temsil edilen) arasında tahsis yapmak istemektedir.

Adım 1 - Veri Hazırlığı: SPY getirileri, GBP/USD getirileri ve 20 makroekonomik değişken (ör. ABD TÜFE, BK TÜFE, Fed Fon Oranı, BoE Oranı, ABD-BK 10Y getiri farkı, VIX vb.) için son 10 yılın aylık verilerini toplayın. Hedef değişken bir sonraki dönemin getirisidir. En son 2 yıl test kümesi olarak ayrılır.

Adım 2 - Model Eğitimi & Tahmin: SPY getirilerini tahmin etmek için eğitim verileri üzerinde bir XGBoost modeli ve GBP/USD getirileri için ayrı bir model eğitin. `max_depth`, `learning_rate` ve `n_estimators` gibi parametreler için hiperparametre ayarı (çapraz doğrulama ile) kullanın. Test dönemi için bir adım ötesi tahminler oluşturun.

Adım 3 - Portföy Optimizasyonu: Test kümesindeki her ay için, XGBoost tahminini $\mu$ olarak ve kovaryans matrisi $\Sigma$'yı hesaplamak için geriye dönük 3 yıllık tarihsel getirileri kullanın. Teğet portföy (maksimum Sharpe oranı) ağırlıklarını çözün.

Adım 4 - Geriye Dönük Test & Değerlendirme: Dinamik olarak yeniden dengelenen ML tabanlı portföyün kümülatif getirisini, oynaklığını ve Sharpe oranını hesaplayın. Bunu statik bir 60/40 portföyü ve $\mu$ için tarihsel ortalama getirileri kullanan bir portföy ile karşılaştırın.

7. Gelecek Uygulamalar & Araştırma Yönleri

Çok Varlıklı Portföyler: Çerçevenin daha geniş bir varlık evrenine (tahviller, emtialar, uluslararası hisse senetleri) genişletilerek ML'nin gerçek çeşitlendirme gücünün test edilmesi.
Dinamik Kovaryans Tahmini: Kovaryans matrisi $\Sigma$'yı getirilerle birlikte tahmin etmek için ML tekniklerinin (ör. Graphical LASSO, RNN'ler) entegre edilmesi, tarihsel tahminin ötesine geçilmesi.
Alternatif Verilerin Dahil Edilmesi: Özellik kümelerinin haberler/sosyal medyadan duygu verileri, tedarik zinciri bilgileri veya uydu görüntüleri ile geliştirilmesi, "Haberlerin Oynaklık Üzerindeki Etkisi" (Tetlock, 2007) gibi çalışmalarda olduğu gibi.
Çevrimiçi Öğrenme & Uyarlama: Değişen piyasa rejimlerine gerçek zamanlı olarak uyum sağlayabilen, AI'daki "sürekli öğrenme" zorluklarıyla uyumlu bir kavram olan, ağaç topluluklarının çevrimiçi versiyonlarının uygulanması.
Açıklanabilir Yapay Zeka (XAI) Entegrasyonu: Finansta paydaş güveni için çok önemli olan, belirli bir tahminin neden yapıldığına dair daha derin, örnek düzeyinde açıklamalar sağlamak üzere SHAP (SHapley Additive exPlanations) değerlerinin özellik önemi ile birlikte kullanılması.
Faktör Entegrasyonu: ML tahminlerinin geleneksel faktör modelleri (ör. Fama-French faktörleri) ile harmanlanarak hibrit beklenen getiri tahminleri oluşturulması.

8. Referanslar

Ahmed, N. K., Atiya, A. F., Gayar, N. E., & El-Shishiny, H. (2010). An empirical comparison of machine learning models for time series forecasting. Econometric Reviews, 29(5-6), 594-621.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.
Markowitz, H. (1952). Portfolio selection. The Journal of Finance, 7(1), 77-91.
Pham, H. (2025). [PDF'te atıfta bulunulan hisse senedi/tahvil stratejileri üzerine ilgili çalışma].
Ţiţan, A. G. (2015). The efficient market hypothesis: Review of specialized literature and empirical research. Procedia Economics and Finance, 32, 442-449.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE International Conference on Computer Vision, 2223-2232. (Kavramsal referans için öncü bir ML mimarisi makalesi örneği olarak atıfta bulunulmuştur).