Kaedah Ensemble Pokok untuk Pengoptimuman Portfolio Dua Aset: Kajian Kes Pembelajaran Mesin

Kandungan

1. Pengenalan

Kajian ini menangani cabaran membina portfolio pelaburan dua aset yang optimum menggunakan teknik pembelajaran mesin. Penyelidikan ini memberi tumpuan kepada portfolio yang terdiri daripada indeks saham S&P 500 dan pasangan mata wang USD/GBP. Objektif utama adalah untuk memanfaatkan data makroekonomi pada frekuensi bulanan dan suku tahunan untuk meramalkan pulangan aset-aset ini menggunakan kaedah ensemble pokok—khususnya Random Forest dan XGBoost. Ramalan ini kemudiannya digunakan sebagai input pulangan jangkaan untuk pengoptimuman teori portfolio moden (MPT). Matlamat sekunder adalah untuk mengenal pasti pemboleh ubah makroekonomi mana yang memberi pengaruh signifikan terhadap ramalan. Kajian ini mengkaji secara kritis sama ada portfolio yang dibina berdasarkan data anggaran ML berbeza secara bermakna daripada portfolio yang dibina menggunakan purata sejarah mudah.

2. Metodologi & Data

2.1 Pengumpulan & Pra-pemprosesan Data

Analisis ini menggunakan data siri masa untuk indeks S&P 500 dan kadar pertukaran USD/GBP. Satu set penunjuk makroekonomi dikumpulkan sebagai ciri ramalan berpotensi, yang mungkin merangkumi pemboleh ubah seperti kadar faedah, indeks inflasi, angka pengeluaran perindustrian, dan kadar pengangguran, yang bersumber daripada pangkalan data seperti FRED. Data dibahagikan kepada set latihan, pengesahan, dan ujian, dengan perhatian teliti untuk mengelakkan bias pandangan ke hadapan. Ciri-ciri dinormalisasi atau distandardkan seperti yang diperlukan oleh model.

2.2 Model Ensemble Pokok: Random Forest & XGBoost

Dua algoritma pembelajaran ensemble maju digunakan untuk peramalan siri masa:

Random Forest: Satu ensemble pokok keputusan yang dilatih pada sampel bootstrapped data dengan pemilihan ciri rawak, mengurangkan overfitting dan memberikan ramalan yang teguh.
XGBoost (Extreme Gradient Boosting): Satu kerangka kerja gradient boosting berskala dan teratur yang terkenal dengan kelajuan dan prestasinya. Ia membina pokok secara berurutan untuk membetulkan ralat pokok sebelumnya, selalunya memberikan keputusan terkini pada data berstruktur.

Model-model ini dipilih kerana keupayaan mereka untuk mengendalikan hubungan bukan linear dan interaksi kompleks antara pemboleh ubah makroekonomi tanpa andaian parametrik yang ketat.

2.3 Kerangka Pembinaan Portfolio

Pulangan yang diramalkan daripada model ML berfungsi sebagai vektor pulangan jangkaan $\mu$ dalam kerangka pengoptimuman min-varians Markowitz. Pemberat portfolio $w$ untuk dua aset ditentukan dengan menyelesaikan masalah pengoptimuman yang memaksimumkan nisbah Sharpe atau meminimumkan varians untuk sasaran pulangan tertentu. Matriks kovarians $\Sigma$ biasanya dianggarkan daripada pulangan sejarah. Prestasi "portfolio berasaskan ML" kemudiannya dibandingkan dengan portfolio penanda aras yang dibina menggunakan purata pulangan sejarah.

3. Keputusan Eksperimen & Analisis

3.1 Prestasi Peramalan

Model ensemble pokok menunjukkan keupayaan yang signifikan secara statistik untuk meramalkan pergerakan arah dan, pada tahap yang lebih rendah, magnitud pulangan untuk kedua-dua S&P 500 dan USD/GBP. Metrik penilaian seperti Ralat Mutlak Purata (MAE), Ralat Punca Kuasa Dua Purata (RMSE), dan ketepatan arah dilaporkan. XGBoost sering menunjukkan kelebihan marginal berbanding Random Forest dari segi ketepatan ramalan, terutamanya pada data suku tahunan, kemungkinan disebabkan oleh mekanisme boosting dan regularisasi yang lebih canggih.

3.2 Perbandingan Prestasi Portfolio

Penerasan Carta: Satu carta garis perbandingan akan menunjukkan pulangan terkumpul tiga portfolio sepanjang tempoh ujian luar sampel: 1) Portfolio optimum berasaskan ramalan ML, 2) Portfolio optimum berasaskan purata sejarah, dan 3) Penanda aras berwajaran sama.

Keputusan menunjukkan bahawa portfolio yang dibina menggunakan ramalan ML mencapai profil pulangan terlaras risiko yang lebih unggul (nisbah Sharpe lebih tinggi) berbanding portfolio berasaskan purata sejarah. Pemberat peruntukan aset antara S&P 500 dan USD/GBP juga berbeza secara bermakna, mencadangkan model ML menangkap pulangan jangkaan berubah masa yang tidak dapat ditangkap oleh purata sejarah mudah.

3.3 Analisis Kepentingan Ciri

Kedua-dua Random Forest dan XGBoost menyediakan skor kepentingan ciri asli. Analisis mendedahkan bahawa untuk S&P 500, penunjuk utama seperti spread jangka, sentimen pengguna, dan turun naik pasaran ekuiti sebelumnya adalah antara peramal teratas. Untuk USD/GBP, perbezaan kadar faedah, data imbangan perdagangan, dan pergerakan indeks dolar yang lebih luas paling berpengaruh. Wawasan ini berharga untuk tafsiran ekonomi dan penyederhanaan model.

4. Wawasan Utama & Perbincangan

Wawasan Teras

Hujah paling menarik dalam kertas ini bukanlah bahawa ML boleh mengalahkan pasaran—tetapi bahawa peningkatan sederhana dan boleh dijelaskan dalam peramalan melalui ensemble pokok boleh mengubah pengiraan sempadan cekap untuk portfolio dua aset yang mudah secara material. Ini mencabar dogma peruntukan pasif "tetapkan dan lupakan" untuk pelabur jangka panjang dalam campuran bukan ekuiti/bon.

Aliran Logik

Logik penyelidikan adalah kukuh: 1) Gunakan ML bukan parametrik yang teguh (RF/XGBoost) untuk mencerna data makro menjadi ramalan pulangan, mengelakkan perangkap model linear. 2) Masukkan ramalan ini ke dalam enjin Markowitz klasik. 3) Sahkan bahawa portfolio output berbeza daripada penanda aras sejarah naif. Aliran daripada pemacu makro ke ramalan aset ke pemberat portfolio adalah jelas dan boleh direplikasi.

Kekuatan & Kelemahan

Kekuatan: Fokus pragmatik pada kes dua aset yang boleh diurus meningkatkan kejelasan. Penggunaan model pokok memberikan bukan lineariti semula jadi dan kepentingan ciri, menambah kebolehinterpretasian ekonomi yang sering tiada dalam kertas kewayaan pembelajaran mendalam. Perbandingan dengan garis dasar purata sejarah adalah adil dan relevan.

Kelemahan: Isu utama yang tidak dibincangkan adalah penganggaran kovarians. Kajian menggunakan kovarians sejarah, yang terkenal tidak stabil. Struktur kovarians yang diramalkan ML boleh menjadi langkah logik seterusnya tetapi tiada. Penyederhanaan dua aset, walaupun satu kekuatan untuk kejelasan, menghadkan manfaat kepelbagaian yang boleh dibuka oleh ML dalam konteks pelbagai aset. Kos transaksi dan kebolehlaksanaan praktikal penyelarasan semula bulanan/suku tahunan berdasarkan isyarat ini tidak dibincangkan.

Wawasan Boleh Tindak

Untuk pengamal: Jangan abaikan kaedah ensemble mudah seperti XGBoost untuk peramalan pulangan; ia boleh menjadi lebih teguh dan boleh diinterpretasikan berbanding rangkaian neural untuk data makro/kewangan berstruktur. Pemacu makro utama yang dikenal pasti (contohnya, spread jangka untuk ekuiti, perbezaan kadar untuk FX) harus berada di fikiran teratas penganalisis yang memantau kelas aset ini. Pendekatan ini paling wajar untuk pelabur institusi atau individu canggih yang boleh melaksanakan dan menyelaraskan semula strategi sedemikian secara sistematik, bukan untuk peniaga runcit yang mencari alfa jangka pendek.

5. Butiran Teknikal & Kerangka Matematik

Teras pengoptimuman portfolio adalah model min-varians Markowitz. Objektifnya adalah untuk mencari vektor pemberat $w$ yang menyelesaikan salah satu daripada dua masalah:

Nisbah Sharpe Maksimum:
$\max_{w} \frac{w^T \mu}{\sqrt{w^T \Sigma w}}$
tertakluk kepada $\sum_i w_i = 1$, dan berpotensi $w_i \ge 0$ untuk tiada jualan pendek.

Varians Minimum untuk Sasaran Pulangan $R_p$:
$\min_{w} w^T \Sigma w$
tertakluk kepada $w^T \mu = R_p$ dan $\sum_i w_i = 1$.

Di mana $\mu$ ialah vektor pulangan jangkaan (diramalkan oleh RF/XGBoost) dan $\Sigma$ ialah matriks kovarians pulangan. Model ensemble pokok sendiri berfungsi dengan mencipta satu set $M$ pokok (untuk Random Forest) atau pokok yang dibina secara berurutan (untuk XGBoost) yang memetakan ciri input $x$ kepada pulangan ramalan $\hat{y}$. Untuk Random Forest, ramalan adalah purata: $\hat{y} = \frac{1}{M} \sum_{m=1}^{M} T_m(x)$. Ramalan XGBoost adalah model penambahan: $\hat{y} = \sum_{k=1}^{K} f_k(x)$, di mana setiap $f_k$ ialah pokok dari ruang fungsi $\mathcal{F}$, dan model dilatih dengan meminimumkan objektif teratur: $\mathcal{L}(\phi) = \sum_i l(\hat{y}_i, y_i) + \sum_k \Omega(f_k)$, dengan $\Omega(f) = \gamma T + \frac{1}{2}\lambda ||w||^2$ mengawal kerumitan.

6. Kerangka Analisis: Contoh Kes

Skenario: Satu dana pelaburan ingin memperuntukkan antara ekuiti AS (diwakili oleh ETF SPY) dan kadar pertukaran GBP/USD (diwakili oleh posisi forex) untuk suku tahun berikutnya.

Langkah 1 - Penyediaan Data: Kumpulkan data bulanan 10 tahun lepas untuk pulangan SPY, pulangan GBP/USD, dan 20 pemboleh ubah makroekonomi (contohnya, CPI AS, CPI UK, Kadar Dana Fed, Kadar BoE, spread hasil 10Y AS-UK, VIX, dll.). Pemboleh ubah sasaran ialah pulangan tempoh seterusnya. 2 tahun terkini dikhaskan sebagai set ujian.

Langkah 2 - Latihan Model & Peramalan: Latih model XGBoost pada data latihan untuk meramalkan pulangan SPY dan model berasingan untuk pulangan GBP/USD. Gunakan penalaan hiperparameter (melalui pengesahan silang) untuk parameter seperti `max_depth`, `learning_rate`, dan `n_estimators`. Hasilkan ramalan satu langkah ke hadapan untuk tempoh ujian.

Langkah 3 - Pengoptimuman Portfolio: Untuk setiap bulan dalam set ujian, gunakan ramalan XGBoost sebagai $\mu$ dan pulangan sejarah 3 tahun sebelumnya untuk mengira matriks kovarians $\Sigma$. Selesaikan untuk pemberat portfolio tangen (nisbah Sharpe maks).

Langkah 4 - Ujian Balik & Penilaian: Kira pulangan terkumpul, turun naik, dan nisbah Sharpe portfolio berasaskan ML yang diselaraskan semula secara dinamik. Bandingkannya dengan portfolio statik 60/40 dan portfolio yang menggunakan purata pulangan sejarah untuk $\mu$.

7. Aplikasi Masa Depan & Hala Tuju Penyelidikan

Portfolio Pelbagai Aset: Memperluaskan kerangka kerja kepada alam aset yang lebih luas (bon, komoditi, ekuiti antarabangsa) untuk menguji kuasa kepelbagaian sebenar ML.
Penganggaran Kovarians Dinamik: Mengintegrasikan teknik ML (contohnya, Graphical LASSO, RNN) untuk meramalkan matriks kovarians $\Sigma$ bersama-sama dengan pulangan, bergerak melebihi anggaran sejarah.
Menggabungkan Data Alternatif: Meningkatkan set ciri dengan data sentimen dari berita/media sosial, maklumat rantaian bekalan, atau imej satelit, seperti yang diterokai dalam kajian seperti "The Impact of News on Volatility" (Tetlock, 2007).
Pembelajaran Dalam Talian & Penyesuaian: Melaksanakan versi dalam talian ensemble pokok yang boleh menyesuaikan diri dengan perubahan rejim pasaran secara masa nyata, satu konsep yang selari dengan cabaran "pembelajaran berterusan" dalam AI.
Integrasi AI Boleh Dijelaskan (XAI): Menggunakan nilai SHAP (SHapley Additive exPlanations) bersama-sama kepentingan ciri untuk memberikan penjelasan peringkat contoh yang lebih mendalam tentang mengapa sesuatu ramalan dibuat, penting untuk kepercayaan pihak berkepentingan dalam kewangan.
Integrasi Faktor: Mencampurkan ramalan ML dengan model faktor tradisional (contohnya, faktor Fama-French) untuk mencipta anggaran pulangan jangkaan hibrid.

8. Rujukan

Ahmed, N. K., Atiya, A. F., Gayar, N. E., & El-Shishiny, H. (2010). An empirical comparison of machine learning models for time series forecasting. Econometric Reviews, 29(5-6), 594-621.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.
Markowitz, H. (1952). Portfolio selection. The Journal of Finance, 7(1), 77-91.
Pham, H. (2025). [Karya relevan mengenai strategi ekuiti/bon yang dirujuk dalam PDF].
Ţiţan, A. G. (2015). The efficient market hypothesis: Review of specialized literature and empirical research. Procedia Economics and Finance, 32, 442-449.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE International Conference on Computer Vision, 2223-2232. (Dirujuk sebagai contoh kertas seni bina ML seminal untuk rujukan konseptual).