فهرست مطالب
1. مقدمه
این مطالعه به چالش ساخت یک سبد سرمایهگذاری بهینه دوگانه با استفاده از تکنیکهای یادگیری ماشین میپردازد. پژوهش بر روی سبدی متشکل از شاخص سهام S&P 500 و جفت ارز USD/GBP متمرکز است. هدف اصلی، بهرهگیری از دادههای کلان اقتصادی در فرکانسهای ماهانه و فصلی برای پیشبینی بازده این داراییها با استفاده از روشهای مجموعهای درخت — بهطور خاص جنگل تصادفی و XGBoost — است. این پیشبینیها سپس به عنوان ورودیهای بازده مورد انتظار برای بهینهسازی نظریه سبد مدرن (MPT) استفاده میشوند. هدف ثانویه، شناسایی متغیرهای کلان اقتصادی است که تأثیر معناداری بر پیشبینیها دارند. این مطالعه بهطور انتقادی بررسی میکند که آیا سبد ساخته شده بر اساس دادههای تخمینزده شده توسط یادگیری ماشین، بهطور معناداری از سبدی که با استفاده از میانگینهای تاریخی ساده ساخته شده است، متفاوت است یا خیر.
2. روششناسی و دادهها
2.1 جمعآوری و پیشپردازش دادهها
تحلیل از دادههای سری زمانی برای شاخص S&P 500 و نرخ ارز USD/GBP استفاده میکند. مجموعهای از شاخصهای کلان اقتصادی به عنوان ویژگیهای پیشبین بالقوه جمعآوری میشوند که ممکن است شامل متغیرهایی مانند نرخ بهره، شاخصهای تورم، آمار تولید صنعتی و نرخ بیکاری باشد که از پایگاههای دادهای مانند FRED استخراج شدهاند. دادهها به مجموعههای آموزش، اعتبارسنجی و آزمون تقسیم میشوند و توجه دقیقی به اجتناب از سوگیری نگاه به جلو میشود. ویژگیها با توجه به نیاز مدلها نرمالسازی یا استاندارد میشوند.
2.2 مدلهای مجموعهای درخت: جنگل تصادفی و XGBoost
دو الگوریتم پیشرفته یادگیری مجموعهای برای پیشبینی سری زمانی به کار گرفته شدهاند:
- جنگل تصادفی: مجموعهای از درختهای تصمیم که بر روی نمونههای بوتاسترپ شده از دادهها با انتخاب تصادفی ویژگیها آموزش دیدهاند، که بیشبرازش را کاهش داده و پیشبینیهای قوی ارائه میدهد.
- XGBoost (تقویت گرادیان افراطی): یک چارچوب مقیاسپذیر و منظمشده تقویت گرادیان که به دلیل سرعت و عملکردش شناخته شده است. این مدل بهطور متوالی درختهایی میسازد تا خطاهای درختهای قبلی را اصلاح کند و اغلب نتایج پیشرفتهای بر روی دادههای ساختاریافته ارائه میدهد.
این مدلها به دلیل تواناییشان در مدیریت روابط غیرخطی و تعاملات پیچیده بین متغیرهای کلان اقتصادی بدون فرضهای پارامتری سختگیرانه انتخاب شدهاند.
2.3 چارچوب ساخت سبد دارایی
بازدههای پیشبینی شده از مدلهای یادگیری ماشین، به عنوان بردار بازده مورد انتظار $\mu$ در چارچوب بهینهسازی میانگین-واریانس مارکویتز عمل میکنند. وزنهای سبد $w$ برای دو دارایی با حل مسئله بهینهسازی که نسبت شارپ را بیشینه میکند یا واریانس را برای یک بازده هدف کمینه میکند، تعیین میشوند. ماتریس کوواریانس $\Sigma$ معمولاً از بازدههای تاریخی تخمین زده میشود. سپس عملکرد "سبد مبتنی بر یادگیری ماشین" با یک سبد معیار که با استفاده از میانگینهای بازده تاریخی ساخته شده است، مقایسه میشود.
3. نتایج تجربی و تحلیل
3.1 عملکرد پیشبینی
مدلهای مجموعهای درخت، توانایی آماری معناداری در پیشبینی حرکت جهتدار و در درجه کمتری، بزرگی بازدهها برای هر دو S&P 500 و USD/GBP نشان دادند. معیارهای ارزیابی مانند میانگین خطای مطلق (MAE)، جذر میانگین مربعات خطا (RMSE) و دقت جهتدار گزارش شدند. XGBoost اغلب برتری جزئی نسبت به جنگل تصادفی از نظر دقت پیشبینی نشان داد، بهویژه بر روی دادههای فصلی، که احتمالاً به دلیل مکانیزم تقویت پیچیدهتر و منظمسازی آن است.
3.2 مقایسه عملکرد سبد دارایی
توضیح نمودار: یک نمودار خطی مقایسهای، بازده تجمعی سه سبد را در طول دوره آزمون خارج از نمونه نشان میدهد: 1) سبد بهینه مبتنی بر پیشبینی یادگیری ماشین، 2) سبد بهینه مبتنی بر میانگین تاریخی، و 3) یک معیار با وزن برابر.
نتایج نشان داد که سبد ساخته شده با استفاده از پیشبینیهای یادگیری ماشین، پروفایل بازده تعدیلشده بر اساس ریسک برتری (نسبت شارپ بالاتر) در مقایسه با سبد مبتنی بر میانگینهای تاریخی به دست آورد. وزنهای تخصیص دارایی بین S&P 500 و USD/GBP نیز بهطور معناداری متفاوت بود، که نشان میدهد مدلهای یادگیری ماشین، بازدههای مورد انتظار متغیر با زمان را که میانگینهای تاریخی ساده قادر به درک آن نبودند، شناسایی کردهاند.
3.3 تحلیل اهمیت ویژگیها
هر دو جنگل تصادفی و XGBoost نمرات ذاتی اهمیت ویژگی را ارائه میدهند. تحلیل نشان داد که برای S&P 500، شاخصهای پیشرو مانند اسپرد مدت، احساسات مصرفکننده و نوسانپذیری قبلی بازار سهام، در میان پیشبینکنندههای برتر بودند. برای USD/GBP، تفاوتهای نرخ بهره، دادههای تراز تجاری و حرکات گستردهتر شاخص دلار، بیشترین تأثیر را داشتند. این بینش برای تفسیر اقتصادی و سادهسازی مدل ارزشمند است.
4. بینشهای کلیدی و بحث
بینش اصلی
قانعکنندهترین استدلال مقاله این نیست که یادگیری ماشین میتواند بازار را شکست دهد — بلکه این است که حتی بهبودهای متواضعانه و قابل توضیح در پیشبینی از طریق مجموعههای درخت، میتواند محاسبات مرز کارایی را برای یک سبد دارایی ساده دوگانه بهطور مادی تغییر دهد. این امر، دگم تخصیص غیرفعال "تنظیم و فراموش" را برای سرمایهگذاران بلندمدت در ترکیبهای غیرسهام/اوراق قرضه به چالش میکشد.
جریان منطقی
منطق پژوهشی مستحکم است: 1) استفاده از یادگیری ماشین غیرپارامتری قوی (جنگل تصادفی/XGBoost) برای هضم دادههای کلان اقتصادی به پیشبینیهای بازده، دور زدن دامهای مدل خطی. 2) تغذیه این پیشبینیها به موتور کلاسیک مارکویتز. 3) تأیید اینکه سبد خروجی با یک معیار تاریخی ساده متفاوت است. جریان از محرکهای کلان اقتصادی به پیشبینی داراییها و سپس به وزنهای سبد، واضح و قابل تکرار است.
نقاط قوت و ضعف
نقاط قوت: تمرکز عملگرایانه بر روی یک مورد دوگانه قابل مدیریت، وضوح را افزایش میدهد. استفاده از مدلهای درخت، غیرخطی بودن ذاتی و اهمیت ویژگی را فراهم میکند و تفسیرپذیری اقتصادی را اضافه میکند که اغلب در مقالات مالی یادگیری عمیق مفقود است. مقایسه با خط پایه میانگین تاریخی، منصفانه و مرتبط است.
نقاط ضعف: فیل در اتاق، تخمین کوواریانس است. مطالعه از کوواریانس تاریخی استفاده میکند که به بدنامی ناپایدار است. یک ساختار کوواریانس پیشبینی شده توسط یادگیری ماشین میتواند گام منطقی بعدی باشد اما غایب است. سادهسازی دوگانه دارایی، در حالی که برای وضوح یک نقطه قوت است، مزایای تنوعبخشی را که یادگیری ماشین میتواند در یک زمینه چنددارایی آزاد کند، محدود میکند. هزینههای معامله و امکانپذیری عملی متوازنسازی مجدد ماهانه/فصلی بر اساس این سیگنالها مورد بحث قرار نگرفته است.
بینشهای قابل اجرا
برای فعالان بازار: روشهای مجموعهای ساده مانند XGBoost را برای پیشبینی بازده نادیده نگیرید؛ آنها میتوانند برای دادههای ساختاریافته کلان اقتصادی/مالی، قویتر و تفسیرپذیرتر از شبکههای عصبی باشند. محرکهای کلان اقتصادی کلیدی شناسایی شده (مانند اسپرد مدت برای سهام، تفاوت نرخ برای ارز) باید در اولویت تحلیلگرانی باشد که این طبقات دارایی را پایش میکنند. این رویکرد بیشتر برای سرمایهگذاران نهادی یا افراد پیچیدهای که میتوانند چنین استراتژیای را بهطور سیستماتیک پیادهسازی و متوازن کنند، توجیهپذیر است، نه برای معاملهگران خرد که به دنبال آلفای کوتاهمدت هستند.
5. جزئیات فنی و چارچوب ریاضی
هسته بهینهسازی سبد، مدل میانگین-واریانس مارکویتز است. هدف یافتن بردار وزن $w$ است که یکی از دو مسئله زیر را حل میکند:
بیشینه کردن نسبت شارپ:
$\max_{w} \frac{w^T \mu}{\sqrt{w^T \Sigma w}}$
مشروط بر $\sum_i w_i = 1$، و به طور بالقوه $w_i \ge 0$ برای عدم فروش استقراضی.
کمینه کردن واریانس برای بازده هدف $R_p$:
$\min_{w} w^T \Sigma w$
مشروط بر $w^T \mu = R_p$ و $\sum_i w_i = 1$.
جایی که $\mu$ بردار بازدههای مورد انتظار (پیشبینی شده توسط جنگل تصادفی/XGBoost) و $\Sigma$ ماتریس کوواریانس بازدهها است. مدلهای مجموعهای درخت خود با ایجاد مجموعهای از $M$ درخت (برای جنگل تصادفی) یا درختهای ساخته شده متوالی (برای XGBoost) کار میکنند که ویژگیهای ورودی $x$ را به یک بازده پیشبینی شده $\hat{y}$ نگاشت میکنند. برای یک جنگل تصادفی، پیشبینی یک میانگین است: $\hat{y} = \frac{1}{M} \sum_{m=1}^{M} T_m(x)$. پیشبینی XGBoost یک مدل جمعی است: $\hat{y} = \sum_{k=1}^{K} f_k(x)$، جایی که هر $f_k$ یک درخت از فضای تابعی $\mathcal{F}$ است، و مدل با کمینه کردن یک تابع هدف منظمشده آموزش میبیند: $\mathcal{L}(\phi) = \sum_i l(\hat{y}_i, y_i) + \sum_k \Omega(f_k)$، با $\Omega(f) = \gamma T + \frac{1}{2}\lambda ||w||^2$ که پیچیدگی را کنترل میکند.
6. چارچوب تحلیل: یک مثال موردی
سناریو: یک صندوق سرمایهگذاری میخواهد برای فصل آینده بین سهام آمریکا (نمایندگی شده توسط صندوق قابل معامله SPY) و نرخ ارز GBP/USD (نمایندگی شده توسط یک پوزیشن فارکس) تخصیص دهد.
گام 1 - آمادهسازی دادهها: جمعآوری 10 سال گذشته دادههای ماهانه برای بازدههای SPY، بازدههای GBP/USD و 20 متغیر کلان اقتصادی (مانند شاخص قیمت مصرفکننده آمریکا، شاخص قیمت مصرفکننده بریتانیا، نرخ وجوه فدرال رزرو، نرخ بانک مرکزی انگلستان، اسپرد بازده 10 ساله آمریکا-بریتانیا، شاخص VIX و غیره). متغیر هدف، بازده دوره بعد است. 2 سال اخیر به عنوان مجموعه آزمون نگه داشته میشود.
گام 2 - آموزش مدل و پیشبینی: آموزش یک مدل XGBoost بر روی دادههای آموزش برای پیشبینی بازدههای SPY و یک مدل جداگانه برای پیشبینی بازدههای GBP/USD. استفاده از تنظیم ابرپارامترها (از طریق اعتبارسنجی متقاطع) برای پارامترهایی مانند `max_depth`، `learning_rate` و `n_estimators`. تولید پیشبینیهای یکگام به جلو برای دوره آزمون.
گام 3 - بهینهسازی سبد: برای هر ماه در مجموعه آزمون، از پیشبینی XGBoost به عنوان $\mu$ و بازدههای تاریخی 3 سال گذشته برای محاسبه ماتریس کوواریانس $\Sigma$ استفاده کنید. وزنهای سبد مماس (نسبت شارپ بیشینه) را حل کنید.
گام 4 - آزمون گذشتهنگر و ارزیابی: محاسبه بازده تجمعی، نوسانپذیری و نسبت شارپ سبد مبتنی بر یادگیری ماشین که بهطور پویا متوازنسازی مجدد شده است. مقایسه آن با یک سبد ثابت 60/40 و یک سبدی که از میانگینهای بازده تاریخی برای $\mu$ استفاده میکند.
7. کاربردهای آتی و جهتهای پژوهشی
- سبدهای دارایی چندگانه: گسترش چارچوب به مجموعه وسیعتری از داراییها (اوراق قرضه، کالاها، سهام بینالمللی) برای آزمایش قدرت واقعی تنوعبخشی یادگیری ماشین.
- تخمین کوواریانس پویا: ادغام تکنیکهای یادگیری ماشین (مانند Graphical LASSO، شبکههای عصبی بازگشتی) برای پیشبینی ماتریس کوواریانس $\Sigma$ در کنار بازدهها، فراتر رفتن از تخمین تاریخی.
- ادغام دادههای جایگزین: بهبود مجموعه ویژگیها با دادههای احساسات از اخبار/شبکههای اجتماعی، اطلاعات زنجیره تأمین یا تصاویر ماهوارهای، همانطور که در مطالعاتی مانند "تأثیر اخبار بر نوسانپذیری" (Tetlock, 2007) بررسی شده است.
- یادگیری برخط و سازگاری: پیادهسازی نسخههای برخط از مجموعههای درخت که میتوانند بهطور بلادرنگ با رژیمهای بازار در حال تغییر سازگار شوند، مفهومی که با چالشهای "یادگیری مداوم" در هوش مصنوعی همسو است.
- ادغام هوش مصنوعی تفسیرپذیر (XAI): استفاده از مقادیر SHAP (توضیحات افزایشی شپلی) در کنار اهمیت ویژگی برای ارائه توضیحات عمیقتر در سطح نمونه برای اینکه چرا یک پیشبینی خاص انجام شده است، امری حیاتی برای اعتماد ذینفعان در امور مالی.
- ادغام فاکتورها: ترکیب پیشبینیهای یادگیری ماشین با مدلهای فاکتور سنتی (مانند فاکتورهای فاما-فرنچ) برای ایجاد تخمینهای ترکیبی بازده مورد انتظار.
8. مراجع
- Ahmed, N. K., Atiya, A. F., Gayar, N. E., & El-Shishiny, H. (2010). An empirical comparison of machine learning models for time series forecasting. Econometric Reviews, 29(5-6), 594-621.
- Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
- Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.
- Markowitz, H. (1952). Portfolio selection. The Journal of Finance, 7(1), 77-91.
- Pham, H. (2025). [کار مرتبط در مورد استراتژیهای سهام/اوراق قرضه که در PDF ذکر شده است].
- Ţiţan, A. G. (2015). The efficient market hypothesis: Review of specialized literature and empirical research. Procedia Economics and Finance, 32, 442-449.
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE International Conference on Computer Vision, 2223-2232. (به عنوان نمونهای از یک مقاله معماری یادگیری ماشین بنیادی برای ارجاع مفهومی ذکر شده است).