روش‌های مجموعه‌ای درخت برای بهینه‌سازی سبد دارایی دوگانه: یک مطالعه موردی یادگیری ماشین

فهرست مطالب

1. مقدمه

این مطالعه به چالش ساخت یک سبد سرمایه‌گذاری بهینه دوگانه با استفاده از تکنیک‌های یادگیری ماشین می‌پردازد. پژوهش بر روی سبدی متشکل از شاخص سهام S&P 500 و جفت ارز USD/GBP متمرکز است. هدف اصلی، بهره‌گیری از داده‌های کلان اقتصادی در فرکانس‌های ماهانه و فصلی برای پیش‌بینی بازده این دارایی‌ها با استفاده از روش‌های مجموعه‌ای درخت — به‌طور خاص جنگل تصادفی و XGBoost — است. این پیش‌بینی‌ها سپس به عنوان ورودی‌های بازده مورد انتظار برای بهینه‌سازی نظریه سبد مدرن (MPT) استفاده می‌شوند. هدف ثانویه، شناسایی متغیرهای کلان اقتصادی است که تأثیر معناداری بر پیش‌بینی‌ها دارند. این مطالعه به‌طور انتقادی بررسی می‌کند که آیا سبد ساخته شده بر اساس داده‌های تخمین‌زده شده توسط یادگیری ماشین، به‌طور معناداری از سبدی که با استفاده از میانگین‌های تاریخی ساده ساخته شده است، متفاوت است یا خیر.

2. روش‌شناسی و داده‌ها

2.1 جمع‌آوری و پیش‌پردازش داده‌ها

تحلیل از داده‌های سری زمانی برای شاخص S&P 500 و نرخ ارز USD/GBP استفاده می‌کند. مجموعه‌ای از شاخص‌های کلان اقتصادی به عنوان ویژگی‌های پیش‌بین بالقوه جمع‌آوری می‌شوند که ممکن است شامل متغیرهایی مانند نرخ بهره، شاخص‌های تورم، آمار تولید صنعتی و نرخ بیکاری باشد که از پایگاه‌های داده‌ای مانند FRED استخراج شده‌اند. داده‌ها به مجموعه‌های آموزش، اعتبارسنجی و آزمون تقسیم می‌شوند و توجه دقیقی به اجتناب از سوگیری نگاه به جلو می‌شود. ویژگی‌ها با توجه به نیاز مدل‌ها نرمال‌سازی یا استاندارد می‌شوند.

2.2 مدل‌های مجموعه‌ای درخت: جنگل تصادفی و XGBoost

دو الگوریتم پیشرفته یادگیری مجموعه‌ای برای پیش‌بینی سری زمانی به کار گرفته شده‌اند:

جنگل تصادفی: مجموعه‌ای از درخت‌های تصمیم که بر روی نمونه‌های بوت‌استرپ شده از داده‌ها با انتخاب تصادفی ویژگی‌ها آموزش دیده‌اند، که بیش‌برازش را کاهش داده و پیش‌بینی‌های قوی ارائه می‌دهد.
XGBoost (تقویت گرادیان افراطی): یک چارچوب مقیاس‌پذیر و منظم‌شده تقویت گرادیان که به دلیل سرعت و عملکردش شناخته شده است. این مدل به‌طور متوالی درخت‌هایی می‌سازد تا خطاهای درخت‌های قبلی را اصلاح کند و اغلب نتایج پیشرفته‌ای بر روی داده‌های ساختاریافته ارائه می‌دهد.

این مدل‌ها به دلیل توانایی‌شان در مدیریت روابط غیرخطی و تعاملات پیچیده بین متغیرهای کلان اقتصادی بدون فرض‌های پارامتری سخت‌گیرانه انتخاب شده‌اند.

2.3 چارچوب ساخت سبد دارایی

بازده‌های پیش‌بینی شده از مدل‌های یادگیری ماشین، به عنوان بردار بازده مورد انتظار $\mu$ در چارچوب بهینه‌سازی میانگین-واریانس مارکویتز عمل می‌کنند. وزن‌های سبد $w$ برای دو دارایی با حل مسئله بهینه‌سازی که نسبت شارپ را بیشینه می‌کند یا واریانس را برای یک بازده هدف کمینه می‌کند، تعیین می‌شوند. ماتریس کوواریانس $\Sigma$ معمولاً از بازده‌های تاریخی تخمین زده می‌شود. سپس عملکرد "سبد مبتنی بر یادگیری ماشین" با یک سبد معیار که با استفاده از میانگین‌های بازده تاریخی ساخته شده است، مقایسه می‌شود.

3. نتایج تجربی و تحلیل

3.1 عملکرد پیش‌بینی

مدل‌های مجموعه‌ای درخت، توانایی آماری معناداری در پیش‌بینی حرکت جهت‌دار و در درجه کمتری، بزرگی بازده‌ها برای هر دو S&P 500 و USD/GBP نشان دادند. معیارهای ارزیابی مانند میانگین خطای مطلق (MAE)، جذر میانگین مربعات خطا (RMSE) و دقت جهت‌دار گزارش شدند. XGBoost اغلب برتری جزئی نسبت به جنگل تصادفی از نظر دقت پیش‌بینی نشان داد، به‌ویژه بر روی داده‌های فصلی، که احتمالاً به دلیل مکانیزم تقویت پیچیده‌تر و منظم‌سازی آن است.

3.2 مقایسه عملکرد سبد دارایی

توضیح نمودار: یک نمودار خطی مقایسه‌ای، بازده تجمعی سه سبد را در طول دوره آزمون خارج از نمونه نشان می‌دهد: 1) سبد بهینه مبتنی بر پیش‌بینی یادگیری ماشین، 2) سبد بهینه مبتنی بر میانگین تاریخی، و 3) یک معیار با وزن برابر.

نتایج نشان داد که سبد ساخته شده با استفاده از پیش‌بینی‌های یادگیری ماشین، پروفایل بازده تعدیل‌شده بر اساس ریسک برتری (نسبت شارپ بالاتر) در مقایسه با سبد مبتنی بر میانگین‌های تاریخی به دست آورد. وزن‌های تخصیص دارایی بین S&P 500 و USD/GBP نیز به‌طور معناداری متفاوت بود، که نشان می‌دهد مدل‌های یادگیری ماشین، بازده‌های مورد انتظار متغیر با زمان را که میانگین‌های تاریخی ساده قادر به درک آن نبودند، شناسایی کرده‌اند.

3.3 تحلیل اهمیت ویژگی‌ها

هر دو جنگل تصادفی و XGBoost نمرات ذاتی اهمیت ویژگی را ارائه می‌دهند. تحلیل نشان داد که برای S&P 500، شاخص‌های پیشرو مانند اسپرد مدت، احساسات مصرف‌کننده و نوسان‌پذیری قبلی بازار سهام، در میان پیش‌بین‌کننده‌های برتر بودند. برای USD/GBP، تفاوت‌های نرخ بهره، داده‌های تراز تجاری و حرکات گسترده‌تر شاخص دلار، بیشترین تأثیر را داشتند. این بینش برای تفسیر اقتصادی و ساده‌سازی مدل ارزشمند است.

4. بینش‌های کلیدی و بحث

بینش اصلی

قانع‌کننده‌ترین استدلال مقاله این نیست که یادگیری ماشین می‌تواند بازار را شکست دهد — بلکه این است که حتی بهبودهای متواضعانه و قابل توضیح در پیش‌بینی از طریق مجموعه‌های درخت، می‌تواند محاسبات مرز کارایی را برای یک سبد دارایی ساده دوگانه به‌طور مادی تغییر دهد. این امر، دگم تخصیص غیرفعال "تنظیم و فراموش" را برای سرمایه‌گذاران بلندمدت در ترکیب‌های غیرسهام/اوراق قرضه به چالش می‌کشد.

جریان منطقی

منطق پژوهشی مستحکم است: 1) استفاده از یادگیری ماشین غیرپارامتری قوی (جنگل تصادفی/XGBoost) برای هضم داده‌های کلان اقتصادی به پیش‌بینی‌های بازده، دور زدن دام‌های مدل خطی. 2) تغذیه این پیش‌بینی‌ها به موتور کلاسیک مارکویتز. 3) تأیید اینکه سبد خروجی با یک معیار تاریخی ساده متفاوت است. جریان از محرک‌های کلان اقتصادی به پیش‌بینی دارایی‌ها و سپس به وزن‌های سبد، واضح و قابل تکرار است.

نقاط قوت و ضعف

نقاط قوت: تمرکز عمل‌گرایانه بر روی یک مورد دوگانه قابل مدیریت، وضوح را افزایش می‌دهد. استفاده از مدل‌های درخت، غیرخطی بودن ذاتی و اهمیت ویژگی را فراهم می‌کند و تفسیرپذیری اقتصادی را اضافه می‌کند که اغلب در مقالات مالی یادگیری عمیق مفقود است. مقایسه با خط پایه میانگین تاریخی، منصفانه و مرتبط است.

نقاط ضعف: فیل در اتاق، تخمین کوواریانس است. مطالعه از کوواریانس تاریخی استفاده می‌کند که به بدنامی ناپایدار است. یک ساختار کوواریانس پیش‌بینی شده توسط یادگیری ماشین می‌تواند گام منطقی بعدی باشد اما غایب است. ساده‌سازی دوگانه دارایی، در حالی که برای وضوح یک نقطه قوت است، مزایای تنوع‌بخشی را که یادگیری ماشین می‌تواند در یک زمینه چنددارایی آزاد کند، محدود می‌کند. هزینه‌های معامله و امکان‌پذیری عملی متوازن‌سازی مجدد ماهانه/فصلی بر اساس این سیگنال‌ها مورد بحث قرار نگرفته است.

بینش‌های قابل اجرا

برای فعالان بازار: روش‌های مجموعه‌ای ساده مانند XGBoost را برای پیش‌بینی بازده نادیده نگیرید؛ آن‌ها می‌توانند برای داده‌های ساختاریافته کلان اقتصادی/مالی، قوی‌تر و تفسیرپذیرتر از شبکه‌های عصبی باشند. محرک‌های کلان اقتصادی کلیدی شناسایی شده (مانند اسپرد مدت برای سهام، تفاوت نرخ برای ارز) باید در اولویت تحلیلگرانی باشد که این طبقات دارایی را پایش می‌کنند. این رویکرد بیشتر برای سرمایه‌گذاران نهادی یا افراد پیچیده‌ای که می‌توانند چنین استراتژی‌ای را به‌طور سیستماتیک پیاده‌سازی و متوازن کنند، توجیه‌پذیر است، نه برای معامله‌گران خرد که به دنبال آلفای کوتاه‌مدت هستند.

5. جزئیات فنی و چارچوب ریاضی

هسته بهینه‌سازی سبد، مدل میانگین-واریانس مارکویتز است. هدف یافتن بردار وزن $w$ است که یکی از دو مسئله زیر را حل می‌کند:

بیشینه کردن نسبت شارپ:
$\max_{w} \frac{w^T \mu}{\sqrt{w^T \Sigma w}}$
مشروط بر $\sum_i w_i = 1$، و به طور بالقوه $w_i \ge 0$ برای عدم فروش استقراضی.

کمینه کردن واریانس برای بازده هدف $R_p$:
$\min_{w} w^T \Sigma w$
مشروط بر $w^T \mu = R_p$ و $\sum_i w_i = 1$.

جایی که $\mu$ بردار بازده‌های مورد انتظار (پیش‌بینی شده توسط جنگل تصادفی/XGBoost) و $\Sigma$ ماتریس کوواریانس بازده‌ها است. مدل‌های مجموعه‌ای درخت خود با ایجاد مجموعه‌ای از $M$ درخت (برای جنگل تصادفی) یا درخت‌های ساخته شده متوالی (برای XGBoost) کار می‌کنند که ویژگی‌های ورودی $x$ را به یک بازده پیش‌بینی شده $\hat{y}$ نگاشت می‌کنند. برای یک جنگل تصادفی، پیش‌بینی یک میانگین است: $\hat{y} = \frac{1}{M} \sum_{m=1}^{M} T_m(x)$. پیش‌بینی XGBoost یک مدل جمعی است: $\hat{y} = \sum_{k=1}^{K} f_k(x)$، جایی که هر $f_k$ یک درخت از فضای تابعی $\mathcal{F}$ است، و مدل با کمینه کردن یک تابع هدف منظم‌شده آموزش می‌بیند: $\mathcal{L}(\phi) = \sum_i l(\hat{y}_i, y_i) + \sum_k \Omega(f_k)$، با $\Omega(f) = \gamma T + \frac{1}{2}\lambda ||w||^2$ که پیچیدگی را کنترل می‌کند.

6. چارچوب تحلیل: یک مثال موردی

سناریو: یک صندوق سرمایه‌گذاری می‌خواهد برای فصل آینده بین سهام آمریکا (نمایندگی شده توسط صندوق قابل معامله SPY) و نرخ ارز GBP/USD (نمایندگی شده توسط یک پوزیشن فارکس) تخصیص دهد.

گام 1 - آماده‌سازی داده‌ها: جمع‌آوری 10 سال گذشته داده‌های ماهانه برای بازده‌های SPY، بازده‌های GBP/USD و 20 متغیر کلان اقتصادی (مانند شاخص قیمت مصرف‌کننده آمریکا، شاخص قیمت مصرف‌کننده بریتانیا، نرخ وجوه فدرال رزرو، نرخ بانک مرکزی انگلستان، اسپرد بازده 10 ساله آمریکا-بریتانیا، شاخص VIX و غیره). متغیر هدف، بازده دوره بعد است. 2 سال اخیر به عنوان مجموعه آزمون نگه داشته می‌شود.

گام 2 - آموزش مدل و پیش‌بینی: آموزش یک مدل XGBoost بر روی داده‌های آموزش برای پیش‌بینی بازده‌های SPY و یک مدل جداگانه برای پیش‌بینی بازده‌های GBP/USD. استفاده از تنظیم ابرپارامترها (از طریق اعتبارسنجی متقاطع) برای پارامترهایی مانند `max_depth`، `learning_rate` و `n_estimators`. تولید پیش‌بینی‌های یک‌گام به جلو برای دوره آزمون.

گام 3 - بهینه‌سازی سبد: برای هر ماه در مجموعه آزمون، از پیش‌بینی XGBoost به عنوان $\mu$ و بازده‌های تاریخی 3 سال گذشته برای محاسبه ماتریس کوواریانس $\Sigma$ استفاده کنید. وزن‌های سبد مماس (نسبت شارپ بیشینه) را حل کنید.

گام 4 - آزمون گذشته‌نگر و ارزیابی: محاسبه بازده تجمعی، نوسان‌پذیری و نسبت شارپ سبد مبتنی بر یادگیری ماشین که به‌طور پویا متوازن‌سازی مجدد شده است. مقایسه آن با یک سبد ثابت 60/40 و یک سبدی که از میانگین‌های بازده تاریخی برای $\mu$ استفاده می‌کند.

7. کاربردهای آتی و جهت‌های پژوهشی

سبدهای دارایی چندگانه: گسترش چارچوب به مجموعه وسیع‌تری از دارایی‌ها (اوراق قرضه، کالاها، سهام بین‌المللی) برای آزمایش قدرت واقعی تنوع‌بخشی یادگیری ماشین.
تخمین کوواریانس پویا: ادغام تکنیک‌های یادگیری ماشین (مانند Graphical LASSO، شبکه‌های عصبی بازگشتی) برای پیش‌بینی ماتریس کوواریانس $\Sigma$ در کنار بازده‌ها، فراتر رفتن از تخمین تاریخی.
ادغام داده‌های جایگزین: بهبود مجموعه ویژگی‌ها با داده‌های احساسات از اخبار/شبکه‌های اجتماعی، اطلاعات زنجیره تأمین یا تصاویر ماهواره‌ای، همان‌طور که در مطالعاتی مانند "تأثیر اخبار بر نوسان‌پذیری" (Tetlock, 2007) بررسی شده است.
یادگیری برخط و سازگاری: پیاده‌سازی نسخه‌های برخط از مجموعه‌های درخت که می‌توانند به‌طور بلادرنگ با رژیم‌های بازار در حال تغییر سازگار شوند، مفهومی که با چالش‌های "یادگیری مداوم" در هوش مصنوعی همسو است.
ادغام هوش مصنوعی تفسیرپذیر (XAI): استفاده از مقادیر SHAP (توضیحات افزایشی شپلی) در کنار اهمیت ویژگی برای ارائه توضیحات عمیق‌تر در سطح نمونه برای اینکه چرا یک پیش‌بینی خاص انجام شده است، امری حیاتی برای اعتماد ذینفعان در امور مالی.
ادغام فاکتورها: ترکیب پیش‌بینی‌های یادگیری ماشین با مدل‌های فاکتور سنتی (مانند فاکتورهای فاما-فرنچ) برای ایجاد تخمین‌های ترکیبی بازده مورد انتظار.

8. مراجع

Ahmed, N. K., Atiya, A. F., Gayar, N. E., & El-Shishiny, H. (2010). An empirical comparison of machine learning models for time series forecasting. Econometric Reviews, 29(5-6), 594-621.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.
Markowitz, H. (1952). Portfolio selection. The Journal of Finance, 7(1), 77-91.
Pham, H. (2025). [کار مرتبط در مورد استراتژی‌های سهام/اوراق قرضه که در PDF ذکر شده است].
Ţiţan, A. G. (2015). The efficient market hypothesis: Review of specialized literature and empirical research. Procedia Economics and Finance, 32, 442-449.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE International Conference on Computer Vision, 2223-2232. (به عنوان نمونه‌ای از یک مقاله معماری یادگیری ماشین بنیادی برای ارجاع مفهومی ذکر شده است).