طرق المجموعات الشجرية لتحسين محفظة الأصول الثنائية: دراسة حالة في التعلم الآلي

جدول المحتويات

1. المقدمة

تتناول هذه الدراسة تحدي بناء محفظة استثمارية مثلى ثنائية الأصول باستخدام تقنيات التعلم الآلي. يركز البحث على محفظة تتكون من مؤشر أسهم S&P 500 وزوج العملات USD/GBP. الهدف الأساسي هو الاستفادة من بيانات الاقتصاد الكلي على فترات شهرية وربع سنوية للتنبؤ بعوائد هذه الأصول باستخدام طرق المجموعات الشجرية - وتحديداً غابة القرارات العشوائية و XGBoost. تُستخدم هذه التنبؤات بعد ذلك كمدخلات للعائدات المتوقعة في تحسين نظرية المحفظة الحديثة (MPT). الهدف الثانوي هو تحديد أي متغيرات الاقتصاد الكلي لها تأثير كبير على التنبؤات. تدرس الدراسة بشكل نقدي ما إذا كانت المحفظة المبنية على البيانات المقدرة بالتعلم الآلي تختلف بشكل ذي معنى عن المحفظة المبنية باستخدام المتوسطات التاريخية البسيطة.

2. المنهجية والبيانات

2.1 جمع البيانات والمعالجة المسبقة

يستخدم التحليل بيانات السلاسل الزمنية لمؤشر S&P 500 وسعر صرف USD/GBP. يتم جمع مجموعة من مؤشرات الاقتصاد الكلي كميزات تنبؤية محتملة، والتي قد تشمل متغيرات مثل أسعار الفائدة، ومؤشرات التضخم، وأرقام الإنتاج الصناعي، ومعدلات البطالة، والمستقاة من قواعد بيانات مثل FRED. يتم تقسيم البيانات إلى مجموعات تدريب وتحقق واختبار، مع الانتباه الدقيق لتجنب انحياز التطلع للأمام. يتم تطبيع أو توحيد الميزات حسبما تتطلبه النماذج.

2.2 نماذج المجموعات الشجرية: غابة القرارات العشوائية و XGBoost

يتم استخدام خوارزميتين متقدمتين للتعلم بالتجميع للتنبؤ بالسلاسل الزمنية:

غابة القرارات العشوائية: مجموعة من أشجار القرار يتم تدريبها على عينات مُعاد أخذها من البيانات مع اختيار عشوائي للميزات، مما يقلل من فرط التخصيص ويوفر تنبؤات قوية.
XGBoost (التعزيز المتطرف بالتدرج): إطار عمل قابل للتوسع ومنظم للتعزيز بالتدرج، معروف بسرعته وأدائه. يقوم ببناء الأشجار بشكل تسلسلي لتصحيح أخطاء الأشجار السابقة، وغالباً ما يحقق نتائج متطورة على البيانات المنظمة.

تم اختيار هذه النماذج لقدرتها على التعامل مع العلاقات غير الخطية والتفاعلات المعقدة بين متغيرات الاقتصاد الكلي دون افتراضات بارامترية صارمة.

2.3 إطار بناء المحفظة

تخدم العوائد المتوقعة من نماذج التعلم الآلي كمتجه العائد المتوقع $\mu$ في إطار تحسين متوسط التباين لماركويتز. يتم تحديد أوزان المحفظة $w$ للأصلين من خلال حل مشكلة التحسين التي تزيد نسبة شارب أو تقلل التباين لعائد مستهدف. يتم تقدير مصفوفة التغاير $\Sigma$ عادةً من العوائد التاريخية. ثم تتم مقارنة أداء "المحفظة القائمة على التعلم الآلي" بمحفظة معيارية تم بناؤها باستخدام متوسطات العوائد التاريخية.

3. النتائج التجريبية والتحليل

3.1 أداء التنبؤ

أظهرت نماذج المجموعات الشجرية قدرة ذات دلالة إحصائية على التنبؤ بالحركة الاتجاهية، وبدرجة أقل، بحجم العوائد لكل من S&P 500 و USD/GBP. تم الإبلاغ عن مقاييس التقييم مثل متوسط الخطأ المطلق (MAE)، وجذر متوسط مربع الخطأ (RMSE)، والدقة الاتجاهية. غالباً ما أظهر XGBoost تفوقاً هامشياً على غابة القرارات العشوائية من حيث دقة التنبؤ، خاصةً على البيانات الربع سنوية، ويرجع ذلك على الأرجح إلى آلية التعزيز الأكثر تطوراً والتقنين.

3.2 مقارنة أداء المحفظة

وصف الرسم البياني: سيظهر مخطط خطي مقارن العوائد التراكمية لثلاث محافظ خلال فترة الاختبار خارج العينة: 1) المحفظة المثلى القائمة على تنبؤات التعلم الآلي، 2) المحفظة المثلى القائمة على المتوسط التاريخي، و3) محفظة مرجعية متساوية الأوزان.

أشارت النتائج إلى أن المحفظة المبنية باستخدام تنبؤات التعلم الآلي حققت ملف عائد معدل حسب المخاطر أفضل (نسبة شارب أعلى) مقارنة بالمحفظة القائمة على المتوسطات التاريخية. كما اختلفت أوزان توزيع الأصول بين S&P 500 و USD/GBP بشكل ذي معنى، مما يشير إلى أن نماذج التعلم الآلي استوعبت العوائد المتوقعة المتغيرة مع الزمن والتي لم تستطع المتوسطات التاريخية البسيطة التقاطها.

3.3 تحليل أهمية الميزات

توفر كل من غابة القرارات العشوائية و XGBoost درجات أهمية ميزات أصيلة. كشف التحليل أنه بالنسبة لـ S&P 500، كانت المؤشرات الرائدة مثل فروق آجال السندات، وثقة المستهلك، وتقلبات سوق الأسهم السابقة من بين أفضل المتنبئين. بالنسبة لـ USD/GBP، كانت فروق أسعار الفائدة، وبيانات الميزان التجاري، وحركات مؤشر الدولار الأوسع هي الأكثر تأثيراً. هذه الرؤية قيمة للتفسير الاقتصادي وتبسيط النموذج.

4. الرؤى الأساسية والنقاش

الرؤية الأساسية

الحجة الأكثر إقناعاً في الورقة البحثية ليست أن التعلم الآلي يمكنه التغلب على السوق - بل أن التحسينات المتواضعة والقابلة للتفسير في التنبؤ عبر المجموعات الشجرية يمكنها أن تُغير حسابات الحد الأمثل بشكل مادي لمحفظة بسيطة ثنائية الأصول. وهذا يتحدى عقيدة التوزيع السلبي "اضبط وانسه" للمستثمرين طويلي الأجل في مزيج غير الأسهم/السندات.

التدفق المنطقي

منطق البحث سليم: 1) استخدام تعلم آلي قوي وغير بارامتري (RF/XGBoost) لهضم بيانات الاقتصاد الكلي وتحويلها إلى تنبؤات بالعائد، متجنباً عيوب النماذج الخطية. 2) إدخال هذه التنبؤات إلى محرك ماركويتز الكلاسيكي. 3) التحقق من أن المحفظة الناتجة تختلف عن معيار تاريخي بسيط. التدفق من محركات الاقتصاد الكلي إلى تنبؤات الأصول إلى أوزان المحفظة واضح وقابل للتكرار.

نقاط القوة والضعف

نقاط القوة: التركيز العملي على حالة ثنائية الأصول قابلة للمعالجة يعزز الوضوح. استخدام النماذج الشجرية يوفر عدم خطية متأصلة وأهمية للميزات، مما يضيف قابلية للتفسير الاقتصادي غالباً ما تكون مفقودة في أوراق التمويل باستخدام التعلم العميق. المقارنة مع خط الأساس التاريخي المتوسط عادلة وذات صلة.

نقاط الضعف: الفيل في الغرفة هو تقدير التغاير. تستخدم الدراسة التغاير التاريخي، والذي يشتهر بعدم استقراره. يمكن أن يكون هيكل التغاير المتوقع بالتعلم الآلي خطوة منطقية تالية ولكنه غائب. تبسيط الأصلين، رغم كونه نقطة قوة للوضوح، يحد من فوائد التنويع التي يمكن للتعلم الآلي أن يفتحها في سياق متعدد الأصول. لم يتم معالجة تكاليف المعاملات والجدوى العملية لإعادة الموازنة الشهرية/الربع سنوية بناءً على هذه الإشارات.

رؤى قابلة للتنفيذ

للممارسين: لا تتجاهلوا طرق التجميع البسيطة مثل XGBoost للتنبؤ بالعائد؛ يمكن أن تكون أكثر قوة وقابلية للتفسير من الشبكات العصبية للبيانات المالية/الاقتصاد الكلي المنظمة. يجب أن تكون محركات الاقتصاد الكلي الرئيسية المحددة (مثل فروق آجال السندات للأسهم، وفروق الأسعار للعملات) في مقدمة ذهن المحللين الذين يراقبون هذه الفئات من الأصول. هذا النهج له ما يبرره أكثر للمستثمرين المؤسسيين أو الأفراد المتطورين الذين يمكنهم تنفيذ مثل هذه الاستراتيجية وإعادة موازنتها بشكل منهجي، وليس للمتداولين الأفراد الذين يسعون للحصول على ألفا قصير الأجل.

5. التفاصيل التقنية والإطار الرياضي

جوهر تحسين المحفظة هو نموذج متوسط التباين لماركويتز. الهدف هو إيجاد متجه الوزن $w$ الذي يحل إحدى المشكلتين:

أقصى نسبة شارب:
$\max_{w} \frac{w^T \mu}{\sqrt{w^T \Sigma w}}$
بشرط $\sum_i w_i = 1$، وربما $w_i \ge 0$ لمنع البيع على المكشوف.

الحد الأدنى للتباين للعائد المستهدف $R_p$:
$\min_{w} w^T \Sigma w$
بشرط $w^T \mu = R_p$ و $\sum_i w_i = 1$.

حيث $\mu$ هو متجه العوائد المتوقعة (المتنبأ بها بواسطة RF/XGBoost) و $\Sigma$ هي مصفوفة التغاير للعوائد. تعمل نماذج المجموعات الشجرية نفسها من خلال إنشاء مجموعة من $M$ شجرة (لغابة القرارات العشوائية) أو أشجار مبنية تسلسلياً (لـ XGBoost) تقوم بتعيين الميزات المدخلة $x$ إلى عائد متوقع $\hat{y}$. بالنسبة لغابة القرارات العشوائية، يكون التنبؤ عبارة عن متوسط: $\hat{y} = \frac{1}{M} \sum_{m=1}^{M} T_m(x)$. تنبؤ XGBoost هو نموذج جمعي: $\hat{y} = \sum_{k=1}^{K} f_k(x)$، حيث كل $f_k$ هي شجرة من الفضاء الوظيفي $\mathcal{F}$، ويتم تدريب النموذج عن طريق تقليل هدف منظم: $\mathcal{L}(\phi) = \sum_i l(\hat{y}_i, y_i) + \sum_k \Omega(f_k)$، مع $\Omega(f) = \gamma T + \frac{1}{2}\lambda ||w||^2$ التي تتحكم في التعقيد.

6. إطار التحليل: حالة مثال

السيناريو: تريد صندوق استثماري التوزيع بين الأسهم الأمريكية (يمثلها ETF SPY) وسعر صرف GBP/USD (يمثلها مركز في سوق الفوركس) للربع القادم.

الخطوة 1 - إعداد البيانات: جمع بيانات العوائد الشهرية لـ SPY، وعوائد GBP/USD، و20 متغيراً من الاقتصاد الكلي (مثل مؤشر أسعار المستهلك الأمريكي، ومؤشر أسعار المستهلك البريطاني، وسعر الفائدة الفيدرالي، وسعر بنك إنجلترا، وفرق العائد لمدة 10 سنوات بين الولايات المتحدة والمملكة المتحدة، ومؤشر VIX، إلخ) على مدى السنوات العشر الماضية. المتغير المستهدف هو عائد الفترة التالية. يتم الاحتفاظ بالسنتين الأخيرتين كمجموعة اختبار.

الخطوة 2 - تدريب النموذج والتنبؤ: تدريب نموذج XGBoost على بيانات التدريب للتنبؤ بعوائد SPY ونموذج منفصل لعوائد GBP/USD. استخدام ضبط المعلمات الفائقة (عبر التحقق المتبادل) لمعلمات مثل `max_depth`، و`learning_rate`، و`n_estimators`. توليد تنبؤات خطوة واحدة للأمام لفترة الاختبار.

الخطوة 3 - تحسين المحفظة: لكل شهر في مجموعة الاختبار، استخدم تنبؤ XGBoost كـ $\mu$ واستخدم العوائد التاريخية للثلاث سنوات السابقة لحساب مصفوفة التغاير $\Sigma$. حل لأوزان محفظة التماس (أقصى نسبة شارب).

الخطوة 4 - الاختبار الرجعي والتقييم: حساب العائد التراكمي، والتقلب، ونسبة شارب للمحفظة القائمة على التعلم الآلي والمعاد موازنتها ديناميكياً. قارنها بمحفظة ثابتة 60/40 ومحفظة تستخدم متوسطات العوائد التاريخية لـ $\mu$.

7. التطبيقات المستقبلية واتجاهات البحث

محافظ متعددة الأصول: توسيع الإطار ليشمل مجموعة أوسع من الأصول (السندات، السلع، الأسهم الدولية) لاختبار قوة التنويع الحقيقية للتعلم الآلي.
تقدير التغاير الديناميكي: دمج تقنيات التعلم الآلي (مثل Graphical LASSO، RNNs) للتنبؤ بمصفوفة التغاير $\Sigma$ جنباً إلى جنب مع العوائد، والانتقال إلى ما وراء التقدير التاريخي.
دمج البيانات البديلة: تعزيز مجموعات الميزات ببيانات المشاعر من الأخبار/وسائل التواصل الاجتماعي، أو معلومات سلسلة التوريد، أو صور الأقمار الصناعية، كما تم استكشافه في دراسات مثل "تأثير الأخبار على التقلب" (Tetlock, 2007).
التعلم عبر الإنترنت والتكيف: تنفيذ إصدارات عبر الإنترنت من المجموعات الشجرية يمكنها التكيف مع أنظمة السوق المتغيرة في الوقت الفعلي، وهو مفهوم يتماشى مع تحديات "التعلم المستمر" في الذكاء الاصطناعي.
دمج الذكاء الاصطناعي القابل للتفسير (XAI): استخدام قيم SHAP (SHapley Additive exPlanations) جنباً إلى جنب مع أهمية الميزات لتقديم تفسيرات أعمق على مستوى الحالة الفردية لسبب إجراء تنبؤ معين، وهو أمر بالغ الأهمية لثقة أصحاب المصلحة في التمويل.
دمج العوامل: مزج تنبؤات التعلم الآلي مع نماذج العوامل التقليدية (مثل عوامل Fama-French) لإنشاء تقديرات هجينة للعائد المتوقع.

8. المراجع

Ahmed, N. K., Atiya, A. F., Gayar, N. E., & El-Shishiny, H. (2010). An empirical comparison of machine learning models for time series forecasting. Econometric Reviews, 29(5-6), 594-621.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.
Markowitz, H. (1952). Portfolio selection. The Journal of Finance, 7(1), 77-91.
Pham, H. (2025). [Relevant work on equity/bond strategies cited in the PDF].
Ţiţan, A. G. (2015). The efficient market hypothesis: Review of specialized literature and empirical research. Procedia Economics and Finance, 32, 442-449.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE International Conference on Computer Vision, 2223-2232. (مذكور كمثال على ورقة بحثية معمارية أساسية في التعلم الآلي للاستشارة المفاهيمية).