दो-संपत्ति पोर्टफोलियो अनुकूलन के लिए ट्री एन्सेम्बल विधियाँ: एक मशीन लर्निंग केस स्टडी

विषय सूची

1. परिचय

यह अध्ययन मशीन लर्निंग तकनीकों का उपयोग करके एक इष्टतम दो-संपत्ति निवेश पोर्टफोलियो के निर्माण की चुनौती को संबोधित करता है। यह शोध एसएंडपी 500 स्टॉक इंडेक्स और यूएसडी/जीबीपी मुद्रा जोड़ी से युक्त एक पोर्टफोलियो पर केंद्रित है। प्राथमिक उद्देश्य मासिक और त्रैमासिक आवृत्तियों पर मैक्रोइकॉनॉमिक डेटा का लाभ उठाकर ट्री एन्सेम्बल विधियों—विशेष रूप से रैंडम फॉरेस्ट और एक्सजीबूस्ट—का उपयोग करके इन संपत्तियों के रिटर्न का पूर्वानुमान लगाना है। इन पूर्वानुमानों का उपयोग तब आधुनिक पोर्टफोलियो सिद्धांत (एमपीटी) अनुकूलन के लिए अपेक्षित रिटर्न इनपुट के रूप में किया जाता है। एक द्वितीयक उद्देश्य यह पहचानना है कि कौन से मैक्रोइकॉनॉमिक चर पूर्वानुमानों पर महत्वपूर्ण प्रभाव डालते हैं। यह अध्ययन इस बात की गंभीर समीक्षा करता है कि क्या एमएल-अनुमानित डेटा पर निर्मित पोर्टफोलियो साधारण ऐतिहासिक औसत का उपयोग करके निर्मित पोर्टफोलियो से सार्थक रूप से भिन्न है।

2. पद्धति एवं डेटा

2.1 डेटा संग्रहण एवं प्रीप्रोसेसिंग

विश्लेषण एसएंडपी 500 इंडेक्स और यूएसडी/जीबीपी विनिमय दर के लिए समय-श्रृंखला डेटा का उपयोग करता है। संभावित पूर्वानुमानात्मक फीचर्स के रूप में मैक्रोइकॉनॉमिक संकेतकों का एक समूह एकत्र किया जाता है, जिसमें ब्याज दरें, मुद्रास्फीति सूचकांक, औद्योगिक उत्पादन आंकड़े और बेरोजगारी दर जैसे चर शामिल हो सकते हैं, जो एफआरईडी जैसे डेटाबेस से प्राप्त होते हैं। डेटा को प्रशिक्षण, सत्यापन और परीक्षण सेट में विभाजित किया जाता है, जिसमें लुक-अहेड बायस से बचने पर सावधानीपूर्वक ध्यान दिया जाता है। फीचर्स को मॉडलों की आवश्यकता के अनुसार सामान्यीकृत या मानकीकृत किया जाता है।

2.2 ट्री एन्सेम्बल मॉडल: रैंडम फॉरेस्ट एवं एक्सजीबूस्ट

समय-श्रृंखला पूर्वानुमान के लिए दो उन्नत एन्सेम्बल लर्निंग एल्गोरिदम का उपयोग किया जाता है:

रैंडम फॉरेस्ट: डेटा के बूटस्ट्रैप्ड नमूनों पर यादृच्छिक फीचर चयन के साथ प्रशिक्षित निर्णय वृक्षों का एक समूह, जो ओवरफिटिंग को कम करता है और मजबूत भविष्यवाणियां प्रदान करता है।
एक्सजीबूस्ट (एक्सट्रीम ग्रेडिएंट बूस्टिंग): एक स्केलेबल, नियमित ग्रेडिएंट बूस्टिंग फ्रेमवर्क जो अपनी गति और प्रदर्शन के लिए जाना जाता है। यह पिछले वृक्षों की त्रुटियों को सुधारने के लिए क्रमिक रूप से वृक्षों का निर्माण करता है, जो अक्सर संरचित डेटा पर अत्याधुनिक परिणाम देता है।

इन मॉडलों का चयन मैक्रोइकॉनॉमिक चरों के बीच गैर-रैखिक संबंधों और जटिल अंतःक्रियाओं को कठोर पैरामीट्रिक धारणाओं के बिना संभालने की उनकी क्षमता के लिए किया जाता है।

2.3 पोर्टफोलियो निर्माण ढांचा

एमएल मॉडलों से प्राप्त पूर्वानुमानित रिटर्न मार्कोविट्ज़ माध्य-विचरण अनुकूलन ढांचे में अपेक्षित रिटर्न वेक्टर $\mu$ के रूप में कार्य करते हैं। दो संपत्तियों के लिए पोर्टफोलियो भार $w$ उस अनुकूलन समस्या को हल करके निर्धारित किए जाते हैं जो शार्प अनुपात को अधिकतम करती है या लक्ष्य रिटर्न के लिए विचरण को न्यूनतम करती है। सहप्रसरण मैट्रिक्स $\Sigma$ आमतौर पर ऐतिहासिक रिटर्न से अनुमानित किया जाता है। फिर "एमएल-आधारित पोर्टफोलियो" के प्रदर्शन की तुलना ऐतिहासिक औसत रिटर्न का उपयोग करके निर्मित एक बेंचमार्क पोर्टफोलियो से की जाती है।

3. प्रायोगिक परिणाम एवं विश्लेषण

3.1 पूर्वानुमान प्रदर्शन

ट्री एन्सेम्बल मॉडलों ने एसएंडपी 500 और यूएसडी/जीबीपी दोनों के लिए दिशात्मक गति और, कम हद तक, रिटर्न के परिमाण का पूर्वानुमान लगाने की सांख्यिकीय रूप से महत्वपूर्ण क्षमता प्रदर्शित की। माध्य निरपेक्ष त्रुटि (एमएई), रूट मीन स्क्वायर एरर (आरएमएसई) और दिशात्मक सटीकता जैसे मूल्यांकन मेट्रिक्स रिपोर्ट किए गए। पूर्वानुमानात्मक सटीकता के मामले में एक्सजीबूस्ट ने अक्सर रैंडम फॉरेस्ट पर मामूली बढ़त दिखाई, विशेष रूप से त्रैमासिक डेटा पर, संभवतः इसके अधिक परिष्कृत बूस्टिंग तंत्र और नियमितीकरण के कारण।

3.2 पोर्टफोलियो प्रदर्शन तुलना

चार्ट विवरण: एक तुलनात्मक लाइन चार्ट नमूना-बाह्य परीक्षण अवधि में तीन पोर्टफोलियो के संचयी रिटर्न दिखाएगा: 1) एमएल-पूर्वानुमान-आधारित इष्टतम पोर्टफोलियो, 2) ऐतिहासिक-माध्य-आधारित इष्टतम पोर्टफोलियो, और 3) एक समान भारित बेंचमार्क।

परिणामों ने संकेत दिया कि एमएल पूर्वानुमानों का उपयोग करके निर्मित पोर्टफोलियो ने ऐतिहासिक औसत पर आधारित पोर्टफोलियो की तुलना में एक श्रेष्ठ जोखिम-समायोजित रिटर्न प्रोफाइल (उच्च शार्प अनुपात) प्राप्त किया। एसएंडपी 500 और यूएसडी/जीबीपी के बीच संपत्ति आवंटन भार भी सार्थक रूप से भिन्न थे, जो सुझाव देते हैं कि एमएल मॉडलों ने समय-परिवर्तनशील अपेक्षित रिटर्न को पकड़ा जो साधारण ऐतिहासिक औसत नहीं कर सके।

3.3 फीचर महत्व विश्लेषण

रैंडम फॉरेस्ट और एक्सजीबूस्ट दोनों स्वदेशी फीचर महत्व स्कोर प्रदान करते हैं। विश्लेषण से पता चला कि एसएंडपी 500 के लिए, टर्म स्प्रेड, उपभोक्ता भावना और पूर्व इक्विटी बाजार अस्थिरता जैसे अग्रणी संकेतक शीर्ष भविष्यवक्ताओं में से थे। यूएसडी/जीबीपी के लिए, ब्याज दर अंतर, व्यापार संतुलन डेटा और व्यापक डॉलर इंडेक्स आंदोलन सबसे प्रभावशाली थे। यह अंतर्दृष्टि आर्थिक व्याख्या और मॉडल सरलीकरण के लिए मूल्यवान है।

4. प्रमुख अंतर्दृष्टि एवं चर्चा

मूल अंतर्दृष्टि

पेपर का सबसे सम्मोहक तर्क यह नहीं है कि एमएल बाजार को हरा सकता है—बल्कि यह है कि ट्री एन्सेम्बल के माध्यम से पूर्वानुमान में मामूली, व्याख्यात्मक सुधार भी एक साधारण दो-संपत्ति पोर्टफोलियो के लिए दक्ष सीमा गणनाओं को भौतिक रूप से बदल सकते हैं। यह गैर-इक्विटी/बॉण्ड मिश्रणों में दीर्घकालिक निवेशकों के लिए निष्क्रिय "सेट-एंड-फॉरगेट" आवंटन सिद्धांत को चुनौती देता है।

तार्किक प्रवाह

शोध तर्क सुदृढ़ है: 1) रिटर्न पूर्वानुमानों में मैक्रो डेटा को पचाने के लिए मजबूत, गैर-पैरामीट्रिक एमएल (आरएफ/एक्सजीबूस्ट) का उपयोग करें, रैखिक मॉडल की खामियों से बचते हुए। 2) इन पूर्वानुमानों को शास्त्रीय मार्कोविट्ज़ इंजन में फीड करें। 3) सत्यापित करें कि आउटपुट पोर्टफोलियो एक निर्दोष ऐतिहासिक बेंचमार्क से भिन्न है। मैक्रो चालकों से संपत्ति पूर्वानुमानों और फिर पोर्टफोलियो भारों तक का प्रवाह स्पष्ट और पुनरुत्पादनीय है।

शक्तियाँ एवं कमियाँ

शक्तियाँ: एक व्यवहार्य दो-संपत्ति केस पर व्यावहारिक ध्यान स्पष्टता बढ़ाता है। ट्री मॉडलों का उपयोग अंतर्निहित गैर-रैखिकता और फीचर महत्व प्रदान करता है, जो डीप लर्निंग वित्त पत्रों में अक्सर गायब आर्थिक व्याख्यात्मकता जोड़ता है। एक ऐतिहासिक-माध्य बेसलाइन से तुलना निष्पक्ष और प्रासंगिक है।

कमियाँ: कमरे में हाथी सहप्रसरण अनुमान है। अध्ययन ऐतिहासिक सहप्रसरण का उपयोग करता है, जो कुख्यात रूप से अस्थिर है। एक एमएल-पूर्वानुमानित सहप्रसरण संरचना एक तार्किक अगला कदम हो सकती है लेकिन अनुपस्थित है। दो-संपत्ति सरलीकरण, हालांकि स्पष्टता के लिए एक शक्ति है, बहु-संपत्ति संदर्भ में एमएल द्वारा खोले जा सकने वाले विविधीकरण लाभों को सीमित करता है। लेनदेन लागत और इन संकेतों के आधार पर मासिक/त्रैमासिक पुनर्संतुलन की व्यावहारिक संभावना पर चर्चा नहीं की गई है।

कार्रवाई योग्य अंतर्दृष्टि

व्यवसायियों के लिए: रिटर्न पूर्वानुमान के लिए एक्सजीबूस्ट जैसी सरल एन्सेम्बल विधियों को नजरअंदाज न करें; संरचित मैक्रो/वित्तीय डेटा के लिए वे न्यूरल नेट्स की तुलना में अधिक मजबूत और व्याख्यात्मक हो सकते हैं। पहचाने गए प्रमुख मैक्रो चालक (जैसे, इक्विटी के लिए टर्म स्प्रेड, एफएक्स के लिए दर अंतर) इन संपत्ति वर्गों की निगरानी करने वाले विश्लेषकों के लिए सर्वोपरि होने चाहिए। यह दृष्टिकोण संस्थागत निवेशकों या परिष्कृत व्यक्तियों के लिए सबसे उचित है जो इस तरह की रणनीति को व्यवस्थित रूप से लागू और पुनर्संतुलित कर सकते हैं, न कि अल्पकालिक अल्फा की तलाश करने वाले खुदरा व्यापारियों के लिए।

5. तकनीकी विवरण एवं गणितीय ढांचा

पोर्टफोलियो अनुकूलन का मूल मार्कोविट्ज़ माध्य-विचरण मॉडल है। उद्देश्य भार वेक्टर $w$ ढूंढना है जो दो समस्याओं में से एक को हल करता है:

अधिकतम शार्प अनुपात:
$\max_{w} \frac{w^T \mu}{\sqrt{w^T \Sigma w}}$
इस शर्त के अधीन कि $\sum_i w_i = 1$, और संभावित रूप से $w_i \ge 0$ शॉर्ट-सेलिंग नहीं होने के लिए।

लक्ष्य रिटर्न $R_p$ के लिए न्यूनतम विचरण:
$\min_{w} w^T \Sigma w$
इस शर्त के अधीन कि $w^T \mu = R_p$ और $\sum_i w_i = 1$।

जहां $\mu$ अपेक्षित रिटर्न का वेक्टर है (आरएफ/एक्सजीबूस्ट द्वारा पूर्वानुमानित) और $\Sigma$ रिटर्न का सहप्रसरण मैट्रिक्स है। ट्री एन्सेम्बल मॉडल स्वयं $M$ वृक्षों (रैंडम फॉरेस्ट के लिए) या क्रमिक रूप से निर्मित वृक्षों (एक्सजीबूस्ट के लिए) का एक सेट बनाकर काम करते हैं जो इनपुट फीचर्स $x$ को एक पूर्वानुमानित रिटर्न $\hat{y}$ पर मैप करते हैं। रैंडम फॉरेस्ट के लिए, पूर्वानुमान एक औसत है: $\hat{y} = \frac{1}{M} \sum_{m=1}^{M} T_m(x)$। एक्सजीबूस्ट का पूर्वानुमान एक योगात्मक मॉडल है: $\hat{y} = \sum_{k=1}^{K} f_k(x)$, जहां प्रत्येक $f_k$ फंक्शनल स्पेस $\mathcal{F}$ से एक वृक्ष है, और मॉडल को एक नियमित उद्देश्य को न्यूनतम करके प्रशिक्षित किया जाता है: $\mathcal{L}(\phi) = \sum_i l(\hat{y}_i, y_i) + \sum_k \Omega(f_k)$, जहां $\Omega(f) = \gamma T + \frac{1}{2}\lambda ||w||^2$ जटिलता को नियंत्रित करता है।

6. विश्लेषण ढांचा: उदाहरण केस

परिदृश्य: एक निवेश फंड अगली तिमाही के लिए यूएस इक्विटी (एसपीवाई ईटीएफ द्वारा प्रॉक्सी) और जीबीपी/यूएसडी विनिमय दर (एक फॉरेक्स पोजीशन द्वारा प्रॉक्सी) के बीच आवंटित करना चाहता है।

चरण 1 - डेटा तैयारी: एसपीवाई रिटर्न, जीबीपी/यूएसडी रिटर्न और 20 मैक्रोइकॉनॉमिक चर (जैसे, यूएस सीपीआई, यूके सीपीआई, फेड फंड्स रेट, बीओई रेट, यूएस-यूके 10वाई यील्ड स्प्रेड, वीआईएक्स, आदि) के पिछले 10 वर्षों के मासिक डेटा को एकत्र करें। लक्ष्य चर अगली अवधि का रिटर्न है। सबसे हाल के 2 वर्षों को परीक्षण सेट के रूप में रखा गया है।

चरण 2 - मॉडल प्रशिक्षण एवं पूर्वानुमान: एसपीवाई रिटर्न की भविष्यवाणी करने के लिए प्रशिक्षण डेटा पर एक एक्सजीबूस्ट मॉडल को प्रशिक्षित करें और जीबीपी/यूएसडी रिटर्न के लिए एक अलग मॉडल। `max_depth`, `learning_rate`, और `n_estimators` जैसे पैरामीटरों के लिए हाइपरपैरामीटर ट्यूनिंग (क्रॉस-वैलिडेशन के माध्यम से) का उपयोग करें। परीक्षण अवधि के लिए एक-चरण-आगे पूर्वानुमान उत्पन्न करें।

चरण 3 - पोर्टफोलियो अनुकूलन: परीक्षण सेट में प्रत्येक महीने के लिए, एक्सजीबूस्ट पूर्वानुमान को $\mu$ के रूप में उपयोग करें और सहप्रसरण मैट्रिक्स $\Sigma$ की गणना करने के लिए पिछले 3-वर्ष के ऐतिहासिक रिटर्न का उपयोग करें। टैन्जेंसी पोर्टफोलियो (अधिकतम शार्प अनुपात) भारों के लिए हल करें।

चरण 4 - बैकटेस्ट एवं मूल्यांकन: गतिशील रूप से पुनर्संतुलित एमएल-आधारित पोर्टफोलियो के संचयी रिटर्न, अस्थिरता और शार्प अनुपात की गणना करें। इसकी तुलना एक स्थिर 60/40 पोर्टफोलियो और $\mu$ के लिए ऐतिहासिक औसत रिटर्न का उपयोग करने वाले पोर्टफोलियो से करें।

7. भविष्य के अनुप्रयोग एवं शोध दिशाएँ

बहु-संपत्ति पोर्टफोलियो: एमएल की वास्तविक विविधीकरण शक्ति का परीक्षण करने के लिए संपत्तियों (बॉण्ड, कमोडिटी, अंतरराष्ट्रीय इक्विटी) के व्यापक ब्रह्मांड तक ढांचे का विस्तार।
गतिशील सहप्रसरण अनुमान: ऐतिहासिक अनुमान से आगे बढ़ते हुए, रिटर्न के साथ-साथ सहप्रसरण मैट्रिक्स $\Sigma$ का पूर्वानुमान लगाने के लिए एमएल तकनीकों (जैसे, ग्राफिकल लासो, आरएनएन) को एकीकृत करना।
वैकल्पिक डेटा का समावेश: समाचार/सोशल मीडिया से भावना डेटा, आपूर्ति श्रृंखला जानकारी, या उपग्रह इमेजरी के साथ फीचर सेट को बढ़ाना, जैसा कि "द इम्पैक्ट ऑफ न्यूज ऑन वोलैटिलिटी" (टेटलॉक, 2007) जैसे अध्ययनों में खोजा गया है।
ऑनलाइन लर्निंग एवं अनुकूलन: ट्री एन्सेम्बल के ऑनलाइन संस्करणों को लागू करना जो बदलते बाजार शासनों के लिए वास्तविक समय में अनुकूलन कर सकते हैं, एक अवधारणा जो एआई में "निरंतर सीखने" की चुनौतियों के साथ संरेखित है।
व्याख्यात्मक एआई (एक्सएआई) एकीकरण: क्यों एक निश्चित पूर्वानुमान लगाया गया था, इसके लिए गहरी, उदाहरण-स्तरीय व्याख्याएं प्रदान करने के लिए फीचर महत्व के साथ शैप (शैप्ली एडिटिव एक्सप्लेनेशन) मूल्यों का उपयोग करना, वित्त में हितधारक विश्वास के लिए महत्वपूर्ण।
फैक्टर एकीकरण: हाइब्रिड अपेक्षित रिटर्न अनुमान बनाने के लिए पारंपरिक फैक्टर मॉडल (जैसे, फामा-फ्रेंच फैक्टर) के साथ एमएल पूर्वानुमानों को मिश्रित करना।

8. संदर्भ

Ahmed, N. K., Atiya, A. F., Gayar, N. E., & El-Shishiny, H. (2010). An empirical comparison of machine learning models for time series forecasting. Econometric Reviews, 29(5-6), 594-621.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.
Markowitz, H. (1952). Portfolio selection. The Journal of Finance, 7(1), 77-91.
Pham, H. (2025). [Relevant work on equity/bond strategies cited in the PDF].
Ţiţan, A. G. (2015). The efficient market hypothesis: Review of specialized literature and empirical research. Procedia Economics and Finance, 32, 442-449.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE International Conference on Computer Vision, 2223-2232. (Cited as an example of a seminal ML architecture paper for conceptual reference).