مدل ترکیبی موجک-ARNN-ARIMA برای پیش‌بینی قیمت فارکس

1. مقدمه

بازار تبادل ارز خارجی (فارکس) با حجم معاملات روزانه بیش از ۵ تریلیون دلار، فرصت‌ها و ریسک‌های قابل توجهی ارائه می‌دهد. پیش‌بینی دقیق قیمت برای استراتژی‌های معاملاتی مؤثر حیاتی است. با این حال، داده‌های فارکس با نوسان بالا، نویز و الگوهای غیرخطی پیچیده مشخص می‌شوند که پیش‌بینی را به‌طور استثنایی چالش‌برانگیز می‌کند. مدل‌های خطی سنتی مانند ARIMA اغلب در ثبت این پویایی‌ها ناتوان هستند. این مقاله یک روش‌شناسی ترکیبی نوآورانه را پیشنهاد می‌کند که به‌طور هم‌افزا حذف نویز موجک، یک شبکه عصبی بازگشتی مبتنی بر توجه (ARNN) و مدل میانگین متحرک خودرگرسیونی یکپارچه (ARIMA) را ترکیب می‌کند تا هم مؤلفه‌های خطی و هم غیرخطی سری‌های زمانی فارکس را مورد توجه قرار دهد و هدف آن دستیابی به عملکرد پیش‌بینی برتر است.

2. ادبیات مرتبط

2.1 حذف نویز موجک

تبدیل موجک ابزاری قدرتمند برای تحلیل زمان-فرکانس است که به‌طور مؤثر سیگنال را از نویز در داده‌های مالی غیرایستا جدا می‌کند. با تجزیه یک سری زمانی به ضرایب تقریبی و جزئیات، امکان حذف انتخابی مؤلفه‌های نویز فرکانس بالا که می‌توانند روندهای زیربنایی و ساختارهای خودهمبستگی را مبهم کنند، فراهم می‌شود. این مرحله پیش‌پردازش برای بهبود کیفیت ورودی مدل حیاتی است.

2.2 شبکه‌های عصبی در امور مالی

شبکه‌های عصبی، به‌ویژه شبکه‌های عصبی بازگشتی (RNN) و انواع آن مانند LSTM، در مدل‌سازی سری‌های زمانی مالی پیچیده و غیرخطی امیدوارکننده بوده‌اند. ادغام مکانیزم‌های توجه، همان‌طور که در مدل‌هایی مانند Transformer مشاهده می‌شود، به شبکه اجازه می‌دهد بر مرتبط‌ترین مشاهدات گذشته برای انجام پیش‌بینی متمرکز شود و قابلیت‌های مدل‌سازی توالی را افزایش دهد.

2.3 مدل‌های ترکیبی پیش‌بینی

پارادایم "تجزیه و ترکیب" به خوبی تثبیت شده است. ایده اصلی استفاده از مدل‌های مختلف برای ثبت ویژگی‌های مختلف داده (مانند خطی در مقابل غیرخطی، روند در مقابل فصلی بودن) و سپس ترکیب پیش‌بینی‌های آن‌ها است. سهم این مقاله در ترکیب خاص حذف نویز موجک برای پیش‌پردازش، ARNN برای الگوهای غیرخطی و ARIMA برای مؤلفه‌های خطی باقیمانده نهفته است.

3. روش‌شناسی

3.1 پیش‌پردازش داده‌ها و حذف نویز موجک

سری قیمت اصلی فارکس $P_t$ با استفاده از تبدیل موجک گسسته (DWT) تجزیه می‌شود: $P_t = A_J + \sum_{j=1}^{J} D_j$، که در آن $A_J$ ضریب تقریبی (روند فرکانس پایین) و $D_j$ ضرایب جزئیات (نویز فرکانس بالا در سطح $j$) هستند. یک تابع آستانه‌گذاری (مانند آستانه‌گذاری نرم) بر روی ضرایب جزئیات اعمال می‌شود تا نویز سرکوب شود و به دنبال آن بازسازی برای به دست آوردن سری بدون نویز $\tilde{P}_t$ انجام می‌گیرد.

3.2 معماری شبکه عصبی بازگشتی مبتنی بر توجه (ARNN)

مدل از یک چارچوب RNN کدگذار-کدگشا با یک لایه توجه استفاده می‌کند. کدگذار (سلول‌های LSTM) توالی ورودی $\tilde{P}_{t-n:t-1}$ را پردازش کرده و دنباله‌ای از حالت‌های پنهان $h_i$ را تولید می‌کند. مکانیزم توجه یک بردار زمینه $c_t$ را به عنوان مجموع وزنی این حالت‌های کدگذار محاسبه می‌کند: $c_t = \sum_{i=1}^{n} \alpha_{t,i} h_i$، که در آن وزن‌های توجه $\alpha_{t,i}$ توسط یک شبکه پیش‌خور یاد گرفته می‌شوند. سپس LSTM کدگشا از $c_t$ و حالت قبلی خود برای پیش‌بینی مؤلفه غیرخطی $\hat{N}_t$ استفاده می‌کند.

3.3 مشخصات مدل ARIMA

مدل ARIMA(p,d,q) رابطه خطی در سری زمانی را برازش می‌دهد. پس از آنکه ARNN بخش غیرخطی را ثبت کرد، سری باقیمانده $R_t = \tilde{P}_t - \hat{N}_t$ توسط ARIMA مدل‌سازی می‌شود: $\phi(B)(1-B)^d R_t = \theta(B) \epsilon_t$، که در آن $\phi$ و $\theta$ چندجمله‌ای‌های AR و MA هستند، $B$ عملگر پس‌بر است، $d$ مرتبه تفاضل‌گیری است و $\epsilon_t$ نویز سفید است. این امر منجر به پیش‌بینی خطی $\hat{L}_t$ می‌شود.

3.4 استراتژی یکپارچه‌سازی ترکیبی

پیش‌بینی نهایی $\hat{P}_t$ یک ترکیب جمعی ساده از پیش‌بینی‌های دو مدل تشکیل‌دهنده است: $\hat{P}_t = \hat{N}_t + \hat{L}_t$. این فرض می‌کند که مؤلفه‌های خطی و غیرخطی جمع‌پذیر هستند و به‌طور مؤثر توسط فرآیند مدل‌سازی جدا شده‌اند.

معیار عملکرد اصلی

1.65

ریشه میانگین مربعات خطا (RMSE)

دقت جهت‌ی

~76%

نرخ موفقیت پیش‌بینی

مقیاس بازار فارکس

>$5T

حجم معاملات روزانه

4. نتایج تجربی

4.1 مجموعه داده‌ها و تنظیمات آزمایش

آزمایش‌ها بر روی داده‌های نرخ ارز پنج دقیقه‌ای USD/JPY با فرکانس بالا انجام شد. مجموعه داده به مجموعه‌های آموزش، اعتبارسنجی و آزمون تقسیم شد. مدل‌های پایه برای مقایسه شامل ARIMA مستقل، LSTM استاندارد و سایر معماری‌های شبکه عصبی از ادبیات مرتبط بودند.

4.2 معیارهای عملکرد و مقایسه

مدل ترکیبی پیشنهادی به ریشه میانگین مربعات خطا (RMSE) برابر با 1.65 و دقت جهت‌ی (DA) تقریباً 76% دست یافت. این عملکرد از تمام مدل‌های پایه بهتر بود. به عنوان مثال، یک مدل ARIMA مستقل ممکن است به DA حدود 55-60٪ دست یابد، در حالی که یک LSTM استاندارد ممکن است به حدود 65-70٪ برسد که ارزش رویکرد ترکیبی و پیش‌پردازش را برجسته می‌کند.

4.3 تحلیل و بحث نتایج

بهبود قابل توجه در دقت جهت‌ی به‌ویژه برای کاربردهای معاملاتی قابل توجه است، جایی که پیش‌بینی جهت صحیح حرکت قیمت (بالا/پایین) اغلب از نقطه قیمت دقیق مهم‌تر است. کاهش RMSE نشان‌دهنده حداقل‌سازی خطای پیش‌بینی کلی است. نتایج فرضیه‌ای را تأیید می‌کند که حذف نویز موجک ورودی را تثبیت می‌کند و مدل ترکیبی به‌طور مؤثر وابستگی‌های خطی و غیرخطی را ثبت می‌کند.

5. تحلیل فنی و بینش‌های تخصصی

بینش اصلی

این مقاله فقط یک پروژه دیگر "هوش مصنوعی برای امور مالی" نیست؛ بلکه یک بازی مهندسی زیرکانه است که یک حقیقت بنیادی را تشخیص می‌دهد: بازارهای مالی سیستم‌های چند رژیمی هستند. آن‌ها نه کاملاً آشوبناک و نه کاملاً قابل پیش‌بینی هستند؛ آن‌ها بین دوره‌های پیروی از روند (قابل ثبت توسط مدل‌های خطی) و شوک‌های پیچیده و محرک اخبار (نیازمند مدل‌های غیرخطی) در نوسان هستند. بینش اصلی نویسندگان این است که معماری را مجبور کنند تا صراحتاً این دوگانگی را مدل‌سازی کند به جای امید به اینکه یک شبکه یکپارچه منفرد آن را کشف کند.

جریان منطقی

خط لوله به زیبایی منطقی است: 1) پاکسازی سیگنال (حذف نویز موجک): این غیرقابل مذاکره است. تغذیه داده‌های خام، پرنویز و با فرکانس بالا به هر مدلی، درخواست مشکل است، زیرا نویز بر گرادیان مسلط است. استفاده از موجک‌ها بر میانگین‌های متحرک ساده برتری دارد زیرا ویژگی‌های محلی را حفظ می‌کند. 2) تقسیم و غلبه (ARNN برای غیرخطی، ARIMA برای خطی): این حرکت استادانه است. این از اصل قضیه "ناهار مجانی" در یادگیری ماشین پیروی می‌کند—هیچ مدل واحدی برای همه مشکلات بهترین نیست. اجازه دهید ابزار تخصصی (ARIMA) خودهمبستگی خطی به خوبی درک شده را مدیریت کند و ARNN قدرتمند اما گرسنه داده را آزاد کند تا منحصراً بر رمزگشایی الگوهای پیچیده غیرخطی متمرکز شود. 3) ترکیب مجدد (یکپارچه‌سازی جمعی): جمع ساده مؤثر است، با فرض عمود بودن مؤلفه‌های ثبت شده.

نقاط قوت و ضعف

نقاط قوت: روش‌شناسی تا حدی دفاع‌پذیر و قابل تفسیر است. شما می‌توانید باقیمانده‌های ARIMA و وزن‌های توجه ARNN را بررسی کنید. عملکرد آن (76٪ DA روی فارکس 5 دقیقه‌ای) از نظر عملی معنادار است و از معیارهای رایج فراتر می‌رود. این یک چارچوب قوی است که فراتر از فارکس برای هر سری نویزی و غیرایستا (مانند ارز دیجیتال، کالاهای پرنوسان) قابل اعمال است.

نقاط ضعف و شکاف‌های حیاتی: فیل در اتاق، عدم شبیه‌سازی معاملاتی واقعی است. یک DA بالا و RMSE پایین در یک مجموعه آزمون معادل سودآوری نیست. هزینه‌های معامله، لغزش و تأخیر در یک پنجره 5 دقیقه‌ای می‌تواند بازده کاغذی را از بین ببرد. مدل صرفاً فنی است و فیدهای خبری کلان اقتصادی یا داده‌های دفتر سفارشات را نادیده می‌گیرد—یک محدودیت شدید در چشم‌انداز معاملات الگوریتمی امروزی. علاوه بر این، ترکیب جمعی ساده‌انگارانه است؛ یک مکانیزم وزنی یادگرفته (مانند یک شبکه دروازه‌ای) می‌تواند به‌طور پویا سهم هر مدل را بر اساس رژیم بازار تنظیم کند، رویکردی که در تحقیقات فرا-یادگیری از مؤسساتی مانند DeepMind به آن اشاره شده است.

بینش‌های قابل اجرا

برای کوانت‌ها و مدیران دارایی: تکرار کنید، اما سپس گسترش دهید. از این معماری به عنوان خط پایه جدید خود استفاده کنید. مراحل بعدی فوری عبارتند از: 1) ادغام داده‌های جایگزین: کدگذار ARNN را با بردارهای تعبیه‌شده از تحلیل احساسات خبری بلادرنگ (با استفاده از مدل‌هایی مانند FinBERT) در کنار داده‌های قیمت تغذیه کنید. 2) پیاده‌سازی وزندهی پویا: $\hat{N}_t + \hat{L}_t$ ثابت را با $w_t \hat{N}_t + (1-w_t)\hat{L}_t$ جایگزین کنید، که در آن $w_t$ یک شبکه عصبی کوچک است که "غیرخطی بودن" فعلی بازار را پیش‌بینی می‌کند. 3) بکتست با اصطکاک: پیش‌بینی‌ها را از طریق یک موتور بکتست واقع‌گرا با هزینه‌ها اجرا کنید. ارزش واقعی یک DA 76٪ تنها تحت این شرایط آشکار خواهد شد. این مقاله بلوک موتور را ارائه می‌دهد؛ صنعت اکنون باید بقیه وسیله نقلیه معاملاتی را در اطراف آن بسازد.

6. چارچوب تحلیل و مثال موردی

سناریو: پیش‌بینی کندل پنج دقیقه‌ای بعدی برای EUR/USD در طول یک اعلامیه مهم بانک مرکزی (مانند کنفرانس مطبوعاتی ECB).

کاربرد چارچوب:

پیش‌پردازش موجک: سری قیمت خام 5 دقیقه‌ای از 4 ساعت گذشته (48 نقطه داده) تجزیه می‌شود. ضرایب "جزئیات" فرکانس بالا که در طول اعلامیه جهش می‌کنند، به شدت آستانه‌گذاری می‌شوند و میکرو-نویز را هموار می‌کنند در حالی که جهش جهت‌دار اصلی حفظ می‌شود.
تجزیه مدل:
- مؤلفه ARIMA: حرکت زیربنایی و تمایل بازگشت به میانگینی که قبل از اخبار وجود داشت را مدل‌سازی می‌کند. پیش‌بینی آن ممکن است ادامه جزئی روند قبل از اخبار باشد.
- مؤلفه ARNN: مکانیزم توجه به شدت بر روی میله‌های قیمتی پرنوسان و اخیر پس از اعلامیه متمرکز می‌شود. این از الگوهای تاریخی مشابه "شوک خبری" یاد می‌گیرد تا واکنش بیش از حد کوتاه‌مدت احتمالی و بازگشت جزئی بعدی را پیش‌بینی کند.
پیش‌بینی ترکیبی: پیش‌بینی نهایی = (پیش‌بینی مبتنی بر روند ARIMA) + (تنظیم تأثیر اخبار ARNN). این از هر مدل به تنهایی ظریف‌تر است، که ممکن است یا کم‌واکنشی نشان دهد (ARIMA) یا به نویز بیش‌برازش کند (یک RNN استاندارد روی داده‌های خام).

7. کاربردهای آتی و جهت‌گیری‌ها

پیش‌بینی چند دارایی و فرابازاری: گسترش چارچوب برای مدل‌سازی همبستگی‌ها بین جفت‌های فارکس، سهام و اوراق قرضه. کدگذار ARNN می‌تواند چندین سری زمانی مرتبط را به طور همزمان پردازش کند.
ادغام با یادگیری تقویتی (RL): از پیش‌بینی‌های مدل ترکیبی به عنوان نمایش حالت برای یک عامل RL استفاده کنید که سیاست‌های اجرای معاملاتی بهینه را یاد می‌گیرد و مستقیماً برای سود بهینه‌سازی می‌کند نه خطای پیش‌بینی.
بهبودهای هوش مصنوعی قابل تفسیر (XAI): توسعه روش‌هایی برای نسبت دادن پیش‌بینی نهایی به روندهای خطی خاص (از طریق ضرایب ARIMA) و نقاط زمانی گذشته خاص (از طریق نقشه‌های توجه ARNN)، ارائه دلایل قابل اجرا برای پیش‌بینی به معامله‌گران.
یادگیری آنلاین تطبیقی: پیاده‌سازی مکانیزم‌هایی برای مدل تا به طور مداوم پارامترهای خود را با داده‌های جدید به صورت جریانی به‌روزرسانی کند تا با رژیم‌های بازار در حال تغییر سازگار شود و از پارادایم‌های آموزش-آزمون ایستا فراتر رود.

8. مراجع

Bank for International Settlements (BIS). (2019). Triennial Central Bank Survey of foreign exchange and OTC derivatives markets.
Box, G. E. P., Jenkins, G. M., Reinsel, G. C., & Ljung, G. M. (2015). Time series analysis: forecasting and control. John Wiley & Sons.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
Zhang, G. P. (2003). Time series forecasting using a hybrid ARIMA and neural network model. Neurocomputing, 50, 159-175.
Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780.
Wolpert, D. H., & Macready, W. G. (1997). No free lunch theorems for optimization. IEEE transactions on evolutionary computation, 1(1), 67-82.
DeepMind. (2023). Research in Adaptive Agents. Retrieved from https://www.deepmind.com/research/highlighted-research/adaptive-agents