Методы ансамблей деревьев для оптимизации двухактивного портфеля: Практическое исследование машинного обучения

1. Введение

Данное исследование посвящено решению задачи построения оптимального двухактивного инвестиционного портфеля с использованием методов машинного обучения. В центре внимания — портфель, состоящий из фондового индекса S&P 500 и валютной пары USD/GBP. Основная цель — использовать макроэкономические данные с месячной и квартальной периодичностью для прогнозирования доходности этих активов с помощью методов ансамблей деревьев, в частности Random Forest и XGBoost. Эти прогнозы затем используются в качестве входных данных ожидаемой доходности для оптимизации по модели современной портфельной теории (MPT). Вторая цель — определить, какие макроэкономические переменные оказывают существенное влияние на прогнозы. Исследование критически рассматривает вопрос о том, существенно ли отличается портфель, построенный на данных, оцененных с помощью ML, от портфеля, построенного с использованием простых исторических средних.

2. Методология и данные

2.1 Сбор и предварительная обработка данных

В анализе используются временные ряды для индекса S&P 500 и обменного курса USD/GBP. Набор макроэкономических индикаторов собирается в качестве потенциальных предикторов, которые могут включать такие переменные, как процентные ставки, индексы инфляции, показатели промышленного производства и уровень безработицы, полученные из баз данных, таких как FRED. Данные разделяются на обучающую, валидационную и тестовую выборки с тщательным учетом избежания смещения, связанного с использованием будущей информации. Признаки нормализуются или стандартизируются в соответствии с требованиями моделей.

2.2 Модели ансамблей деревьев: Random Forest и XGBoost

Для прогнозирования временных рядов используются два современных алгоритма ансамблевого обучения:

Random Forest (Случайный лес): Ансамбль решающих деревьев, обученных на бутстрап-выборках данных со случайным выбором признаков, что снижает переобучение и обеспечивает устойчивые прогнозы.
XGBoost (Extreme Gradient Boosting): Масштабируемая, регуляризованная система градиентного бустинга, известная своей скоростью и производительностью. Она последовательно строит деревья для исправления ошибок предыдущих, часто демонстрируя передовые результаты на структурированных данных.

Эти модели выбраны благодаря их способности обрабатывать нелинейные зависимости и сложные взаимодействия между макроэкономическими переменными без строгих параметрических допущений.

2.3 Фреймворк построения портфеля

Прогнозируемая доходность от ML-моделей служит вектором ожидаемой доходности $\mu$ в рамках оптимизации по модели среднего значения и дисперсии Марковица. Веса портфеля $w$ для двух активов определяются путем решения задачи оптимизации, максимизирующей коэффициент Шарпа или минимизирующей дисперсию при заданной целевой доходности. Ковариационная матрица $\Sigma$ обычно оценивается по исторической доходности. Затем производится сравнение эффективности «портфеля на основе ML» с эталонным портфелем, построенным с использованием исторических средних доходностей.

3. Результаты экспериментов и анализ

3.1 Эффективность прогнозирования

Модели ансамблей деревьев продемонстрировали статистически значимую способность прогнозировать направление движения и, в меньшей степени, величину доходности как для S&P 500, так и для USD/GBP. Были представлены метрики оценки, такие как средняя абсолютная ошибка (MAE), среднеквадратическая ошибка (RMSE) и точность определения направления. XGBoost часто показывал небольшое преимущество перед Random Forest с точки зрения точности прогнозирования, особенно на квартальных данных, что, вероятно, связано с более сложным механизмом бустинга и регуляризацией.

3.2 Сравнение эффективности портфелей

Описание графика: Сравнительный линейный график показал бы совокупную доходность трех портфелей за период вневыборочного тестирования: 1) Оптимальный портфель на основе ML-прогнозов, 2) Оптимальный портфель на основе исторических средних, 3) Равновзвешенный эталонный портфель.

Результаты показали, что портфель, построенный с использованием ML-прогнозов, достиг более высокого профиля доходности с поправкой на риск (более высокий коэффициент Шарпа) по сравнению с портфелем, основанным на исторических средних. Веса распределения активов между S&P 500 и USD/GBP также существенно различались, что позволяет предположить, что ML-модели уловили изменяющиеся во времени ожидаемые доходности, которые простые исторические средние не могли отразить.

3.3 Анализ важности признаков

И Random Forest, и XGBoost предоставляют встроенные оценки важности признаков. Анализ показал, что для S&P 500 ведущими индикаторами, такими как спреды доходности, потребительские настроения и волатильность фондового рынка в предыдущие периоды, были среди главных предикторов. Для USD/GBP наиболее влиятельными оказались разницы процентных ставок, данные торгового баланса и движения более широкого индекса доллара. Это понимание ценно для экономической интерпретации и упрощения модели.

4. Ключевые выводы и обсуждение

Основной вывод

Самое убедительное утверждение статьи не в том, что ML может обыграть рынок, а в том, что даже скромные, объяснимые улучшения в прогнозировании с помощью ансамблей деревьев могут существенно изменить расчеты эффективной границы для простого двухактивного портфеля. Это ставит под сомнение пассивную догму распределения «установил и забыл» для долгосрочных инвесторов в смеси активов, отличных от акций/облигаций.

Логическая последовательность

Логика исследования обоснована: 1) Использовать устойчивые, непараметрические ML-модели (RF/XGBoost) для преобразования макроданных в прогнозы доходности, избегая недостатков линейных моделей. 2) Передать эти прогнозы в классическую модель Марковица. 3) Подтвердить, что результирующий портфель отличается от наивного исторического эталона. Последовательность от макродрайверов к прогнозам по активам и весам портфеля ясна и воспроизводима.

Сильные стороны и недостатки

Сильные стороны: Прагматичный фокус на управляемом случае с двумя активами повышает ясность. Использование моделей деревьев обеспечивает присущую нелинейность и важность признаков, добавляя экономическую интерпретируемость, которой часто не хватает в работах по финансам с глубоким обучением. Сравнение с базовым уровнем на основе исторических средних справедливо и актуально.

Недостатки: Главная нерешенная проблема — оценка ковариации. В исследовании используется историческая ковариация, которая печально известна своей нестабильностью. Логичным следующим шагом могла бы быть ML-прогнозируемая структура ковариации, но она отсутствует. Упрощение до двух активов, хотя и является сильной стороной для ясности, ограничивает преимущества диверсификации, которые ML мог бы раскрыть в контексте множества активов. Транзакционные издержки и практическая осуществимость ежемесячной/квартальной ребалансировки на основе этих сигналов не рассматриваются.

Практические выводы

Для практиков: Не стоит пренебрегать простыми ансамблевыми методами, такими как XGBoost, для прогнозирования доходности; они могут быть более устойчивыми и интерпретируемыми, чем нейронные сети, для структурированных макроэкономических/финансовых данных. Выявленные ключевые макродрайверы (например, спреды доходности для акций, разницы ставок для валют) должны быть в центре внимания аналитиков, отслеживающих эти классы активов. Данный подход наиболее оправдан для институциональных инвесторов или опытных частных лиц, которые могут систематически внедрять и ребалансировать такую стратегию, а не для розничных трейдеров, ищущих краткосрочную альфу.

5. Технические детали и математический фреймворк

Основой оптимизации портфеля является модель среднего значения и дисперсии Марковица. Цель — найти вектор весов $w$, решающий одну из двух задач:

Максимизация коэффициента Шарпа:
$\max_{w} \frac{w^T \mu}{\sqrt{w^T \Sigma w}}$
при условии $\sum_i w_i = 1$ и, возможно, $w_i \ge 0$ для запрета коротких продаж.

Минимизация дисперсии для целевой доходности $R_p$:
$\min_{w} w^T \Sigma w$
при условии $w^T \mu = R_p$ и $\sum_i w_i = 1$.

Где $\mu$ — вектор ожидаемых доходностей (спрогнозированных RF/XGBoost), а $\Sigma$ — ковариационная матрица доходностей. Сами модели ансамблей деревьев работают путем создания набора из $M$ деревьев (для Random Forest) или последовательно построенных деревьев (для XGBoost), которые отображают входные признаки $x$ в прогнозируемую доходность $\hat{y}$. Для Random Forest прогноз является средним: $\hat{y} = \frac{1}{M} \sum_{m=1}^{M} T_m(x)$. Прогноз XGBoost — это аддитивная модель: $\hat{y} = \sum_{k=1}^{K} f_k(x)$, где каждое $f_k$ — дерево из функционального пространства $\mathcal{F}$, а модель обучается путем минимизации регуляризованной целевой функции: $\mathcal{L}(\phi) = \sum_i l(\hat{y}_i, y_i) + \sum_k \Omega(f_k)$, где $\Omega(f) = \gamma T + \frac{1}{2}\lambda ||w||^2$ контролирует сложность.

6. Фреймворк анализа: Пример

Сценарий: Инвестиционный фонд хочет распределить средства между американскими акциями (представленными ETF SPY) и обменным курсом GBP/USD (представленным позицией на форексе) на следующий квартал.

Шаг 1 — Подготовка данных: Собрать данные за последние 10 лет по месячной доходности SPY, доходности GBP/USD и 20 макроэкономическим переменным (например, индекс потребительских цен США и Великобритании, ставка ФРС, ставка Банка Англии, спред доходности 10-летних облигаций США-Великобритании, VIX и т.д.). Целевая переменная — доходность следующего периода. Последние 2 года данных резервируются в качестве тестовой выборки.

Шаг 2 — Обучение модели и прогнозирование: Обучить модель XGBoost на обучающих данных для прогнозирования доходности SPY и отдельную модель для прогнозирования доходности GBP/USD. Провести настройку гиперпараметров (с помощью кросс-валидации) для таких параметров, как `max_depth`, `learning_rate` и `n_estimators`. Сгенерировать пошаговые прогнозы на один период вперед для тестового периода.

Шаг 3 — Оптимизация портфеля: Для каждого месяца в тестовой выборке использовать прогноз XGBoost в качестве $\mu$ и скользящие исторические доходности за 3 года для расчета ковариационной матрицы $\Sigma$. Решить задачу нахождения весов касательного портфеля (максимизация коэффициента Шарпа).

Шаг 4 — Бэктест и оценка: Рассчитать совокупную доходность, волатильность и коэффициент Шарпа динамически ребалансируемого портфеля на основе ML. Сравнить его со статическим портфелем 60/40 и портфелем, использующим исторические средние доходности для $\mu$.

7. Будущие применения и направления исследований

Мультиактивные портфели: Расширение фреймворка на более широкий набор активов (облигации, сырьевые товары, международные акции) для проверки реальной способности ML к диверсификации.
Динамическая оценка ковариации: Интеграция ML-методов (например, Graphical LASSO, RNN) для прогнозирования ковариационной матрицы $\Sigma$ наряду с доходностью, выход за рамки исторической оценки.
Включение альтернативных данных: Улучшение наборов признаков данными о настроениях из новостей/социальных сетей, информацией о цепочках поставок или спутниковыми снимками, как это исследуется в работах типа «Влияние новостей на волатильность» (Tetlock, 2007).
Онлайн-обучение и адаптация: Реализация онлайн-версий ансамблей деревьев, которые могут адаптироваться к меняющимся рыночным режимам в реальном времени, концепция, соответствующая задачам «непрерывного обучения» в ИИ.
Интеграция объяснимого ИИ (XAI): Использование значений SHAP (SHapley Additive exPlanations) наряду с важностью признаков для предоставления более глубоких, покомпонентных объяснений того, почему был сделан тот или иной прогноз, что крайне важно для доверия стейкхолдеров в финансах.
Интеграция факторов: Объединение ML-прогнозов с традиционными факторными моделями (например, факторами Фамы-Френча) для создания гибридных оценок ожидаемой доходности.

8. Ссылки

Ahmed, N. K., Atiya, A. F., Gayar, N. E., & El-Shishiny, H. (2010). An empirical comparison of machine learning models for time series forecasting. Econometric Reviews, 29(5-6), 594-621.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.
Markowitz, H. (1952). Portfolio selection. The Journal of Finance, 7(1), 77-91.
Pham, H. (2025). [Соответствующая работа по стратегиям акций/облигаций, цитируемая в PDF].
Ţiţan, A. G. (2015). The efficient market hypothesis: Review of specialized literature and empirical research. Procedia Economics and Finance, 32, 442-449.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE International Conference on Computer Vision, 2223-2232. (Цитируется как пример основополагающей работы по архитектуре ML для концептуальной ссылки).