Selecionar idioma

Métodos de Conjunto de Árvores para Otimização de Portfólio de Dois Ativos: Um Estudo de Caso de Aprendizado de Máquina

Análise da aplicação de Random Forest e XGBoost para prever o S&P 500 e USD/GBP usando dados macroeconômicos para construir portfólios ótimos de dois ativos.
forexrate.org | PDF Size: 1.0 MB
Avaliação: 4.5/5
Sua avaliação
Você já avaliou este documento
Capa do documento PDF - Métodos de Conjunto de Árvores para Otimização de Portfólio de Dois Ativos: Um Estudo de Caso de Aprendizado de Máquina

Índice

1. Introdução

Este estudo aborda o desafio de construir um portfólio de investimento ótimo de dois ativos utilizando técnicas de aprendizado de máquina. A pesquisa concentra-se em um portfólio composto pelo índice de ações S&P 500 e pelo par de moedas USD/GBP. O objetivo principal é aproveitar dados macroeconômicos em frequências mensais e trimestrais para prever os retornos desses ativos usando métodos de conjunto de árvores — especificamente Random Forest e XGBoost. Essas previsões são então usadas como entradas de retorno esperado para a otimização da teoria moderna de portfólio (TMP). Um objetivo secundário é identificar quais variáveis macroeconômicas exercem influência significativa nas previsões. O estudo examina criticamente se um portfólio construído com dados estimados por AM diverge significativamente de um construído usando médias históricas simples.

2. Metodologia & Dados

2.1 Coleta & Pré-processamento de Dados

A análise utiliza séries temporais para o índice S&P 500 e a taxa de câmbio USD/GBP. Um conjunto de indicadores macroeconômicos é coletado como potenciais características preditivas, que podem incluir variáveis como taxas de juros, índices de inflação, números de produção industrial e taxas de desemprego, provenientes de bancos de dados como o FRED. Os dados são divididos em conjuntos de treinamento, validação e teste, com atenção cuidadosa para evitar viés de "look-ahead". As características são normalizadas ou padronizadas conforme exigido pelos modelos.

2.2 Modelos de Conjunto de Árvores: Random Forest & XGBoost

Dois algoritmos avançados de aprendizado ensemble são empregados para previsão de séries temporais:

Esses modelos são escolhidos por sua capacidade de lidar com relações não lineares e interações complexas entre variáveis macroeconômicas sem suposições paramétricas rigorosas.

2.3 Estrutura de Construção de Portfólio

Os retornos previstos pelos modelos de AM servem como o vetor de retorno esperado $\mu$ na estrutura de otimização média-variância de Markowitz. Os pesos do portfólio $w$ para os dois ativos são determinados resolvendo o problema de otimização que maximiza o índice de Sharpe ou minimiza a variância para um retorno alvo. A matriz de covariância $\Sigma$ é tipicamente estimada a partir de retornos históricos. O desempenho do "portfólio baseado em AM" é então comparado com um portfólio de referência construído usando médias históricas de retorno.

3. Resultados Experimentais & Análise

3.1 Desempenho de Previsão

Os modelos de conjunto de árvores demonstraram uma capacidade estatisticamente significativa de prever o movimento direcional e, em menor grau, a magnitude dos retornos tanto para o S&P 500 quanto para o USD/GBP. Métricas de avaliação como Erro Absoluto Médio (MAE), Raiz do Erro Quadrático Médio (RMSE) e acurácia direcional foram relatadas. O XGBoost frequentemente mostrou uma vantagem marginal sobre o Random Forest em termos de acurácia preditiva, particularmente nos dados trimestrais, provavelmente devido ao seu mecanismo de boosting mais sofisticado e regularização.

3.2 Comparação de Desempenho do Portfólio

Descrição do Gráfico: Um gráfico de linhas comparativo mostraria os retornos acumulados de três portfólios durante o período de teste fora da amostra: 1) O portfólio ótimo baseado em previsão de AM, 2) O portfólio ótimo baseado em média histórica, e 3) Uma referência com ponderação igualitária.

Os resultados indicaram que o portfólio construído usando previsões de AM alcançou um perfil de retorno ajustado ao risco superior (índice de Sharpe mais alto) em comparação com o portfólio baseado em médias históricas. Os pesos de alocação de ativos entre o S&P 500 e o USD/GBP também diferiram significativamente, sugerindo que os modelos de AM capturaram retornos esperados variáveis no tempo que as médias históricas simples não puderam.

3.3 Análise de Importância das Variáveis

Tanto o Random Forest quanto o XGBoost fornecem pontuações nativas de importância das características. A análise revelou que, para o S&P 500, indicadores líderes como spreads de juros, sentimento do consumidor e volatilidade prévia do mercado de ações estavam entre os principais preditores. Para o USD/GBP, diferenciais de taxas de juros, dados da balança comercial e movimentos mais amplos do índice do dólar foram os mais influentes. Essa percepção é valiosa para interpretação econômica e simplificação do modelo.

4. Principais Conclusões & Discussão

Conclusão Central

O argumento mais convincente do artigo não é que o AM pode vencer o mercado — é que mesmo melhorias modestas e explicáveis na previsão via conjuntos de árvores podem alterar materialmente os cálculos da fronteira eficiente para um portfólio simples de dois ativos. Isso desafia o dogma de alocação passiva "definir e esquecer" para investidores de longo prazo em misturas não apenas de ações/títulos.

Fluxo Lógico

A lógica da pesquisa é sólida: 1) Usar AM robusto e não paramétrico (RF/XGBoost) para digerir dados macro em previsões de retorno, evitando as armadilhas dos modelos lineares. 2) Alimentar essas previsões no mecanismo clássico de Markowitz. 3) Validar que o portfólio resultante difere de uma referência histórica ingênua. O fluxo dos impulsionadores macro para previsões de ativos e para pesos do portfólio é claro e replicável.

Pontos Fortes & Fracos

Pontos Fortes: Foco pragmático em um caso tratável de dois ativos aumenta a clareza. O uso de modelos de árvores fornece não linearidade inerente e importância de características, adicionando interpretabilidade econômica frequentemente ausente em artigos de finanças com aprendizado profundo. A comparação com uma linha de base de média histórica é justa e relevante.

Pontos Fracos: O elefante na sala é a estimativa de covariância. O estudo usa covariância histórica, que é notoriamente instável. Uma estrutura de covariância prevista por AM poderia ser um próximo passo lógico, mas está ausente. A simplificação de dois ativos, embora seja um ponto forte para clareza, limita os benefícios de diversificação que o AM poderia desbloquear em um contexto multi-ativo. Custos de transação e a viabilidade prática do rebalanceamento mensal/trimestral baseado nesses sinais não são abordados.

Conclusões Acionáveis

Para profissionais: Não negligencie métodos simples de ensemble como o XGBoost para previsão de retorno; eles podem ser mais robustos e interpretáveis do que redes neurais para dados macro/financeiros estruturados. Os principais impulsionadores macro identificados (ex.: spreads de juros para ações, diferenças de taxas para câmbio) devem estar no topo da mente dos analistas que monitoram essas classes de ativos. Essa abordagem é mais justificável para investidores institucionais ou indivíduos sofisticados que podem implementar e rebalancear sistematicamente tal estratégia, não para traders de varejo buscando alfa de curto prazo.

5. Detalhes Técnicos & Estrutura Matemática

O núcleo da otimização de portfólio é o modelo média-variância de Markowitz. O objetivo é encontrar o vetor de pesos $w$ que resolve um de dois problemas:

Máximo Índice de Sharpe:
$\max_{w} \frac{w^T \mu}{\sqrt{w^T \Sigma w}}$
sujeito a $\sum_i w_i = 1$, e potencialmente $w_i \ge 0$ para proibição de venda a descoberto.

Variância Mínima para Retorno Alvo $R_p$:
$\min_{w} w^T \Sigma w$
sujeito a $w^T \mu = R_p$ e $\sum_i w_i = 1$.

Onde $\mu$ é o vetor de retornos esperados (previstos por RF/XGBoost) e $\Sigma$ é a matriz de covariância dos retornos. Os próprios modelos de conjunto de árvores funcionam criando um conjunto de $M$ árvores (para Random Forest) ou árvores construídas sequencialmente (para XGBoost) que mapeiam características de entrada $x$ para um retorno previsto $\hat{y}$. Para um Random Forest, a previsão é uma média: $\hat{y} = \frac{1}{M} \sum_{m=1}^{M} T_m(x)$. A previsão do XGBoost é um modelo aditivo: $\hat{y} = \sum_{k=1}^{K} f_k(x)$, onde cada $f_k$ é uma árvore do espaço funcional $\mathcal{F}$, e o modelo é treinado minimizando um objetivo regularizado: $\mathcal{L}(\phi) = \sum_i l(\hat{y}_i, y_i) + \sum_k \Omega(f_k)$, com $\Omega(f) = \gamma T + \frac{1}{2}\lambda ||w||^2$ controlando a complexidade.

6. Estrutura de Análise: Caso Exemplo

Cenário: Um fundo de investimento deseja alocar entre ações dos EUA (representadas pelo ETF SPY) e a taxa de câmbio GBP/USD (representada por uma posição em forex) para o próximo trimestre.

Passo 1 - Preparação dos Dados: Coletar os últimos 10 anos de dados mensais para retornos do SPY, retornos do GBP/USD e 20 variáveis macroeconômicas (ex.: IPC dos EUA, IPC do Reino Unido, Taxa dos Fed Funds, Taxa do BoE, spread de juros de 10 anos EUA-Reino Unido, VIX, etc.). A variável alvo é o retorno do próximo período. Os 2 anos mais recentes são reservados como conjunto de teste.

Passo 2 - Treinamento do Modelo & Previsão: Treinar um modelo XGBoost nos dados de treinamento para prever retornos do SPY e um modelo separado para retornos do GBP/USD. Usar ajuste de hiperparâmetros (via validação cruzada) para parâmetros como `max_depth`, `learning_rate` e `n_estimators`. Gerar previsões de um passo à frente para o período de teste.

Passo 3 - Otimização do Portfólio: Para cada mês no conjunto de teste, usar a previsão do XGBoost como $\mu$ e os retornos históricos dos 3 anos anteriores para calcular a matriz de covariância $\Sigma$. Resolver para os pesos do portfólio de tangência (máximo índice de Sharpe).

Passo 4 - Backtest & Avaliação: Calcular o retorno acumulado, volatilidade e índice de Sharpe do portfólio baseado em AM rebalanceado dinamicamente. Compará-lo com um portfólio estático 60/40 e um portfólio usando médias históricas de retorno para $\mu$.

7. Aplicações Futuras & Direções de Pesquisa

8. Referências

  1. Ahmed, N. K., Atiya, A. F., Gayar, N. E., & El-Shishiny, H. (2010). An empirical comparison of machine learning models for time series forecasting. Econometric Reviews, 29(5-6), 594-621.
  2. Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
  3. Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.
  4. Markowitz, H. (1952). Portfolio selection. The Journal of Finance, 7(1), 77-91.
  5. Pham, H. (2025). [Trabalho relevante sobre estratégias ações/títulos citado no PDF].
  6. Ţiţan, A. G. (2015). The efficient market hypothesis: Review of specialized literature and empirical research. Procedia Economics and Finance, 32, 442-449.
  7. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE International Conference on Computer Vision, 2223-2232. (Citado como exemplo de um artigo seminal de arquitetura de AM para referência conceitual).