Métodos de Conjunto de Árvores para Otimização de Portfólio de Dois Ativos: Um Estudo de Caso de Aprendizado de Máquina

Índice

1. Introdução

Este estudo aborda o desafio de construir um portfólio de investimento ótimo de dois ativos utilizando técnicas de aprendizado de máquina. A pesquisa concentra-se em um portfólio composto pelo índice de ações S&P 500 e pelo par de moedas USD/GBP. O objetivo principal é aproveitar dados macroeconômicos em frequências mensais e trimestrais para prever os retornos desses ativos usando métodos de conjunto de árvores — especificamente Random Forest e XGBoost. Essas previsões são então usadas como entradas de retorno esperado para a otimização da teoria moderna de portfólio (TMP). Um objetivo secundário é identificar quais variáveis macroeconômicas exercem influência significativa nas previsões. O estudo examina criticamente se um portfólio construído com dados estimados por AM diverge significativamente de um construído usando médias históricas simples.

2. Metodologia & Dados

2.1 Coleta & Pré-processamento de Dados

A análise utiliza séries temporais para o índice S&P 500 e a taxa de câmbio USD/GBP. Um conjunto de indicadores macroeconômicos é coletado como potenciais características preditivas, que podem incluir variáveis como taxas de juros, índices de inflação, números de produção industrial e taxas de desemprego, provenientes de bancos de dados como o FRED. Os dados são divididos em conjuntos de treinamento, validação e teste, com atenção cuidadosa para evitar viés de "look-ahead". As características são normalizadas ou padronizadas conforme exigido pelos modelos.

2.2 Modelos de Conjunto de Árvores: Random Forest & XGBoost

Dois algoritmos avançados de aprendizado ensemble são empregados para previsão de séries temporais:

Random Forest: Um conjunto de árvores de decisão treinadas em amostras bootstrap dos dados com seleção aleatória de características, reduzindo o sobreajuste e fornecendo previsões robustas.
XGBoost (Extreme Gradient Boosting): Uma estrutura escalável e regularizada de gradient boosting conhecida por sua velocidade e desempenho. Ela constrói árvores sequencialmente para corrigir os erros das anteriores, frequentemente entregando resultados de última geração em dados estruturados.

Esses modelos são escolhidos por sua capacidade de lidar com relações não lineares e interações complexas entre variáveis macroeconômicas sem suposições paramétricas rigorosas.

2.3 Estrutura de Construção de Portfólio

Os retornos previstos pelos modelos de AM servem como o vetor de retorno esperado $\mu$ na estrutura de otimização média-variância de Markowitz. Os pesos do portfólio $w$ para os dois ativos são determinados resolvendo o problema de otimização que maximiza o índice de Sharpe ou minimiza a variância para um retorno alvo. A matriz de covariância $\Sigma$ é tipicamente estimada a partir de retornos históricos. O desempenho do "portfólio baseado em AM" é então comparado com um portfólio de referência construído usando médias históricas de retorno.

3. Resultados Experimentais & Análise

3.1 Desempenho de Previsão

Os modelos de conjunto de árvores demonstraram uma capacidade estatisticamente significativa de prever o movimento direcional e, em menor grau, a magnitude dos retornos tanto para o S&P 500 quanto para o USD/GBP. Métricas de avaliação como Erro Absoluto Médio (MAE), Raiz do Erro Quadrático Médio (RMSE) e acurácia direcional foram relatadas. O XGBoost frequentemente mostrou uma vantagem marginal sobre o Random Forest em termos de acurácia preditiva, particularmente nos dados trimestrais, provavelmente devido ao seu mecanismo de boosting mais sofisticado e regularização.

3.2 Comparação de Desempenho do Portfólio

Descrição do Gráfico: Um gráfico de linhas comparativo mostraria os retornos acumulados de três portfólios durante o período de teste fora da amostra: 1) O portfólio ótimo baseado em previsão de AM, 2) O portfólio ótimo baseado em média histórica, e 3) Uma referência com ponderação igualitária.

Os resultados indicaram que o portfólio construído usando previsões de AM alcançou um perfil de retorno ajustado ao risco superior (índice de Sharpe mais alto) em comparação com o portfólio baseado em médias históricas. Os pesos de alocação de ativos entre o S&P 500 e o USD/GBP também diferiram significativamente, sugerindo que os modelos de AM capturaram retornos esperados variáveis no tempo que as médias históricas simples não puderam.

3.3 Análise de Importância das Variáveis

Tanto o Random Forest quanto o XGBoost fornecem pontuações nativas de importância das características. A análise revelou que, para o S&P 500, indicadores líderes como spreads de juros, sentimento do consumidor e volatilidade prévia do mercado de ações estavam entre os principais preditores. Para o USD/GBP, diferenciais de taxas de juros, dados da balança comercial e movimentos mais amplos do índice do dólar foram os mais influentes. Essa percepção é valiosa para interpretação econômica e simplificação do modelo.

4. Principais Conclusões & Discussão

Conclusão Central

O argumento mais convincente do artigo não é que o AM pode vencer o mercado — é que mesmo melhorias modestas e explicáveis na previsão via conjuntos de árvores podem alterar materialmente os cálculos da fronteira eficiente para um portfólio simples de dois ativos. Isso desafia o dogma de alocação passiva "definir e esquecer" para investidores de longo prazo em misturas não apenas de ações/títulos.

Fluxo Lógico

A lógica da pesquisa é sólida: 1) Usar AM robusto e não paramétrico (RF/XGBoost) para digerir dados macro em previsões de retorno, evitando as armadilhas dos modelos lineares. 2) Alimentar essas previsões no mecanismo clássico de Markowitz. 3) Validar que o portfólio resultante difere de uma referência histórica ingênua. O fluxo dos impulsionadores macro para previsões de ativos e para pesos do portfólio é claro e replicável.

Pontos Fortes & Fracos

Pontos Fortes: Foco pragmático em um caso tratável de dois ativos aumenta a clareza. O uso de modelos de árvores fornece não linearidade inerente e importância de características, adicionando interpretabilidade econômica frequentemente ausente em artigos de finanças com aprendizado profundo. A comparação com uma linha de base de média histórica é justa e relevante.

Pontos Fracos: O elefante na sala é a estimativa de covariância. O estudo usa covariância histórica, que é notoriamente instável. Uma estrutura de covariância prevista por AM poderia ser um próximo passo lógico, mas está ausente. A simplificação de dois ativos, embora seja um ponto forte para clareza, limita os benefícios de diversificação que o AM poderia desbloquear em um contexto multi-ativo. Custos de transação e a viabilidade prática do rebalanceamento mensal/trimestral baseado nesses sinais não são abordados.

Conclusões Acionáveis

Para profissionais: Não negligencie métodos simples de ensemble como o XGBoost para previsão de retorno; eles podem ser mais robustos e interpretáveis do que redes neurais para dados macro/financeiros estruturados. Os principais impulsionadores macro identificados (ex.: spreads de juros para ações, diferenças de taxas para câmbio) devem estar no topo da mente dos analistas que monitoram essas classes de ativos. Essa abordagem é mais justificável para investidores institucionais ou indivíduos sofisticados que podem implementar e rebalancear sistematicamente tal estratégia, não para traders de varejo buscando alfa de curto prazo.

5. Detalhes Técnicos & Estrutura Matemática

O núcleo da otimização de portfólio é o modelo média-variância de Markowitz. O objetivo é encontrar o vetor de pesos $w$ que resolve um de dois problemas:

Máximo Índice de Sharpe:
$\max_{w} \frac{w^T \mu}{\sqrt{w^T \Sigma w}}$
sujeito a $\sum_i w_i = 1$, e potencialmente $w_i \ge 0$ para proibição de venda a descoberto.

Variância Mínima para Retorno Alvo $R_p$:
$\min_{w} w^T \Sigma w$
sujeito a $w^T \mu = R_p$ e $\sum_i w_i = 1$.

Onde $\mu$ é o vetor de retornos esperados (previstos por RF/XGBoost) e $\Sigma$ é a matriz de covariância dos retornos. Os próprios modelos de conjunto de árvores funcionam criando um conjunto de $M$ árvores (para Random Forest) ou árvores construídas sequencialmente (para XGBoost) que mapeiam características de entrada $x$ para um retorno previsto $\hat{y}$. Para um Random Forest, a previsão é uma média: $\hat{y} = \frac{1}{M} \sum_{m=1}^{M} T_m(x)$. A previsão do XGBoost é um modelo aditivo: $\hat{y} = \sum_{k=1}^{K} f_k(x)$, onde cada $f_k$ é uma árvore do espaço funcional $\mathcal{F}$, e o modelo é treinado minimizando um objetivo regularizado: $\mathcal{L}(\phi) = \sum_i l(\hat{y}_i, y_i) + \sum_k \Omega(f_k)$, com $\Omega(f) = \gamma T + \frac{1}{2}\lambda ||w||^2$ controlando a complexidade.

6. Estrutura de Análise: Caso Exemplo

Cenário: Um fundo de investimento deseja alocar entre ações dos EUA (representadas pelo ETF SPY) e a taxa de câmbio GBP/USD (representada por uma posição em forex) para o próximo trimestre.

Passo 1 - Preparação dos Dados: Coletar os últimos 10 anos de dados mensais para retornos do SPY, retornos do GBP/USD e 20 variáveis macroeconômicas (ex.: IPC dos EUA, IPC do Reino Unido, Taxa dos Fed Funds, Taxa do BoE, spread de juros de 10 anos EUA-Reino Unido, VIX, etc.). A variável alvo é o retorno do próximo período. Os 2 anos mais recentes são reservados como conjunto de teste.

Passo 2 - Treinamento do Modelo & Previsão: Treinar um modelo XGBoost nos dados de treinamento para prever retornos do SPY e um modelo separado para retornos do GBP/USD. Usar ajuste de hiperparâmetros (via validação cruzada) para parâmetros como `max_depth`, `learning_rate` e `n_estimators`. Gerar previsões de um passo à frente para o período de teste.

Passo 3 - Otimização do Portfólio: Para cada mês no conjunto de teste, usar a previsão do XGBoost como $\mu$ e os retornos históricos dos 3 anos anteriores para calcular a matriz de covariância $\Sigma$. Resolver para os pesos do portfólio de tangência (máximo índice de Sharpe).

Passo 4 - Backtest & Avaliação: Calcular o retorno acumulado, volatilidade e índice de Sharpe do portfólio baseado em AM rebalanceado dinamicamente. Compará-lo com um portfólio estático 60/40 e um portfólio usando médias históricas de retorno para $\mu$.

7. Aplicações Futuras & Direções de Pesquisa

Portfólios Multi-Ativos: Estender a estrutura para um universo mais amplo de ativos (títulos, commodities, ações internacionais) para testar o verdadeiro poder de diversificação do AM.
Estimação Dinâmica de Covariância: Integrar técnicas de AM (ex.: Graphical LASSO, RNNs) para prever a matriz de covariância $\Sigma$ juntamente com os retornos, indo além da estimativa histórica.
Incorporando Dados Alternativos: Aprimorar conjuntos de características com dados de sentimento de notícias/mídias sociais, informações da cadeia de suprimentos ou imagens de satélite, conforme explorado em estudos como "O Impacto das Notícias na Volatilidade" (Tetlock, 2007).
Aprendizado Online & Adaptação: Implementar versões online de conjuntos de árvores que possam se adaptar a regimes de mercado em mudança em tempo real, um conceito alinhado com os desafios de "aprendizado contínuo" em IA.
Integração de IA Explicável (XAI): Usar valores SHAP (SHapley Additive exPlanations) juntamente com a importância das características para fornecer explicações mais profundas, em nível de instância, sobre por que uma determinada previsão foi feita, crucial para a confiança das partes interessadas em finanças.
Integração de Fatores: Misturar previsões de AM com modelos de fatores tradicionais (ex.: fatores Fama-French) para criar estimativas híbridas de retorno esperado.

8. Referências

Ahmed, N. K., Atiya, A. F., Gayar, N. E., & El-Shishiny, H. (2010). An empirical comparison of machine learning models for time series forecasting. Econometric Reviews, 29(5-6), 594-621.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.
Markowitz, H. (1952). Portfolio selection. The Journal of Finance, 7(1), 77-91.
Pham, H. (2025). [Trabalho relevante sobre estratégias ações/títulos citado no PDF].
Ţiţan, A. G. (2015). The efficient market hypothesis: Review of specialized literature and empirical research. Procedia Economics and Finance, 32, 442-449.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE International Conference on Computer Vision, 2223-2232. (Citado como exemplo de um artigo seminal de arquitetura de AM para referência conceitual).