Tu estrategia tiene un Sharpe Ratio de 3.5. Un drawdown máximo del 8%. Profit Factor de 2.8. Parece demasiado bueno para ser verdad. Y probablemente lo sea.
Garbage In, Garbage Out. Si tus datos de mercado tienen errores, huecos o sesgos, tu backtest es ficción. No importa lo sofisticado que sea tu algoritmo: si la materia prima está contaminada, el producto final será basura.
"Los datos de mercado son los cimientos sobre los que construyes todo tu sistema de trading algorítmico. Sin datos de calidad, todo lo demás es irrelevante."
Si vienes de nuestra guía de trading algorítmico, ya sabes que necesitas datos para hacer backtesting. Y si ya has explorado las herramientas de trading algorítmico, sabrás que el dato es el combustible que alimenta todo. Ahora aprenderás exactamente qué tipos de datos existen, dónde conseguirlos, cuánto cuestan, y —lo más importante— cómo evitar las trampas que invalidan el 90% de los backtests.
¿Ya tienes datos y una estrategia?
Valida tu backtest con análisis de Monte Carlo, Walk Forward y detección de sesgos. Gratis.
Analizar mi estrategia →Garbage In, Garbage Out: Por Qué los Datos lo Son Todo
Un backtest solo es tan bueno como los datos que lo alimentan. Esta no es una frase hecha: es la primera ley del trading algorítmico. Como explica Marcos López de Prado en Advances in Financial Machine Learning, la calidad de los datos es el pilar sobre el que se construye cualquier sistema cuantitativo fiable. Considerando que el 60-80% del volumen de trading en mercados de renta variable de EE.UU. y Europa es generado por trading algorítmico (Select USA, 2024), la competencia por datos de calidad es feroz: los datos son la ventaja competitiva real.
El Coste Real de los Datos Malos
Imagina que desarrollas una estrategia de momentum en acciones. Backteas 10 años de datos y obtienes resultados espectaculares. Pero tus datos tienen un problema: no incluyen las empresas que quebraron o fueron delisted. Solo estás viendo las supervivientes.
Resultado del Survivorship Bias
Tu backtest muestra +340% en 10 años. La realidad hubiera sido +40% (o pérdidas). Has construido sobre datos incompletos.
Casos Reales de Fallos por Datos
| Caso | Problema de Datos | Impacto |
|---|---|---|
| Estrategia de pares (acciones) | Datos sin ajustar por splits | Señales falsas, pérdidas -60% |
| Mean reversion (futuros) | Huecos de 2 horas en datos | DD real 3x mayor que backtest |
| Breakout (forex) | Datos de un solo broker (sesgados) | Spread real 2x mayor, no rentable |
| Momentum (ETFs) | Sin ETFs delisted | Rendimiento inflado +200% |
Por Qué los Datos Gratuitos Tienen un Coste Oculto
"Yahoo Finance es gratis, ¿por qué pagar por datos?"
Porque los datos gratuitos:
- Tienen errores que nadie corrige (splits mal aplicados, huecos)
- No incluyen delisted (survivorship bias garantizado)
- Son solo EOD (fin de día) — inútiles para estrategias intraday
- Cambian retroactivamente sin aviso (Yahoo ha modificado históricos)
- No tienen bid/ask — imposible simular slippage real
El mercado global de datos financieros en tiempo real está valorado en $28 billion (2024), lo que demuestra la importancia que la industria otorga a la calidad de la información. No es casualidad que Python sea utilizado por el 74% de los traders algorítmicos según la encuesta QuantInsti Developer Survey (2024): el ecosistema de datos y librerías en Python facilita el acceso y procesamiento de datos de mercado a escala.
Perspectiva de Coste
Un proveedor profesional cuesta $50-200/mes. Esto es insignificante comparado con el coste de desarrollar estrategias sobre datos basura durante meses y perder dinero real después.
Tipos de Datos de Mercado
No todos los datos son iguales. Según tu estrategia, necesitarás diferentes tipos y granularidades.
OHLC (Open, High, Low, Close)
El formato más común. Cada barra contiene:
Componentes OHLC
- Open: Precio de apertura del período
- High: Precio máximo alcanzado
- Low: Precio mínimo alcanzado
- Close: Precio de cierre del período
- Volume: Cantidad negociada
Limitación Clave
No sabes el orden de los movimientos dentro de la barra. ¿El precio tocó primero el High y luego el Low, o al revés? Esto afecta a estrategias con stops ajustados.
Tick Data
Cada transacción individual registrada con timestamp de milisegundos.
Timestamp,Price,Volume,Side
2026-01-24 09:30:00.123,4520.25,5,BUY
2026-01-24 09:30:00.125,4520.50,3,BUY
2026-01-24 09:30:00.128,4520.25,10,SELL ✅ Ventajas
- Máxima precisión para backtesting
- Permite reconstruir cualquier timeframe
- Necesario para alta frecuencia
- Puedes ver el order flow real
❌ Limitaciones
- Archivos enormes (GB por día)
- Requiere más procesamiento
- Más caro y difícil de conseguir
- Overkill para swing trading
Level 2 / Order Book
No solo las transacciones ejecutadas, sino las órdenes pendientes en el libro.
Bid Levels Ask Levels
4520.00 x 150 4520.25 x 80
4519.75 x 300 4520.50 x 120
4519.50 x 500 4520.75 x 200 Uso: Estrategias de market making, detección de spoofing, análisis de liquidez. Raramente necesario para retail.
Granularidad: De Tick a Mensual
La granularidad correcta depende de tu horizonte temporal y estilo de trading.
| Granularidad | Uso típico | Datos/año | Tamaño |
|---|---|---|---|
| Tick | HFT, scalping | Millones | 1-10 GB |
| 1 minuto | Day trading | ~98,000 | 5 MB |
| 5 minutos | Day/Swing | ~19,600 | 1 MB |
| 1 hora | Swing trading | ~1,600 | 100 KB |
| Diario (EOD) | Position trading | ~252 | 20 KB |
| Semanal | Inversión largo plazo | ~52 | 5 KB |
📐 Regla Práctica
Tu timeframe de datos debe ser al menos 5-10x menor que tu timeframe de operación. Si operas en gráficos de 1 hora, necesitas datos de al menos 5-15 minutos.
Bid/Ask y Spread: El Detalle que Mata Estrategias
La mayoría de datos históricos solo muestran un precio (last, mid, o close). Pero en la realidad, siempre hay dos precios: Bid (a cuánto puedes vender) y Ask (a cuánto puedes comprar). Las fórmulas clave para entender estos precios son:
Mid Price = (Bid + Ask) / 2
Spread Cost = Ask - Bid (coste implícito de cada operación por el diferencial)
El Spread Oculto
Si tu backtest asume que compras al precio "Close" y el spread real es de 2 pips, estás ignorando un coste que se come tu edge.
Ejemplo en EUR/USD
- Tu backtest usa precio mid: 1.0850
- Spread real: 1 pip
- Compras al Ask: 1.08505
- Vendes al Bid: 1.08495
En un trade de 50 pips de beneficio, el spread te cuesta 1 pip (2%). En un trade de 10 pips, te cuesta 1 pip (10%). El spread importa más cuanto más corto sea tu horizonte.
Tipos de Precios en Datos Históricos
| Tipo | Descripción | Uso común |
|---|---|---|
| Last | Último precio transaccionado | Acciones |
| Mid | (Bid + Ask) / 2 | Forex |
| Bid/Ask | Precios de compra/venta reales | Datos profesionales |
| Settlement | Precio oficial de cierre | Futuros |
Cómo Simular Spread en Backtest
Si solo tienes datos de un precio, añade spread sintético:
# Simular coste de spread
spread_cost = 0.0001 # 1 pip en forex
entry_price = close + (spread_cost / 2) if long else close - (spread_cost / 2)
exit_price = close - (spread_cost / 2) if long else close + (spread_cost / 2) ¿Tu backtest incluye costes realistas?
Algo Strategy Analyzer te permite configurar comisiones y slippage para ver el impacto real en tu estrategia.
Probar gratis →Datos Ajustados vs No Ajustados
Este es uno de los temas más confusos y más importantes. Usar el tipo equivocado puede generar señales completamente falsas.
¿Qué Son los Ajustes?
Cuando una empresa hace un split 2:1, el precio se divide por 2. Si ayer la acción valía $200 y hoy vale $100, no es porque cayó 50% — es porque ahora hay el doble de acciones.
Los datos ajustados modifican retroactivamente todos los precios históricos para reflejar estas acciones corporativas, manteniendo la continuidad de la serie. La fórmula básica de ajuste por split es:
Adjusted Price = Precio x (1 / Split Ratio) (ajuste retroactivo por split)
Por ejemplo, en un split 4:1, todos los precios anteriores al split se dividen por 4 para mantener la coherencia de la serie temporal.
Tipos de Acciones Corporativas
| Acción | Qué pasa | Ajuste necesario |
|---|---|---|
| Split (2:1) | Precio ÷2, acciones ×2 | Dividir históricos por 2 |
| Reverse split (1:10) | Precio ×10, acciones ÷10 | Multiplicar históricos por 10 |
| Dividendo | Precio cae por el monto | Restar dividendo de históricos |
| Spinoff | Se crea nueva empresa | Ajuste proporcional |
Cuándo Usar Cada Tipo
✅ Datos AJUSTADOS (95% de casos)
- Estrategias de momentum, trend following
- Indicadores técnicos (medias, RSI, etc.)
- Cualquier comparación de precios históricos
⚠️ Datos NO AJUSTADOS (casos específicos)
- Análisis de precios nominales ("¿cotiza sobre $50?")
- Estrategias de opciones (strikes nominales)
- Análisis de dividendos
El Error Clásico
AAPL con split 4:1 en 2020. Precio antes: $400. Precio después: $100.
Con datos no ajustados: Tu estrategia ve una caída del 75% y genera señal de compra masiva (crash). Error catastrófico.
Cuidado con los sesgos en tus datos
Los datos de mercado pueden contener trampas invisibles como el survivorship bias, el look-ahead bias o el data snooping. Estos sesgos convierten backtests ganadores en pérdidas reales. También existen errores técnicos como operar CFDs con datos de índice o problemas de timezone que invalidan resultados. Tenemos un artículo dedicado a los 7 problemas principales del backtest donde cubrimos cada uno en detalle.
Proveedores de Datos: Gratuitos vs Premium
Proveedores Gratuitos
| Proveedor | Mercados | Granularidad | Limitaciones |
|---|---|---|---|
| Yahoo Finance | Acciones, ETFs, índices | Diario | Errores, sin delisted |
| Alpha Vantage | Acciones, Forex, Crypto | Hasta 1 min | 25 llamadas/día gratis |
| FRED | Macro | Diario/mensual | Solo macro |
| Dukascopy | Forex, Índices CFD, Commodities | Tick (bid/ask) | ✓ Gratis (cuenta demo) |
Proveedores Premium
| Proveedor | Mercados | Granularidad | Precio/mes |
|---|---|---|---|
| Polygon.io | Acciones USA, Opciones, Forex | Tick | $29-199 |
| IQFeed | Acciones USA, Futuros | Tick | $80-150 |
| Norgate Data | Acciones USA/AU, Futuros | Diario (ajustado) | $35-50 |
| CSI Data | Futuros globales | Diario | $30-60 |
| Tiingo | Acciones USA, Crypto | Diario + IEX intraday | Gratis limitado / $100+ |
Recomendaciones por Perfil
🎓 Principiante
- Yahoo Finance para aprender
- Tiingo ($10/mes) para datos más limpios
📈 Trader Acciones USA
- Polygon.io ($29/mes) para intraday
- Norgate ($35/mes) para EOD survivorship-free
🔮 Trader Futuros
- IQFeed ($80-150/mes) — estándar industria
- CSI Data para histórico largo
💱 Trader Forex
- Dukascopy (gratis) — tick data excelente
- TrueFX para histórico largo
El Caso Especial: TradeStation como Ecosistema Completo
Merece mención especial el ecosistema de TradeStation, una de las soluciones más populares entre traders algorítmicos porque resuelve varios problemas a la vez: plataforma de desarrollo, datos históricos de calidad, y ejecución.
📊 Datos incluidos con cuenta TradeStation
Acciones USA:
- Tick-by-tick: 6 meses
- Datos 1-minuto: desde 1991
- Datos diarios: desde 1968
Futuros:
- Tick-by-tick: 6 meses
- Datos 1-minuto: desde 1982 (según mercado)
- Contratos individuales por vencimiento
✅ Ventajas
- Todo integrado: datos, plataforma, backtesting, ejecución
- Calidad alta: filtrado automático de errores en tiempo real
- Histórico profundo: décadas de datos intraday (minuto desde 1991)
- Coste efectivo: datos incluidos con cuenta de trading
- Exportable: puedes descargar datos a TXT/CSV
- EasyLanguage: lenguaje accesible para desarrollo
⚠️ Consideraciones
- Requiere cuenta: mínimo $5,000 para futuros
- API: acceso programático puede requerir capital adicional (verificar requisitos actuales)
- Volumen reportado bajo: ~28-30% menos volumen vs Polygon/Alpaca (según estudios comparativos)
- Tick data limitado: solo 6 meses de histórico tick-by-tick
¿Para quién es TradeStation?
Si vas a desarrollar estrategias Y ejecutarlas, TradeStation es una opción muy eficiente. Pagas por el broker y obtienes datos de calidad incluidos. Si solo necesitas datos para investigación (sin ejecutar), plataformas como Polygon.io o Norgate ofrecen más flexibilidad. El ecosistema TradeStation es especialmente popular para futuros USA donde la combinación plataforma + datos + ejecución es difícil de superar en coste.
Conclusión
Los datos de mercado son literalmente la materia prima de tu trading algorítmico. Sin datos de calidad, todo lo demás —tu estrategia, tu código, tu análisis— está construido sobre arena. Una vez tengas datos de calidad, el siguiente paso es medir correctamente el rendimiento con métricas avanzadas ajustadas al riesgo y entender el drawdown de tu estrategia.
Los 5 Puntos Clave
- Garbage In, Garbage Out: Un backtest es tan bueno como sus datos. Invertir en datos de calidad es la mejor inversión.
- Conoce tus sesgos: Survivorship bias, look-ahead bias, y selection bias invalidan más backtests que cualquier error de código.
- Ajustado vs no ajustado importa: Para estrategias técnicas, usa siempre datos ajustados.
- El spread mata estrategias cortoplacistas: Si operas frecuentemente, necesitas datos con bid/ask o simular spread.
- Escala tu inversión en datos: Empieza básico para aprender, pero invierte en profesionales cuando operes en real.
Siguientes pasos en tu aprendizaje
Preguntas Frecuentes
Para aprender y prototipar, sí. Para estrategias reales con dinero, no recomendado. Yahoo Finance tiene errores conocidos, no incluye delisted stocks (survivorship bias), y modifica datos retroactivamente. Para backtesting serio, invierte en Tiingo ($10/mes) o Norgate Data ($35/mes).
Tick data registra cada transacción individual con timestamp de milisegundos. OHLC agrupa las transacciones en barras mostrando solo apertura, máximo, mínimo y cierre. Tick es necesario para alta frecuencia y máxima precisión. OHLC es suficiente para swing y position trading.
Ajustados para el 95% de casos: cualquier estrategia con indicadores técnicos o que compare precios históricos. No ajustados solo si necesitas precios nominales específicos (opciones con strikes fijos, análisis de dividendos).
Depende del mercado y granularidad. EOD: $10-50/mes. Intraday: $30-100/mes. Tick data: $50-200/mes. Algunos proveedores como Dukascopy (forex) ofrecen tick data gratis si tienes cuenta.
Es el sesgo cuando tus datos solo incluyen activos que "sobrevivieron" hasta hoy. Las empresas que quebraron o fueron delisted no aparecen. Esto infla artificialmente los resultados en 50-200% porque ignoras los perdedores. Solución: usar proveedores con datos "survivorship-free" como Norgate Data.
IQFeed es el estándar de la industria para futuros USA en tiempo real ($80-150/mes). Para histórico largo y continuous contracts bien construidos, CSI Data ($30-60/mes).
Con precaución. Los datos de broker son útiles para ejecución, pero para backtesting tienen problemas: pueden tener huecos, el histórico es limitado, y los precios pueden ser específicos de ese broker (especialmente en forex). Usa datos de broker para confirmar, pero backtestea con proveedores independientes.
Depende de tu estrategia. Mínimo 3-5 años para intraday, 10-15 años para swing trading, 20+ años para estrategias con pocos trades. Necesitas suficientes datos para incluir diferentes regímenes de mercado (bull, bear, lateral, alta/baja volatilidad).
El look-ahead bias ocurre cuando usas en un backtest información que no habría estado disponible en el momento real de la decisión. Ejemplos: usar el precio de cierre para decisiones pre-cierre, usar datos fundamentales antes de su publicación, o aplicar ajustes retroactivos. Es uno de los sesgos más difíciles de detectar y puede invalidar completamente tus resultados.
El spread es un coste implícito en cada operación. En un trade de 50 pips de beneficio, un spread de 1 pip representa el 2% del beneficio. En un trade de 10 pips, el mismo spread representa el 10%. Cuanto más corto tu horizonte temporal, mayor es el impacto relativo del spread. Por eso las estrategias de alta frecuencia necesitan datos con bid/ask real.
¿Tienes buenos datos y una estrategia?
El siguiente paso es validarla con técnicas profesionales: Monte Carlo, Walk Forward, y más de 27 métricas avanzadas.
Validar mi estrategia gratis →