Del mismo modo que los todoterrenos suv de color blanco están inundando nuestras calles, “Big Data” parece ser el tema de moda. Si bien, al principio, no parece algo difícil de entender, en este artículo intentaré analizar el significado del Big Data para un Trader.
De manera general, se define “Big Data” como el proceso de captura, almacenamiento, tratamiento y transformación de datos en información o decisiones, cuando cumplen una de las tres “V”; abarcan grandes Volúmenes, exigen Velocidad e implican Variedad de tipos y/o fuentes.
Yo prefiero definir el Big Data como la generalización del uso de un conjunto muy potente de herramientas estadísticas e informáticas que nos dota de independencia en el análisis. Además de los conocimientos en mi área de actuación, que me permiten construir hipótesis las que deseo probar, con Big Data también tengo las herramientas para no quedarme atascado con las ideas en la cabeza.
Según el Deutsche Börse Group, “Las innovaciones tecnológicas han contribuido significativamente a una mayor eficiencia en el mercado de derivados. A través de innovaciones en la tecnología de comercio, las negociaciones en el Eurex alemán se ejecutan hoy mucho más rápido que hace diez años, a pesar del fuerte incremento en el volumen de operaciones y el número de cotizaciones. Estas importantes mejoras sólo han sido posibles debido a las constantes inversiones en TI por los mercados de derivados y las cámaras de compensación”.
La aceleración del proceso de negociación también ha llegado al lado de los Traders. Michael Lewis, autor del libro “Moneyball” (que se ha hecho conocido por la película de mismo nombre protagonizada por Brad Pitt) ha escrito un libro de no ficción, “Flash Boys”, donde describe la historia de cómo unos “chavales” empiezan a ser capaces de hacer trading a la velocidad más rápida posible, por no decir cercana a la velocidad de la luz. Estos chicos, invirtiendo poco dinero, y utilizando tecnología y conceptos de Big Data, entran en guerra con las empresas de High Frequency Trading (HFT) y los grandes bancos americanos. ¡Estoy esperando ansioso la película!
Un evento muy importante vinculado al HFT ocurrió el 6 de mayo de 2010 en la bolsa de Nasdaq de Nueva York, en lo que se terminaría conociendo como el Flash Crash del 2010. A las 14:32, hora de Nueva York, se vio una extraordinaria caída y rebote del índice S&P 500. Los programas de trading algorítmico se encadenaron, primero en órdenes de venta por sus criterios de stop losses y a continuación se volvieron a encadenar en órdenes de compra – algo nunca visto en la historia – se estima que la variación de precios entre mínimo y máximo durante tan sólo 36 minutos fue un record histórico de trillones de dólares americanos.
Durante mis giras he escuchado de todo sobre Big Data, algunas afirmaciones acertadas y otras equivocadas. Pero muchas han dejado de ser verdad con la evolución de las tecnologías y del propio concepto de Big Data. Las principales barreras conocidas para la aplicación de Big Data siempre han sido las infraestructuras existentes en la empresa, los costes, el tiempo de implementación y la necesidad de conocimiento. Con excepción de la primera, el resto de barreras se están cayendo con las nuevas tecnologías de Big Data.
¡Big Data es muy caro! – falso – generado por la gran oferta de herramientas y por la adopción de tecnologías free open source, los precios, antes en el cielo, han bajado a niveles muy accesibles a todos los tamaños de empresas.
¡Es cosa para informáticos! – falso – ha habido una gran transformación en los entornos de programación y en las herramientas de Big Data y de Analítica, haciéndolas más accesibles a personas no técnicas interesadas en utilizarlas en su área de expertise.
¡Tarda mucho en implementarse! – falso – nuevas técnicas de gestión de proyectos ágiles y de reutilización del trabajo llevan a tiempos de implementación tentadores.
La pieza que realmente faltaba en este puzzle era la formación, pero desde ya hace un par de años, hay una oferta relevante de cursos online de Big Data en inglés y masters en el tema aquí, en España.
*** Siempre me piden ejemplos de empresas utilizando Big Data. Crear una lista de empresas siempre me da miedo, porque el mundo del Big Data gana adeptos diariamente – si escribiera una lista, es muy probable que estuviese obsoleta ahora en el momento que la estás leyendo. En el mundo del Trading, hay muchos bancos como Bank of America y JP Morgan involucrados en HFT. En cuanto a los bancos españoles, hay muy poca información pública sobre el uso de HFT, no obstante, con toda la tecnología disponible actualmente, uno sería ingenuo si pensara que estos no se han planteado el uso de HFT en el mercado de arbitraje de moneda y de futuros para algunas commodities, donde tienen posiciones de hedging. Además de HFT, algunos fondos afirman que utilizan información alternativa para sus decisiones de compra y venta. Está información puede variar pero muchos dicen que utilizan comentarios y análisis de sentimientos en periódicos online, en CSS y RSS públicos, en blogs, y en Twitter y otras redes sociales. No está claro qué hacen exactamente, pero AQR Capital Management y Two Sigma Investments afirman utilizar Big Data en sus decisiones de inversión.
Lo que uno tiene que tener claro es que sea cual sea tu estrategia, estamos compitiendo hoy por hoy con estos algoritmos especializados EN TODO MOMENTO.
En la práctica, en el mundo del trading, Big Data está proporcionando:
Volumen: El Big Data nos enseña el camino claramente para expandir nuestra estrategia. Ya sea por incluir más empresas o portafolios a la estrategia existente o por permitir crear muchas estrategias competiendo en paralelo.
Variedad: El Big Data está permitiendo mediante algoritmos mezclar histórico de precios proveniente de API Privada (bloomberg o tu broker) y API Pública (yahoo finance, google finance) con información alternativa como lectores de CSS y RSS, Web scrapers, Twitter y otras redes sociales.
Velocidad: La utilización combinada de varios paradigmas de computación está haciendo posible a traders independientes o pequeñas empresas de inversión competir por primera vez en la guerra de los HFT con los grandes bancos, como el descrito en el libro Flash Boys. A ejemplo de la utilización de bancos de datos en memoria, en formato vectorizado, y con cálculos paralelos o distribuidos en varios ordenadores.
Y eso se traslada en:
Dentro de un gran banco, cuando se sigue el flujo completo de desarrollo de una estrategia hasta su implementación, muchas son las tareas hechas antes y después de la intervención del Trader. El Área de Tecnología necesita capturar, recolectar y almacenar los datos, el departamento de metodología suele hacer análisis fundamentales o simulaciones con estos datos y finalmente los datos llegan al Trader para la creación de sus estrategias. Cuando ya tiene diseñada la estrategia, le toca a la Tecnología preparar un prototipo para que se haga el backtesting de la estrategia y finalmente, se implementa la estrategia como un algoritmo automático en producción.
Utilizando un lenguaje de programación multiuso (multi purpose programming language), por ejemplo Python, actualmente un trader puede de manera paulatina ir adquiriendo conocimientos y hacer el trabajo de los demás.
Por dar un ejemplo de lo que estamos hablando desde un punto de vista práctico, dentro de Python el problema de recolectar datos históricos de precios se transforma en una simple llamada a la API de yahoo o google u otro proveedor utilizando un comando de lectura de datos como DataReader.
La oferta de formación en Big Data está en alza. La guerra entre herramientas pagadas y gratuitas ha forzado empresas tradicionales como SAS y SPSS a que liberalizaren versiones gratis de su software o cursos gratis de su herramienta de analítica.
• SPSS:
o Beginner’s Training – http://www-01.ibm.com/software/analytics/spss/downloads/demos.html
o 14 days trial – http://www14.software.ibm.com/download/data/web/en_US/trialprograms/W110742E06714B29.html
• SAS:
– – Beginner’s Training – http://support.sas.com/training/us/sp1.html
– – SAS University – http://www.sas.com/en_us/learn/analytics-u.html
– – SAS Software student version – http://www.sas.com/en_us/software/university-edition.html
• PYTHON:
– – Anaconda Python Software – http://continuum.io/downloads
– – Beginner’s Training – https://www.datacamp.com/
• R:
– – R Software – http://cran.r-project.org/bin/windows/base/SPSS
• Más ofertas de tutoriales: https://www.kaggle.com/wiki/Start/history/13331
La oferta de educación oficial en el formato de másteres en España también está en alza, podemos resaltar:
• Máster en Big Data y Business Analytics de CIFF Business School
• Master in Business Analitcs & Big Data del Instituto de Empresa
• Máster en Ingeniería de Datos y Big Data de la UOC
Concluyendo, por un lado, las herramientas de Big Data son cada vez más accesibles e integradas, en un futuro se podrá hacer uso de la base de datos más apropiada al problema, sea ella estructurada, no estructurada, en disco, en memoria o distribuida, casi sin darse cuenta. Python es un nuevo player donde esta homogeneización está ocurriendo de forma muy rápida siendo posible acceder, dentro del mismo lenguaje, a varias herramientas de Big Data. Mi predicción es que los lenguajes que no se homogeneicen corren el riesgo de extinción. Por otro lado, todos están mirando al mundo de Analytics. Gigantes de la industria del software están comprando empresas de Analytics como “churros”. Eso es una clara evidencia de que el conocimiento estadístico ganará más y más relevancia y en combinación con las herramientas de datos será un arma imprescindible en el futuro, también confirma esta predicción todos los másteres en Big Data y Analytics ya establecidos y que surgen nuevos todos los años en España.
Pero el gran cambio, es que todo lo anterior solo puede significar una cosa. Big data, en la actualidad, está hecho para el experto de negocio y en nuestro caso, para el Trader! Big Data nació con los informáticos y ha atraído a muchos estadísticos. Pero, lo claro para mí, es que se obtienen mucho mejores resultados si el experto de negocio sabe conducir y arreglar el coche, que al revés. ¡No more intermediates!