Los días 15 y 16 de octubre se celebró en Madrid la edición 2015 de la conferencia Big Data Spain, organizada por Paradigma Tecnológico, que congregó lo mejor del panorama nacional e internacional sobre esta rama de la informática. Google, Facebook, ING, CERN o LinkedIn fueron algunos de los ponentes más destacados entre un alto nivel de participantes.
En Autentia estamos convencidos de que estos eventos son importantes, porque dan una visión general del estado del arte en muchas nuevas tecnologías y, sobre todo, dan la oportunidad de compartir espacio y discutir con la gente que tiene los mismos intereses que nosotros. Como nos gusta decir: lo mejor de estos eventos, además de las charlas, está en compartir tiempo con la gente.
Así pues no podíamos faltar a esta cita y allí estuvimos cuatro de nosotros para aprender y empaparnos de Big Data. Y como en Autentia nos encanta compartir (¡compartir es vivir!), aquí te dejamos un resumen de lo que pudimos ver en las conferencias a las que asistimos.
Aparte de este post, nuestro compañero Alberto Moratilla realizó una cobertura espectacular del evento en tiempo real vía Twitter. Podéis echarle un ojo en este Storify.
Señalar que tanto las conferencias en vídeo como las presentaciones están disponibles en la web de Big Data Spain. A continuación os resumimos nuestras impresiones de las conferencias a las que acudimos el primer día:
Jueves 09:00 – 9:30
WELCOME NOTE
Óscar Méndez, CEO Stratio
La apertura corrió a cargo del CEO de Stratio, Óscar Méndez. En su intervención realizó un repaso sobre el estado del arte de Big Data, su evolución desde sus inicios y lo que se vislumbra que sucederá en los próximos años.
La evolución desde los mainframes gestionados desde un terminal, hasta los sistemas en la nube actuales, pasando por sistemas cliente servidor hasta hace no tanto, marcan el ritmo de avances tecnológicos para tratar con una cantidad cada vez más creciente y útil de información. Según Óscar, Big Data está para quedarse y formar parte de la estrategia de las organizaciones.
Jueves 09:30 – 10:15
DATA SCIENCE IN 2016: MOVING UP
Paco Nathan, Leader of the O’Reilly Learning Team
El ponente centró la atención en el hecho de que el desarrollo actual en Big Data está centrado principalmente en adaptaciones de su infraestructura, en lugar de en el dominio de esos datos y sus posibles aplicaciones prácticas. Sin embargo este hecho empieza a cambiar y están surgiendo nuevas tendencias como la aplicación de soluciones probabilísticas (p.e. la factorización por tensores) o de deep learning a los diagnósticos médicos, neurociencia, predicciones demográficas, análisis de necesidades de la población, etc.
Jueves 10:15 – 11:00
ESSENTIAL INGREDIENTS FOR REAL TIME STREAM PROCESSING @ SCALE
Kartik Paramasivan, Senior Engineering Manager at LinkedIn
Los chicos de IT de LinkedIn tienen que manejar un volumen de eventos por día altísimo (como ilustración mencionaron los 1,3 trillones de mensajes enviados a Apache Kafka, siendo cada mensaje consumido 4 ó 5 veces), por lo que la arquitectura que permite el correcto funcionamiento de su plataforma resulta un problema nada trivial. La conjunción de Apache Samza y RocksDB les permite lidiar con tres aspectos clave en el procesamiento de streams distribuidos: 1) el escalado, mediante partición de streams, aunque el mayor cuello de botella se encuentra en el acceso a datos; 2) el reprocesamiento de datos para adaptarse a los cambios en la lógica de negocio y 3) la exactitud, afrontando problemas de llegada tardía de eventos o llegada fuera de orden.
Jueves 11:30 – 12:15
SAP HANA Vora – COMBINING ENTERPRISE AND HADOOP FOR IN-MEMORY PROCESSING
Stephan Kessler, Software Developer at SAP
Óscar Puertas, Software Engineer at Stratio
Stephan comenzó la ponencia con la motivación de la compañía en la que trabaja (SAP) para el desarrollo del proyecto SAP HANA Vora: utilizar datos recogidos de clientes para tomar decisiones de negocio, aunando tecnológicamente a analistas, desarrolladores, DBAs y data scientists. Óscar ahondó en la parte más técnica de un caso de uso real, la emisión continua de eventos tipo IoT de una turbina de avión. SAP HANA Vora se presenta como un proyecto de computación en tiempo real para casos de uso OLTP. Se ejecuta sobre Hadoop para el procesamiento de streams, ayudándose de las capacidades in-memory de su motor SQL (que utiliza representación columnar) y su integración con Apache Spark. Y es precisamente esta integración de Vora con Spark lo que constituye su contribución Open Source en forma de paquete de software autocontenido.
Jueves 11:30 – 12:15
LARGE SCALE BAYESIAN INFERENCE OF RETAIL ARTICLE WEIGHTS
Roland Vollgraf, Data Science Expert at Zalando
Zalando es una tienda online de artículos de moda que intenta atraer clientes con su campaña de envíos y devoluciones gratuitos. Cuenta con extenso catálogo de más de un millón de referencias y realizan unos 10.000 envíos al día. Como puede suponerse tienen un gasto enorme en el proceso de empaquetado, por lo que elegir el tipo de embalaje adecuado es una situación vital. En la charla Rolland Vollgraf nos explicó cómo tuvieron que recurrir a procesos matemáticos para modelar un sistema con autoaprendizaje para optimizar el tipo de paquete elegido. Gracias al tratamiento de millones de datos de los cientos de millones de envíos fueron capaces de ir ajustando con el tiempo el empaquetado óptimo para el envío.
Jueves 12:15 – 13:00
LARGE INFRASTRUCTURE MONITORING AT CERN
Matthias Braeger, Monitoring Platform Chief at CERN.
Matthias nos habló de la máquina más impresionante que ha creado el ser humano hasta la fecha: el LHC. ¿Y qué tiene que ver el Big Data con este artilugio? Pues juega un papel fundamental para tratar las cantidades ingentes de información que se generan en cada uno de los experimentos: en cada colisión se generan 1PB/sec de datos brutos que pasan por una serie de filtros para intentar eliminar el máximo ruido posible. Como se puede imaginar las colisiones duran poco tiempo, mucho menos de un segundo, pero aún así el CERN almacena en la actualidad 100 PB de datos limpios, unos 30PB al año que exigen el uso de 100.000 procesadores con picos de 20GB/s de escritura. Y eso sólo en la primera ronda, antes del parón que hicieron durante un par de años para añadir mejoras; en esta segunda ronda esperan superar los 50PB de datos almacenados al año. Un dato curioso fue comprobar que para almacenar tal cantidad de información emplean cintas (sí, cintas, esos valores son demasiado big hasta en Big Data). Sin embargo para el análisis y procesamientos de datos concretos utilizan in-memory data-grids. En tecnología: cuentan con 3 clusters de Apache HBase, de entre 10 y 20 servidores cada uno, para almacenar los logs y metadatos de experimentos concretos como CASTOR y ATLAS y para la monitorización del CERN Computer Center. Un ejemplo de los metadatos que almacenan es en qué cinta se está almacenando la información de un evento en particular. Para el análisis de streams se apoyan en soluciones como EsperTech (proyecto Open Source que utiliza un lenguaje SQL-like) y JEPC. Esta última corresponde a un intento de la Universidad de Marburg estandarizar el procesamiento de eventos, ya que aunque en la actualidad existen múltiples productos para el análisis de streams sigue sin existir un estándar para ello.
Pero esto no fue todo. También nos habló de un sistema de monitorización en tiempo real que están desarrollando internamente en el CERN, que se emplea tanto para equipos informáticos como para infraestructura. Se llama C2MON (CERN Control and Monitoring Platform) y busca resolver el problema de tener que lidiar con múltiples sistemas con entradas y salidas heterogéneas de datos y protocolos. C2MON es modulable y escalable en todas sus capas, está optimizado para alta disponibilidad y volúmenes Big Data y está escrito enteramente en Java. Utiliza una solución in-memory (JCache-JSR-107) para almacenar los datos de configuración, reglas lógicas y los últimos valores de sensores. También usan Kibana para consultas visuales sobre los datos de log, por medio de Elasticsearch; o Grafana (construido sobre Kibana) que soporta otras soluciones además de Elasticsearch. C2MON ya se está usando en dos grandes sistemas de monitorización en el CERN, TIM y DIAMON, y actualmente están realizando la migración de su sistema central de alarmas del LHC (LASER). Pero este sistema no sólo puede ser útil para sistemas de monitorización, también podría aplicarse a otros ámbitos como el Internet de las cosas (IoT) donde existen múltiples soluciones pero que a menudo resultan ser productos cerrados y no compatibles entre ellos. En este escenario C2MON podría servir para comunicar los diferentes componentes. Y cerraron con una buenísima noticia: en su hoja de ruta llevan el liberar C2MON como Open Source.
Jueves 13:15 – 14:00
GEOSPATIAL AND BITEMPORAL SEARCH IN C* WITH PLUGGABLE LUCENE INDEX
Andrés de la Peña, Big Data Architect at Stratio
Los arquitectos especializados en Big Data de Stratio se han dado cuenta de la potencia y el compromiso entre expresividad y latencia del uso de índices secundarios a la hora de utilizar Apache Lucene. Gracias a la distribución y replicación de datos entre los distintos nodos que proporciona C*, han desarrollado el proyecto opensource Cassandra Lucene Index para, haciendo uso de estos índices secundarios, implementar la capacidad de realizar indexación y consultas de datos geoespaciales y bitemporales en conjunción con el resto de operaciones habituales.
Jueves 13:15 – 14:00 – TALKREDUCE()
ANALYZING ORGANIZATION E-MAILS IN NEAR REAL TIME USING HADOOP ECOSYSTEM TOOLS
Miguel Romero, Hadoop Architect at HP
Alberto de Santos, Data Scientist Lead and Thinker at HP
Un tema muy polémico sin duda. Estos dos técnicos de HP, un matemático especialista en optimización y un arquitecto tecnológico, nos enseñaron cómo usar técnicas de Big Data para poder entender las relaciones internas que se daban en una gran organización, para lo cual se basaron en el caso real de un banco.
Básicamente, eran capaces de recopilar todos los correos que se iban enviando en la organización, ir clusterizando su contenido y analizando los remitentes y receptores. De estar forma podían detectar, mediante análisis de sentimientos, lo que transmitía cada comunicación, creando mapas con información para los gerentes sobre los temas de los que hablaban los diferentes grupos de usuarios. Un tema polémico que no dejó a nadie indiferente.
A nivel de arquitectura, utilizan Apache Kafka como sistema distribuido de mensajería, del cual destacaron que complementa muy bien con FLUME, y por último Spark streaming para el análisis de datos.
LO QUE TWITTER REVELA DEL PARO EN ESPAÑA
Alejandro Llorente, CO-Founder at Piperlab
Fue una de las charlas más entretenidas y que con más ganas de una ampliación nos dejó, ya que se enmarcó dentro de los “talk reduce” de solamente 15 minutos (e incluso menos porque el ponente anterior sobrepasó su límite para enfado del público).
Piperlab es una spin-off nacida de la Universidad Carlos III que se dedica al análisis de datos. Como muestra de sus capacidades nos contaron cómo, analizando los tweets, eran capaces de hacer una correlación entre los datos del paro en España por provincias y los tweets que escribían los habitantes de esas provincias. Tomando una serie de parámetros como la movilidad diaria de los autores (gracias a la geolocalización), las faltas de ortografía graves que cometían o las horas a las que más se publicaba, encontraron una correlación clara con las estadísticas del paro. Eso sí, haciendo hincapié en que correlación no es casualidad ni pretende serlo ;).
Jueves 15:15 – 16:00
GETTING THE BEST INSIGHTS FROM YOUR DATA USING APACHE METAMODEL
Alberto Rodríguez, Software Architect at Stratio
Fue una de las charlas del partner principal del evento, Stratio, pero afortunadamente no se trató de una charla comercial como pasó con alguna otra empresa. En este caso nos mostraron sus productos desde un punto de vista técnico centrándose en el uso de Apache Metamodel.
Jueves 16:00 – 16:45
SECURITING BIG DATA AT REST WITH ENCRIPTION FOR HADOOP, CASSANDRA AND MONGODB ON RED HAT
Alejandro González, Security Expert at Cloudera
Aunque existen varias alternativas Open Source para el cifrado de sistemas de archivos, el hecho de que cualquier proceso pueda seguir accediendo a los puntos de montaje, así como la inexistencia de gestión de claves para el control de acceso, es algo que preocupaba en Cloudera. Alejandro nos presentó “Cloudera Navigator Encrypt” que, además de encargarse de estos problemas, permite el cifrado de cualquier aplicación Linux, así como de información no estructurada.
Jueves 16:00 – 16:45
A NEW STREAMING COMPUTATION ENGINE FOR REAL-TIME ANALYTICS
Michael Barton, Software Developer at ITRS Group
Otra de las charlas a destacar del evento fue la de VALO, un clúster de nodos con arquitectura uniforme y streams de datos. Su objetivo es facilitar la reutilización de arquitecturas complejas a las que se suele llegar al trabajar con Big Data. Cuentan con un repositorio semi estructurado construido sobre índices de Lucene, taxonomías y facets, y un repositorio Time Series con esquema bien definido. El objetivo es poder reutilizar tanto la arquitectura como los algoritmos para resolver diferentes problemas. En su búsqueda de cómo ejecutar directamente las consultas contra datos e índices que se encuentran en su propio almacenamiento (cuánto puedes hacer sin llegar a extraer los datos) nos mostraron el ejemplo de la detección de anomalías en las señales de ritmo cardíaco (HR) de un hospital. El mismo algoritmo les permite detectar anomalías en diferentes sistemas, y para muestra un botón: el ponente utilizó el algoritmo de detección de anomalías en señales HR para detectar anomalías del audio de la sala capturado por su micro y haciendo que el público aplaudiera para generar la anomalía.
Otro de los puntos a destacar de su sistema es que la única diferencia entre realizar consultas a los valores en tiempo real (live values) o los históricos se encuentra en el valor del from. Y nos avanzaron que en el futuro eliminarán el concepto de histórico del from y permitirán indicar simplemente el marco temporal sobre el que quieres realizar la consulta (por ejemplo: dame los valores desde la última semana hasta hoy).
Jueves 17:00 – 17:45
REAL-TIME USER PROFILING BASED ON SPARK STREAMING AND HBASE
Arkadiusz Jachnik, Data Scientist at Agora
Siendo Agora una de las compañías de comunicación más importantes de Polonia y propietaria de decenas de servicios de toda índole, los sistemas de recomendación y publicidad personalizados son un activo esencial. Su principal handicap reside en usuarios no logados y en que únicamente almacenan información no identificable de la persona (not Personal Identificable Information, PII), por lo que dependen enteramente de las cookies.
La aplicación de algoritmos clásicos de machine learning a los datos de uso básicos almacenados en las cookies de una SPV — Single Page View — junto a herramientas ya clásicas de Big Data (Apache Kafka, Spark, HBase) les ha permitido construir un sistema eficiente y fiable de perfilado de usuarios.
Jueves 17:00 – 17:45
FRONTERA: OPEN SOURCE LARGE-SCALE WEB CRAWLING FRAMEWORK
Alexander Sibiryakov, Search Engineer and Data Scientist at Scrapinghub
Alexander Sibiryakov tiene una amplia experiencia en el campo de Big Data ya que trabajó en Yandex (el Google ruso). En esta conferencia nos presentó “Frontera”, un framework Open Source para hacer crawling de sitios Web y que está basado en tecnología de Big Data como HBase, Kafka y Scrapy. Hizo un ejemplo con los sitios Web españoles (.es) más populares para ilustrar su funcionamiento, ejecutando el framework en instancias de AWS. Una parte muy interesante de la presentación fue la exposición de los problemas a los que se enfrentó al llevar a la práctica este proyecto y cómo los fue solucionando.
Jueves 17:45 – 18:30
BUILDING A REAL-TIME STOCK PREDICTION ENGINE POWERED BY SPRING XD, APACHE GEODE AND SPARK ML
Antonio Gallego, Senior Field Engineer at Pivotal
Una de las predicciones más ansiadas hoy en día es sin duda la predicción de los mercados bursátiles. Y fue este el ejemplo que se les ocurrió a la gente de Pivotal para ilustrar una charla práctica que combinaba diferentes tecnologías para, de una forma sencilla, intentar simular un modelo que predijese el precio futuro de las acciones. Fue realmente interesante ver en acción tecnologías como Spring XD, para el control y distribución de los streams de datos que se sacaban de los servicios web de Yahoo Finance; Apache Spark como motor de procesado distribuido y aplicación de ML gracias a R; o Apache Geode como contenedor de datos distribuidos para el procesado in-memory de los históricos. La solución presentada es extensible, Open Source, tolerante a fallos, horizontalmente escalable y Cloud nativa. Aunque la charla quedó un poco descafeinada por el “efecto demo” (le puede pasar a cualquiera), fue útil, y siempre podemos realizarla por nuestra cuenta ya que los fuentes están publicados en el GitHub de Pivotal.
Jueves 18:30 – 19:15
AUTOMATING BIG DATA BENCHMARKING AND PERFORMANCE ANALYSIS WITH ALOJA’S OPEN SOURCE TOOLS
Nicolas Poggi, R&D in Data Performance and Scalability at Barcelona Supercomputing Center
En el Centro de Supercomputación de Barcelona son muy conscientes de lo costoso tanto en tiempo como en recursos que resulta el benchmarking de infraestructuras preparadas para Big Data. Así surge el proyecto completamente Open Source ALOJA que, con más de 42.000 resultados publicados independientes del proveedor, se ha convertido en el repositorio de benchmarks de Hadoop más grande del mundo. ALOJA se centra en la producción de estudios de posibles configuraciones de hardware y software junto con diferentes opciones de despliegue, cademás del análisis de la relación coste-efectividad de los IaaS y PasS.
Conclusiones
Continuaremos relatando nuestras andaduras del viernes 16 en la siguiente parte del resumen, así como unas conclusiones finales de nuestra asistencia a la conferencia.