Continuamos nuestra crónica del de Big Data Spain 2015 con segundo día de la conferencia, en la que pudimos asistir a las ponencias de Facebook, Google, Neo4J o ToroDB entre las más destacadas. Además publicamos las conclusiones de nuestro paso por Big Data Spain 2015.
Los días 15 y 16 de octubre se celebró en Madrid la edición 2015 de la conferencia Big Data Spain, organizada por Paradigma Tecnológico, que congregó a lo mejor del panorama nacional e internacional sobre esta rama de la informática. Google, Facebook, ING, CERN o LinkedIn fueron algunos de los ponentes más destacados entre un alto nivel de participantes.
Este post es la continuación de lo que habíamos empezado con la primera parte de nuestro resumen del Big Data Spain 2015. En ella señalábamos que tanto las conferencias en vídeo como las presentaciones están disponibles en la web de Big Data Spain. A continuación os resumimos nuestras impresiones de las conferencias a las que acudimos el segundo día:
Viernes 09:00 – 09:45
DEVELOPING DATA PRODUCTS
Jason Sundram, Data Scientist Leader at Facebook
El segundo día comenzaba fuerte con la ponencia de Jason Sundram de Facebook. Nos enseñó algunos de los productos que Facebook tiene relacionados con Big Data. Comenzó presentando “Insight Wall”, que consta de 20 pantallas formando un gran panel en el hall de la sede de Facebook en San Francisco, completamente interactivo y capaz de mostrar y analizar los millones de eventos de la red social casi en tiempo real.
Después nos mostró la interesante evolución de Chorus, un sistema de procesamiento en tiempo real de la información que los usuarios proporcionan a esta conocida red social. En su primera versión utilizaron HIVE, un sistema Open Source de análisis de Big Data que da buenos resultados pero en un plazo elevado de tiempo. Con esta solución conseguían los resultados que esperaban pero 2-3 días más tarde de lo deseado. Un año después de esta primera solución y después de desechar varias ideas de arquitecturas estándar en el ecosistema Big Data, la conjunción del proyecto Open Source Scuba como base de datos en memoria, un stream joiner propio y Cubrick como herramienta MOLAP (que será liberada como proyecto Open Source en breve), consiguieron la calidad de resultados que pretendían, con un tiempo de respuesta del orden de los milisegundos.
Para demostrar su funcionamiento, Jason nos enseñó unos cuantos ejemplos reales en los que han utilizado el procesamiento de datos obtenidos de Facebook en tiempo real para realizar predicción sobre resultados electorales o estadísticas sobre el interés minuto a minuto en un evento deportivo como la SuperBowl.
Viernes 09:45 – 10:30
INSTANT INTELLIGENCE FOR THE IMPATIENCE ECONOMY
Óscar Méndez, CEO and Founding Partner at Stratio, Big Data Spain 2015 Organizer.
El CEO y fundador de Stratio hizo especial hincapié en los grandes cambios que está sufriendo el mundo Big Data: el streaming de datos en lugar de analíticas offline y el uso de técnicas de Machine Learning en combinación con bases de datos no relacionales. Así nace el proyecto Sparkta, que es capaz de realizar agregaciones de diferentes fuentes de datos sin importar su origen o tecnología utilizada. Utiliza Spark como base de la infraestructura distribuida y una combinación de Apache Cassandra y Apache Lucene para mantener el equilibrio entre los datos en tiempo real y las analíticas.
Viernes 10:30 – 11:15
INNOVATION IN BIG DATA AND CLOUD SERVICES
William Vambenepe, Lead PM for Big Data, Google Cloud Platform at Google
Google tiene mucho que decir en Big Data. Google File System (punto de partida de Apache HBase), MapReduce (base de Apache Hadoop) o el reciente MillWheel como framework de stream processing son todos productos desarrollados y liberados por el gigante de la información. Es en este último campo, el procesamiento en tiempo real de datos, en el que William presentó Dataflow como servicio y modelo de programación. Aseguró que en comparación con una arquitectura Lambda, Dataflow sobresale por la baja latencia, la completitud de los datos y la unificación de sistemas. Además destacó la integración existente con otros motores Open Source populares, como Apache Spark o Apache Flink. El propio Dataflow Model está a disposición de la comunidad Open Source y aseguran que no tiene más relación con Google que la de haberse inventado allí. El objetivo de este modelo es poder escribir la lógica de negocio una sola vez, sin necesidad de alterarla por motivos operacionales.
Viernes 11:45 – 12:30
GRAPHS IN FINANCE AND FRAUD DETECTION
Jim Webber, Chief Scientist at Neo Technology
Dentro del mundo de las bases de datos hay una con cierto exotismo, como es Neo4J. Está basada en organizar la información en base a grafos de relaciones. Esta naturaleza le permite procesar ciertas consultas sobre tamaños de datos que podemos considerar como Big Data en cuestión de milisegundos.
Jim Webber, científico de datos de Neo4J y gran conferenciante (a ratos parecía una función de comedia), nos enseñó algunas de las aplicaciones de esta base de datos que se prestaban a una resolución pasmosamente fácil con su tecnología de grafos. Por ejemplo pudimos ver cómo se puede evitar el fraude bancario en el que se emplea una red de personas para extender decenas de tarjetas de créditos y cuentas. En una representación de las relaciones en forma de grafo salta a la vista cómo unas pocas personas, combinando domicilios y teléfonos, muestran actividad sospechosa. Otro ejemplo fue el de los fraudes a las aseguradoras, en el que un cliente aparece como víctima de una red de siniestros que realmente no se ha producido, estafando a la compañía de seguros. Jim también nos mostró ciertas propiedades de los grafos que los hacen muy útiles para estos tiempos, como por ejemplo la relación de triadas.
Viernes 12:30 – 13:15
CRASH INTRODUCTION TO APACHE SPARK
Paco Nathan, Leader of the O’Reilly Learning Team at O’Reilly
Paco nos invitó a realizar un viaje a los inicios de Apache Spark, el framework de computación en clusters más popular de esta edición de Big Data Spain. Comenzó alabando la facilidad de uso que nos permite escribir nuestras aplicaciones en Java, Scala, Python o R. Siguió describiendo la arquitectura mediante drivers a modo de orquestadores de todos los nodos de la infraestructura y el concepto de RDDs (Resilient Distributed Datasets) como la abstracción principal de Spark y terminó con una pequeña introducción al resto de elementos que componen el SDK: SparkSQL para realizar consultas sobre RDDs como si fueran bases de datos columnares o MLlib como librería de machine learning.
Viernes 13:30 – 14:15
DERIVING REAL VALUE OUT OF BIG DATA ANALYTICS
Frank Ketelaars, Big Data Technical Leader at IBM
Es una realidad que empresas no tecnológicas se están interesando cada vez más por el mundo Big Data. Frank nos aconsejó que pensemos cómo nuestras analíticas sobre gran cantidad de datos pueden ser útiles para el consumidor, como poder extraer valor real de negocio de las analíticas. La construcción de una cultura de empresa en la que los datos y su estudio sean una herramienta más no solo en el departamento de IT, sino en todos los departamentos. Algunos ejemplos de éxito que presentó incluyen la descongestión del tráfico en Dublín mediante el análisis del transporte público, la detección y alarma en tiempo real de fraudes en la banca suiza o la maximización del tiempo operativo de una plataforma petrolera sin dejar de tener en cuenta las implicaciones medioambientales.
SQL IS BACK IN NOSQL
Matthew Revell, Lead Developer Advocate at Couchbase
Los comienzos de esta nueva era de Big Data han estado marcados por las bases de datos denominadas NoSQL como contraposición a las bases de datos estructuradas de tipo SQL. Con esto se ha logrado una corriente negativa sobre un excelente paradigma para el almacenamiento de datos, que en el mundo Big Data parece un poco denostado.
Pero SQL es un excelente lenguaje declarativo para datos estructurados que puede ser aplicado a la nueva generación NoSQL. Representantes de Couchbase nos enseñaron cómo es su nuevo lenguaje N1QL (nickel) basado en SQL para la consulta de bases de datos basadas en documentos semi-estructurados y no estructurados en formato JSON.
Viernes 15:30 – 16:15
APACHE FLINK: DATA STREAMING AS A BASIS FOR ALL ANALYTICS
Kostas Tzoumas, Co-founder at Data Artisans
El apunte más repetido durante el evento fue que el stream processing está dejando en segundo plano a las analíticas batch. Kostas nos presentó lo que ya es la joya de la corona en este nuevo paradigma, Apache Flink, uno de los proyectos de Big Data de la fundación Apache más populares del momento (y Open Source). El ponente asegura que el stream processing está resultando en el mayor cambio de infraestructura desde Hadoop, dejando desfasadas las arquitecturas lambda y la delegación de las operaciones costosas a batch. Con la inminente liberación de la versión 1.0, el aumento de las APIs de DataStream y la integración con cada vez más subsistemas (Google Dataflow, SQL, Machine Learning, etc…) son las funcionalidades más interesantes y esperadas.
Viernes 16:15 – 17:00
PROTEUS: SCALABLE ONLINE MACHINE LEARNING FOR PREDICTIVE ANALYTICS
Rubén Casado, PhD. Senior Researcher at Treelogic
En esta conferencia se expuso una mirada al futuro del Big Data desde el punto de vista de proyectos de investigación financiados con fondos europeos (H2020). El ponente presentó una enumeración de objetivos que pretenden cumplir con el proyecto Proteus y dio un esbozo de la arquitectura. Aunque todavía no ha dado comienzo el desarrollo, siempre es interesante conocer qué se mueve más allá del mundo empresarial.
Viernes 17:15 – 18:00
REAL-TIME ANOMALY DETECTION WITH CASSANDRA, SPARK ML AND AKKA
Natalino Busa, Data Architect at ING
Siendo ING una entidad financiera mayormente virtual, las necesidades de procesamiento de gran cantidad de información de todos sus clientes es una preocupación real. Es por ello que ponen el foco en la combinación de Big Data con Fast Data, grandes volúmenes de información actualizada con capacidad de tomar acciones en el momento oportuno. La detección de anomalías mediante la aplicación de Machine Learning repite la arquitectura (ya bastante popular) de Cassandra junto con Akka y Spark, centrada en la clusterización tanto de forma distribuida como local. Lo que comenzó siendo un proyecto interno ha mutado en Coral, una API Web de gestión y procesado de eventos, con conexión a Cassandra para el uso de modelos propios del mundo del ML y a Apache Kafka para consumir y producir estos eventos. Coral es una API Open Source publicada a través de GitHub (https://github.com/coral-streaming/coral).
Viernes 18:00 – 18.45
TORODB: SCALING POSTGRESQL LIKE MONGODB
Álvaro Hernández, CEO at 8Kdata
Era de uno de los puntos fuertes, al menos para nosotros, del programa. Se trata de ToroDB, la base de datos de desarrollo español que pretende plantar cara a bases de datos NoSQL a partir de un desarrollo sobre una base de datos relacional como es PostgreSQL. De este modo aprovecha las ventajas de este veterano producto para aplicarlo al mundo de los datos orientados a documentos en formato JSON.
Álvaro Hernández, CEO de 8Kdata, expuso las razones por las que las bases de datos NoSQL no son tan óptimas como nos las pintan: aunque se suponen que no tienen esquema, los metadatos conforman uno; también el tamaño de almacenamiento, que no está tan optimizado como en PostgreSQL o el rendimiento frente a su propuesta ToroDB.
Además aprovecharon para comunicarnos el lanzamiento de la versión ToroDB 0.4, que soporta la replicación utilizando el protocolo de MongoDB, adoptando así otra de las grandes ventajas de esta base de datos NoSQL y combinándola con la potencia de su desarrollo sobre PostgreSQL.
Viernes 18:45 – 19:30
UNDERSTANDING THE PHYSICAL WORLD: STREAMING IoT ANALYTICS FOR THE INTERNET OF THINGS
Marco Laucelli, CEO at Novelti
Otra de las corrientes que están comenzando a sonar fuerte es la de Internet de las cosas o IoT. Básicamente consiste en dotar de conectividad a aparatos y artilugios del día a día con el fin de, entre otras cosas, recoger información que pueda ser analizada empleando técnicas de Big Data.
Es lo que propusieron la gente de Novelti.io: una plataforma que se encarga de la recolección de datos desde dispositivos IoT, de su procesamiento y de la analítica. El potencial uso de Big Data e IoT es muy esperanzador, y se puede aplicar a multitud de campos como procesos industriales, agricultura, dispositivos para el hogar o para la salud y los wearables.
Conclusiones
La evolución de Big Data ha sufrido en los últimos años un cambio en la tecnología y, probablemente de su mano, en los objetivos. Si hace unos años trabajar con Big Data solía decirse que era la habilidad de trabajar con grandes cantidades de datos para extraer información y otras conclusiones, hoy Big Data ha añadido a sus objetivos el hecho de hacerlo en tiempo real.
Parecen quedar atrás frameworks de MapReduce como Apache Hadoop y todas las herramientas de DataMining (adaptadas a BigData) para pasar a herramientas como Spark, Flink o DataFlow. ¿El objetivo? La detección de anomalías, patrones, o fraudes pero en tiempo real y sobre volúmenes de datos muy altos…. ¿os hemos mencionado ya que en el CERN obtienen 1 petabyte de datos por segundo en cada colisión? (¡¡¡UN PETABYTE!!!).
Aún así, sigue teniendo hueco ese análisis más sosegado de datos, para detectar también fraudes o hacer perfilado de usuarios o patrones.
Otro detalle a tener en cuenta, sobre todo para los que somos más técnicos, es el poso dejado por esa otra serie de charlas que, dejando de lado las herramientas y la tecnología, se centran en la utilidad y el negocio que puede existir alrededor de toda la información que se puede extraer de esta cantidad de datos.
Parece que, como técnicos, deberemos acostumbrarnos a trabajar con un nuevo rol que va tomando cada vez más fuerza en BigData para guiar los objetivos de la tecnología y el porqué de utilizar estos datos: el científico de datos.