Big Data: una pequeña introducción

Encontramos estas opiniones acerca de ¿Qué es Big Data?. Interesante es el discutir como varía esta definición según el uso que se le da.

Llevo ya un cierto tiempo recopilando información sobre Big data e introduciendo nociones sobre el tema en algunos de mis cursos, pero hoy mientras preparaba una conferencia me he dado cuenta de que era un tema que aún no habíamos mencionado en la página, a pesar de ser una de las tendencias más señaladas actualmente en la industria.

Por Big data nos referimos exactamente a lo que su propio nombre indica: al tratamiento y análisis de enormes repositorios de datos, tan desproporcionadamente grandes que resulta imposible tratarlos con las herramientas de bases de datos y analíticas convencionales. La tendencia se encuadra en un entorno que no nos suena para nada extraño: la proliferación de páginas web, aplicaciones de imagen y vídeo, redes sociales, dispositivos móviles, apps, sensores, internet de las cosas, etc. capaces de generar, según IBM, más de 2.5 quintillones de bytes al día, hasta el punto de que el 90% de los datos del mundo han sido creados durante los últimos dos años. Hablamos de un entorno absolutamente relevante para muchos aspectos, desde el análisis de fenómenos naturales como el clima o de datos sismográficos, hasta entornos como salud, seguridad o, por supuesto, el ámbito empresarial. Y es precisamente en ese ámbito donde las empresas desarrollan su actividad donde está surgiendo un interés que convierte a Big data en algo así como “the next buzzword”, la palabra que sin duda escucharemos viniendo de todas partes: vendedores de tecnología, de herramientas, consultores, etc. En un momento en que la mayoría de los directivos nunca se han sentado delante de una simple página de Google Analytics y se sorprenden poderosamente cuando ven lo que es capaz de hacer, llega un panorama de herramientas diseñadas para que cosas inmensamente más grandes y complejas puedan tener sentido. Tenle miedo, mucho miedo.

¿Qué hay exactamente detrás del buzzword? Básicamente, la evidencia de que las herramientas de análisis no llegan para poder convertir en información útil para la gestión empresarial los datos generados. Si tu empresa no tiene un problema con la analítica de datos, es simplemente porque no está donde tiene que estar o no sabe cómo obtener información del entorno: en cuanto unimos a la operativa tradicional y a las transacciones cuestiones como una cada vez más intensa interacción bidireccional con los clientes y el movimiento de analítica web que generan las redes sociales de todo tipo, nos encontramos un panorama en el que no estar supone de partida una desventaja importante con respecto a quienes sí están. Se trata, simplemente, de que operar en el entorno con mayor capacidad de generación de datos de la historia conlleva la adaptación de herramientas y procesos. Bases de datos no estructuradas, no convencionales, que pueden alcanzar petabytes, exabytes o zetabytes, y que requieren tratamientos específicos por sus necesidades tanto de almacenamiento como de procesamiento o visualización.

Big data fue, por ejemplo, la estrella en el último Oracle OpenWorld: el posicionamiento adoptado es el de ofrecer máquinas enormes con capacidades descomunales, procesamiento multiparalelo, análisis visual sin límites, tratamiento de datos heterogéneos, etc. Desarrollos como Exadata y adquisiciones como Endeca soportan una oferta basada en el pensar a lo grande, que algunos no han dudado en discutir: frente a esa aproximación, la realidad es que algunas de las compañías más centradas en el tema, como Google, Yahoo! o Facebook o la práctica totalidad de las startups no utilizan herramientas de Oracle y optan, en su lugar, por una aproximación basada en lo distribuido, en la nube y en el código abierto. De código abierto son Hadoop, un framework sumamente popular en este campo que permite a las aplicaciones trabajar con enormes repositorios de datos y miles de nodos, creado originalmente porDoug Cutting (que le dio el mismo nombre que tenía el elefante de juguete de su hijo) e inspirado en herramientas de Google como MapReduce o Google File System, o NoSQL, sistemas de bases de datos no relacionales necesarios para albergar y procesar la enorme complejidad de datos de todo tipo generados, y que en muchos casos no siguen la lógica de garantías ACID (atomicityconsistency,isolationdurability) característica de las bases de datos convencionales.

En el futuro: un panorama de adopción cada vez mayor, y muchos, muchos interrogantes. Implicaciones de cara a los usuarios y su privacidad, o a las empresas y la fiabilidad o potencialidad real de los resultados obtenidos: como dice el MIT Technology Review, grandes responsabilidades. Por el momento, una cosa es segura en Big data: prepara tus oídos para escuchar el término.

Extraído de Enriquedans.com. Marzo 2014. Link: http://bit.ly/1rFrIjl