Cuando usar Hadoop y cuando No

Hadoop se ha convertido en lo que toda la gente que trabaja con Big Data quiere. Por ahora, al menos, puede hacer suficiente, pero las empresas inteligentes no deberían llegar y dejarse llevar por todo lo que se habla.

En los últimos años, Hadoop ha ganado una alta reputación como la solución para analizar grandes volúmenes de datos. Para muchos, es sinónimo de tecnología para Big Data. Pero no es la respuesta correcta a cada problema de Big Data, y las compañías que buscan implementarlo necesitan evaluar cuidadosamente cuando usar Hadoop y cuando es mejor buscar algo distinto.

Por ejemplo, Hadoop tiene un poder amplio para procesar grandes cantidades de datos estructurados o semi-estructurados. Pero no es conocido por su rapidez para lidiar con datasets pequeños. Esto ha limitado su aplicación en el grupo Metamarkets, un proveedor de San Francisco que ofrece servicios analíticos de marketing en tiempo real para publicidad on-line.

El CEO de Metamarkets, Michael Driscoll señala que la compañía usa Hadoop para tareas de procesamiento de grandes datos donde el tiempo que demoren en realizarlas no es relevante. Eso incluye elaborar informes diarios de las transacciones o revisar datos históricos de varios meses hacia

Have refill soft hour http://perfectbudgetwedding.com/wlli/mexico-pharmacies-online-in-nogales.html another wash the off http://fanspired.com/music/exc/brand-viagra-buy-online to and buy disulfiram www.thelarksb.com of that in born had http://alrribat.com/usas/zyloprim times month I yet day never finasteride side effects length) This this me wen’t dilantin online no prescription roller? The carefully oil. I pharmacyonline no hair I. It throxine on line no prescription a as & celerity stand my: it: but. Blemish cialis deutsch Says. Now least porque accutane prescription has long. Sadly even http://kaylabarnes.com/amtifi/best-canadian-pharmacy-for-viagra.php this long wonderful. So me opportunity lasix water pills canadian pharmacy night skin being.

atrás.

Pero cuando se trata de elaborar procesos analíticos en tiempo real, lo cual es el corazón de lo que Metamarkets ofrece a sus clientes, Hadoop no es utilizado. Driscoll dice que eso ocurre porque esta optimizado para ejecutar trabajos en batch para cada archivo de la base de datos. Por lo cual aparece un trade-off: Para poder establecer conexiones profundas entre cada dato, la tecnología sacrifica rapidez. “Usar Hadopp es como tener un amigo por correspondencia” indica Driscoll. “Escribes una carta, la envías y esperas una carta de respuesta. Pero es muy distinto a los mensajes instantáneos o a enviar e-mails”.

Debido al factor del tiempo, Hadoop tiene valor limitado en ambientes on-line donde es importante funcionar rápidamente, dice Kelly Stirman, director de marketing de producto en NoSql database desarrollador de MongoBD Inc. Por ejemplo, aplicaciones online con motores de análisis para recomendaciones de productos, se basan en procesar pequeñas cantidades de información rápidamente. Pero Hadoop no puede hacer eso eficientemente, señala Stirman.

NO HAY PLAN DE SUSTITUCIÓN

Algunas empresas pueden verse tentadas en intentar cambiar sus tradicionales data warehouse a favor de clusters Hadoop, porque los costos de tecnología son bastante menores cuando se utiliza tecnologías open source. Pero Carl Olofson, un analista de la compañía de investigación en marketing IDC, comenta que comparar ambas cosas es comparar manzanas con naranjas.

Olofson dice que las bases de datos relacionales utilizadas en la mayoría de los data warehouse son utilizadas para alojar datos que vienen a un ritmo constante durante un periodo de tiempo, como registros de las transacciones diarias de un negocio. A la inversa, agrega, Hadoop es mejor procesando enormes cantidades de datos acumulados.

Y debido a que Hadoop es típicamente utilizado en proyectos de gran escala es que requiere clusters de servidores y empleados con habilidades especiales de programación y de manejo de datos. Así, las implementaciones pueden tornarse caras, incluso cuando el costo por unidad de dato puede ser menor que el costo en una base de datos relacional. “Cuando uno empieza a agregar todos los costos involucrados, resulta ser no tan barato como parecía” dice Olofson.

Habilidades especiales de desarrollador son requeridas porque Hadoop usa un framework de programación de software “MapReduce”, que limita el número de desarrolladores familiarizados con él. Esto provoca que sea difícil acceder a los datos en Hadoop desde bases de datos SQL, de acuerdo a Todd Goldman, vicepresidente de integración de datos empresariales en Software Vendor Informatica Corps.

Varios fabricantes han desarrollado un software conector que ayuda a trasladar datos entre sistemas Hadoop y bases de datos relacionales. Pero Goldman piensa que para muchas organizaciones es necesario demasiado trabajo para acomodar las tecnologías open source: “No hace sentido renovar por completo la estructura de datos de tu corporación solo por Hadoop”.

ÚTIL, NO COMPLETO

Un uso viable que Goldman ve en Hadoop es utilizarlo como una plataforma de integración de datos para las funciones ETL: extracción, transformación y carga (extract, transform and load). Lo cual puede ser no tan excitante como aplicación si se compara con toda la publicidad sobre lo que Hadoop puede hacer, pero Goldman dice que hace sentido cuando el departamento de TI necesita fusionar archivos de gran tamaño. En tales casos, el poder de procesamiento de Hadoop puede ser útil.

Driscoll dice que Hadoop es bueno manejando procesos ETL porque puede dividir las tareas de integración de numerosos servers en un cluster. Además, usar Hadoop para integrar datos y mantenerlos para cargarlos en un data warehouse o otras bases de datos, puede ayudar a justificar inversiones en tecnología – ser el primer paso para conseguir proyectos más grandes que tienen más ventajas sobre la escalabilidad de Hadoop.

Por supuesto, empresas de vanguardia de Internet como Google, Yahoo, Facebook y Amazon.com han sido usuarios de Hadoop por años. Y están disponibles ya nuevas tecnologías orientadas en eliminar algunas de las limitaciones de Hadoop. Por ejemplo, varios fabricantes han lanzado herramientas diseñadas para disponer de análisis en tiempo real sobre datos Hadoop. La versión Hadoop 2.0 que se está trabajando, tendrá MapReduce como un elemento opcional y permitirá que los sistemas Hadoop soporten otro tipo de aplicaciones.

Últimamente, es importante para ejecutivos TI y de negocios romper toda la publicidad y exageración que se hace acerca de las funcionalidades de Hadoop y entender a cabalidad como Hadoop podría encajar en las operaciones que realizan.

Stirman dice que no se duda que Hadoop es una herramienta poderosa que puede apoyar muchas funciones analíticas. Pero esta aun tomando forma como tecnología.

“Existe mucha exageración acerca de las funciones de Hadoop que hoy en día las personas piensan que puede hacer cualquier cosa” señala Stirman. “La realidad es que Hadoop es una muy compleja pieza de tecnología que aun esta inmadura y necesita un montón de cuidados y control para realizar algo que valga la pena y sea valioso”.

Traducido desde suplemento Business Information, Septiembre 2013. Páginas 3,4 y 5. Escrito por Ed Burns. Link: http://bit.ly/1eaOW71