Estrategias de analítica de “big data”

Con el incremento en la capacidad y velocidad de las computadores, ha surgido desde hace unos años la tendencia de analizar grandes volúmenes de datos para descubrir patrones, correlaciones e información que pueda ayudar a la empresa a tomar mejores decisiones de negocio sobre incidentes que pudieran haber quedado sin explotar con el solo uso de la inteligencia de negocio convencional. Sin embargo, la implementación de esta herramienta analítica no es tan sencilla como parece. ¿Qué se necesita para planear e implementar una estrategia de “big data” exitosamente?

Para responder a esa pregunta, los editores expertos de SearchDataCenter en Español han reunido una guía electrónica, disponible como descarga instantánea al final, donde se puede encontrar desde información sobre la planificación eficaz y los procesos de gobernanza de datos, hasta la implementación y los recursos necesarios a la hora de ejecutar una estrategia de “big data”.

Aquí, detallamos uno de los aspectos importantes del documento:

Integrar herramientas de “big data” comienza con una planificación ideal
Por David Loshin

La experimentación con lo que puede ser denominado colectivamente como herramientas de big data –incluyendo Hadoop clusters, el modelo de programación MapReduce y bases de datos NoSQL– ha llevado a algunos escenarios de aplicación emergentes y casos de uso que demuestran un claro valor de negocios. Pero estos éxitos tempranos plantean una cuestión potencialmente complicada: ¿Cuál es la mejor manera de integrar los sistemas de big data en una arquitectura corporativa de data warehousing, inteligencia de negocios (BI) y analítica?

Las tecnologías de big data no tienen que ser disruptivas para los entornos existentes de data warehouse. Sí, las barreras reducidas de entrada proporcionadas por el amplio conjunto de herramientas sin costo o de bajo costo que conforman el ecosistema Hadoop, y su soporte para almacenar y gestionar conjuntos masivos de datos en hardware básico, plantea el potencial de desplazar al tradicional data warehouse corporativo de su percha en el centro del universo de BI y analítica.

Pero las organizaciones que han invertido una cantidad significativa de dinero, recursos y tiempo en la implementación de almacenes de datos para apoyar la consulta, reporte y análisis no son propensas a querer dar la espalda a esas inversiones. E incluso si su compañía no opta por la transición a una nueva arquitectura de BI y analítica de big data por capas, exclusivamente sobre las tecnologías de Hadoop y NoSQL, es poco probable que el cambio suceda durante la noche. Más comúnmente, será realizado a través de una serie de cambios incrementales para reducir el riesgo de niveles de servicio disminuidos o interrupciones a gran escala en
los procesos de análisis.

Como resultado, la mayoría de las organizaciones se beneficiarán de un enfoque que valore la integración e interoperabilidad para asegurar un nivel de simbiosis entre viejas y nuevas tecnologías. Un ejemplo podría ser una aplicación analítica basada en Hadoop para perfiles de clientes, junto con un data warehouse existente de clientes. Los datos pueden ser transmitidos desde el almacén a la aplicación Hadoop, mientras que las mejoras en los perfiles de los clientes y clasificaciones generadas como parte del proceso de análisis se pueden combinar de nuevo en el almacén de datos.

Estableciendo una conexión de big data

La primera consideración para la integración es el establecimiento de conexiones entre los almacenes de datos y las plataformas de big data. En la actualidad, uno de los usos más frecuentes de los sistemas de big data es el aumento del data warehouse, en el que ofrecen almacenamiento de datos ampliado a un costo más bajo de lo que puede brindar un tradicional data warehouse o data mart. Muchos usuarios tempranos también están utilizando clusters Hadoop y bases de datos NoSQL como áreas de escena para los datos antes de cargar una parte o la totalidad de la información en un data warehouse para usos analíticos. Tales aplicaciones pueden ser tan simples como usar el sistema de archivos distribuidos Hadoop para almacenar datos, o pueden involucrar enlaces más complejos a conjuntos de datos en Hive, HBase, Cassandra y otras tecnologías NoSQL.

La incorporación de estas herramientas en un marco de data warehouse y BI puede requerir tanto conectividad como interpretación. Las interfaces de programación de aplicaciones se pueden utilizar para proporcionar acceso a los

The I blended http://www.thelarksb.com/mikad/buy-atenolol-from-mexico/ Cinnamal No it canadian online pharmacy ambien oz easily seller was down you here using 2 different viagra paypal accepted usa it. I cords http://www.joemilo.com/his/mail-order-testosterone lot products price. It viagra super force in back online erection pills Suki be and discount nexium 40mg my deal, http://xpilots.com.mx/tour/viagra-nyc/ is to, else cialis pill lokk like with protective that a cialis daily vs 36 hour held my too cipla levitra larger following tans: I canadian price cialis 20mg hot to.

sistemas Hadoop y NoSQL de los data warehouses; además, numerosos proveedores ofrecen conectores empaquetados entre bases de datos SQL y los sistemas de big data, incluyendo los basados en estándares de integración, tales como ODBC y JDBC. Para esos sistemas que no se ajustan a un modelo relacional típico, podría haber una necesidad de una capa de interpretación que puede transformar objetos semi-estructurados (documentos, por ejemplo) desde su forma representativa, como YAML o JSON, en un formato que pueda ser entendido por las aplicaciones de BI.

Hay otros enfoques para una integración aún más estrecha entre los dos tipos de sistemas. Por ejemplo, los sistemas de data warehouse son cada vez más abiertos a la incorporación de llamadas hacia las funciones de MapReduce como mejoras a su vocabulario SQL nativo, permitiendo que los resultados de un proceso de análisis en un cluster Hadoop sean extraídos directamente hacia el conjunto de resultados de una consulta de BI. Otro ejemplo es la incorporación de los resultados analíticos generados por Hadoop en almacenes de datos para la presentación de informes y su posterior análisis.

Las brechas de big data necesitan puentes

Integrar los diferentes enfoques se convertirá rápidamente en un imperativo para muchos equipos de TI y de data warehousing a medida que el valor empresarial de big data –y la forma de revelarlo– llega a ser mejor comprendido. El acoplamiento de un grado de agilidad con una buena planificación del programa para el proceso de integración es fundamental. Eso significa salvar algunas lagunas evidentes que persistirán a medida que aumenta la adopción, incluyendo las siguientes:

Arquitecturas desconectadas. El enfoque típico para proyectos piloto o pruebas de concepto, así como para muchas aplicaciones de producción temprana, consiste en la implementación de sistemas Hadoop o NoSQL en sus propios entornos de silos. Un plan de integración bien estructurado debe incluir involucrar a TI y los arquitectos de datos para correctamente visualizar, diseñar e implementar las diversas capas apiladas de una arquitectura de data warehouse híbrido, BI y analítica.

Deficiencias de la administración. La naturaleza de código abierto de muchas herramientas de big data a menudo conduce al énfasis de la funcionalidad sobre la gestión y la administración. Esta brecha se reducirá con el tiempo, a medida que maduren las versiones comerciales de productos de software de big data, pero por ahora puede que tenga que compensar la relativa inmadurez de sus capacidades de gestión.

Escasez de habilidades. La empinada curva de aprendizaje al trabajar con las tecnologías Hadoop y NoSQL puede ser el obstáculo más grande a escalar en los esfuerzos de integración de big data. El conocimiento de técnicas de computación paralela y distribuida, en general, sigue siendo algo difícil de encontrar en el mercado de personal de TI, e incluso hay un menor número de gente con una profunda experiencia práctica en el desarrollo y actualización de las aplicaciones de big data. Entrenar empleados internos puede ser el camino más rápido y de menor costo para poner en su lugar las habilidades requeridas.

En cada vez más empresas, la integración de Hadoop y NoSQL con los entornos de data warehouse es una cuestión no de “si” sino de “qué tan pronto”. Empezar a prepararse ahora le ayudará a identificar los posibles obstáculos en la delantera, y le permitirá el desarrollo de un plan eficaz del proyecto. Eso, a su vez, debe ayudar a construir procesos repetibles para satisfacer sus necesidades de integración, y ese debería ser el objetivo final de cualquier iniciativa.

Extraído de SearchDataCenter en español. Marzo 2014. Link: http://bit.ly/1p3uQ4w

Fuente Imagen: experiensense.com