Data Scientist, mas allá de las estadísticas

Desafortunadamente, en los últimos tiempos escuchamos muchas definiciones erradas en lo que al fenómeno Big Data se refiere. La definición de “Data Scientist” (científico de datos) es de las más recientes que he escuchado. Durante la conferencia “Business Intelligence, Analytics & Big Data”, llevada a cabo el 20 de septiembre de 2013 y organizada por la firma IDC (International Data Corporation), el conferencista de un importante fabricante se atrevió a decir que “Data Scientist” es el nuevo nombre del estadístico. Del mismo modo, en la Conferencia Mundial de Estadísticos, celebrada en Montreal en el verano del 2013, los expertos asistentes al JSM 2013 (Joint Statistical Meetings) se apresuraron a apropiarse del papel de “Data Scientist”… un poco rápido y fácil ¿no lo cree?

Por Abed Ajraou| 08 Octubre 2013

Los estadísticos y los profesionales de la inteligencia de negocios deben comprender el mundo que los rodea. No hacerlo, los llevaría al mismo destino que la compañía Nokia, quien siendo líder en su época no vio venir la revolución de los teléfonos inteligentes.
Los grandes analistas, IDC y Forrester & Gartner, anuncian para los próximos años una escasez de “Data Scientist”, igualmente, predicen la falta de programas de capacitación dedicados a esta disciplina. Ahora bien, si los “Data Scientist” no fueran simplemente que estadísticos, entonces ¿por qué los estadísticos no están ocupando estos puestos? ¿Por qué decimos que hay escasez de “Data Scientist”? ¿Es que estos analistas están errados?

DEFINICIÓN DE “DATA SCIENTIST”:

Volvamos a la definición de un “Data Scientist” y tratemos de entender en qué él es diferente a un estadístico clásico.
El oficio del “Data Scientist” nace del concepto del análisis de datos voluminosos, lo que llamamos Big Data. Es por esto que él mismo debe responder a los siguientes criterios:
• Conocer ampliamente las principales áreas de negocios de la empresa para así poder ser realmente un apoyo a las entidades y dar respuestas pertinentes a las consultas efectuadas.
• Saber analizar los datos estructurados y no estructurados, dentro o fuera de la empresa. Es decir, saber procesar datos tipo texto, imágenes y sonido. Manejar la minería de textos (text mining), la semántica y los conceptos de “machine learning” es esencial.

• Dominar las arquitecturas de datos distribuidas, “paralelizadas” y “multi-procesadas”, determinar en dónde cambian y así poder garantizar el análisis de datos ya validados y limpios, ahora casi en tiempo real en lugar de en “modo batch”.
• Entender que este ambiente de trabajo permite procesar un gran volumen de datos y saber también que la técnica del análisis de muestras ya no es necesario, incluso ahora es contraproducente.
• Conocer el “contexto de negocios” de los datos, especialmente cuando se trabaja sobre la calidad de los datos. En el campo de los seguros, por ejemplo, la fecha de nacimiento es un dato de gran importancia para un contrato de seguro de salud y totalmente ineficaz para la declaración de un siniestro.
• Saber resumir y “hacer hablar” los datos, basándose en visualizaciones de datos oportunas y adecuadas al público objetivo y al mensaje que se desea transmitir.
• Presentar los resultados eficazmente y así lograr que el público los entienda de la manera más sencilla. En otras palabras practicar la pedagogía interna y dominar el arte de contar historias, “storytelling”.

 

MITAD CRISTÓBAL COLÓN, MITAD INSPECTOR COLUMBO

Por mi parte, estoy de acuerdo con la definición que Mónica Rogati describe en LinkedIn: “en mi opinión, ellos son mitad piratas y mitad analistas. Usan los datos para crear productos e ideas”. El encuentro entre Cristóbal Colón y el inspector Columbo: los ojos expertos de un explorador y la sagacidad de un detective”.
Así pues, los algoritmos estadísticos, esenciales para la comprensión de factores de correlación y de categorización sólo representan una parte de las competencias de un Data Scientist. Sin embargo, este último debe ir mucho más allá de la simple función de un estadístico.

Artículo adaptado por Maria Andreina González y publicado en decideo.com