¿Es Data Scientist la carrera correcta para ti ?

Consejo sincero de un veterano de la industria revela la verdadera imagen detrás del comentado «glamour» sobre Data Scientists  y ayuda a las personas a tener las expectativas correctas acerca de la carrera de un Data Scientist.

No es de extrañar hoy que Data Scientist (o roles relacionados como Data Manager, Estadístico, analista de datos, etc.) es una de las carreras más solicitadas. En respuesta a esta tendencia en la industria, varias universidades principales han comenzado programas dedicados a la Ciencia Datos.

Atraídos por las enormes oportunidades, buena remuneración y visibilidad a los líderes de negocios, muchas personas se están moviendo hacia la carrera de Data Scientist, sin una cuidadosa evaluación a fondo de las responsabilidades del día a día de esa función, la actitud requerida; y el equilibrio de las habilidades técnicas y empresariales.

En la búsqueda de proporcionar a los aspirantes una imagen realista y clara del papel de un Data Scientist, con la cual se pueden evaluar revisando su personalidad y ambiciones de carrera, recientemente he hablado de esto con Paco Nathan, un experto en la ciencia de datos con más de 25 años de experiencia en el sector. Su sincera y detallada respuesta es muy probable que sea una revelación para muchos.

Anmol Rajpurohit: Data Scientist ha sido denominado como el trabajo más sexy del siglo 21. ¿Está de acuerdo? ¿Qué consejo le darías a la gente que piensa en una larga carrera en Data Science?

Paco Nathan: No estoy de acuerdo. No mucha gente tiene la amplitud de habilidades para llevar a cabo el papel, ni la paciencia que es absolutamente necesaria para adquirir esas habilidades, ni el deseo de llegar allí.

Como una auto-evaluación :

  • prepare un análisis y visualización de un conjunto de datos desconocidos, mientras que los impacientes stakeholders miran por encima de tu hombro y hacen preguntas puntiagudas; dispuestos a dar argumentos cuantitativos sobre la confianza de los resultados
  • describa «función de pérdida» y «término de regularización», cada uno en 25 palabras o menos, con una comparación / contraste de varios ejemplos, y muestre cómo estructurar una serie de ventajas y desventajas para el modelo de transparencia, la capacidad de predicción y las necesidades de recursos
  • lanza una propuesta de reorganización en una reunión personal de ejecutivos que implique despedir a algunas personas
  • entrevistar a 34 departamentos diferentes que son hostiles a su proyecto, para desentrañar los metadatos de los conjuntos de datos que han sido reacios a liberar
  • crear, probar y desplegar una aplicación de misión crítica con SLAs en tiempo real, de manera eficiente en un clúster de más de 1000 nodos
  • solucionar errores intermitentes en el código de otra persona que es al menos 2000 líneas de largo, sin su ayuda
  • aplicar un conjunto de enfoques para mejorar un modelo predictivo
  • trabajar con fecha límite, en programación conjunta con personas de 34 campos diferentes completamente disjuntos del trabajo que has hecho

Si con alguno de esos puntos descritos anteriormente no se siente absolutamente cómodo en este momento, entonces mi consejo es evitar el «Data Science» como una carrera.

El término Data Scientist era «sexy» como un nuevo rol alrededor del año 2012 en el sentido de DJ Patil, Hilary Mason, et al. Sin embargo, no todo el mundo tiene un pedazo de $ 4B IPO! (información completa: me invitaron 3 veces a unirme a  LI antes de su salida a bolsa, pero obstinadamente perseguí otras oportunidades, hay un excelente equipo allí!)

Circa 2012: eso fue entonces, esto es ahora. El trabajo actual de la Ciencia Datos conlleva:

  • algunas oportunidades para innovar a partir de un estado de «greenfield», pero no a menudo
  • Mayoritariamente ser llamado a un proyecto existente – que es de alguna manera riesgoso
  • tener que decir la verdad al «poder» (no es divertido, pero la esencia de la función)

Para repetir lo que DJ y otros han articulado muy bien antes: los problemas más relacionados a datos son sociales / organizacionales (por ejemplo, los silos de datos, la falta de metadatos, matriz de las luchas internas org., etc.) o sino las ideas clave, probablemente habrían sido evidentes dentro de esa organización ya.

Tengo el presentimiento de que gran parte del trabajo interesante en el comercio electrónico ha jugado fuera ya – grandes jugadores continuarán cosechando grandes ingresos, pero el trabajo que hay que hacer ahora es en su mayoría fuera de Silicon Valley. O más bien, otras industrias deben venir aquí a aprender, buscar partners, comprar, etc.
Por ejemplo, Monsanto lanzó una firma de capital privado en SF que, en términos prácticos, puede invertir más dinero en condiciones más favorables a los emprendimientos en datos Ag que casi cualquier entidad de capital riesgo. Mientras tanto, los capitalistas de riesgo en la zona han hecho caso omiso de empresas relacionadas a datos en ámbitos que son importantes – con la excepción de Khosla. En los últimos meses, han adquirido unidades de negocio dentro de SV: Clima Corp, Solum, etc, que por cierto fueron financiados por Khosla. Espere más de esa tendencia.

Desde mi punto de vista, los grandes temas de datos ahora no están en adtech, pero en cambio estan los verdaderos problemas: el suministro de alimentos, la sequía / inundaciones, la seguridad energética, el cuidado de la salud, de telecomunicaciones, de transporte, aparte de la dependencia del petróleo, fabricación inteligente, monitoreo de la deforestación, análisis oceanográfico, etcétera.

Además, los presupuestos de TI todavía son enormemente deficiente para las perspectivas de datos. Demasiado presupuesto entra en el sacerdocio de la «ingeniería de datos», y demasiado presupuesto tiende a ser destinado a los datos que ya se limpiaron. Además, me parece que la noción de «Gestión de productos» en SV se opone a la utilización eficaz de los datos: en muchos casos, los gerentes de producto son incentivados para desalentar el uso de los datos dentro de las empresas.

De ahí que nuestro valor generalmente se basa en:

  • escribir código para preparar los datos
  • proceso de automatización para mejorar la función de ingeniería y modelo torneos
  • decir la verdad al poder

El primero habla de los presupuestos de TI destinados por el camino equivocado, y el segundo habla de Gestión de Producto de ser casi sistemáticamente hostil al uso eficaz de los datos. El tercero habla sobre el hecho de que varios de mis mayores contribuciones como un Data Scientist han sido proporcionar al personal ejecutivo pruebas contundentes para disparar a otros ejecutivos y lograr que la empresa vuelva a encarrilarse. Una vez más, las interrupciones de la industria tienen impacto.

Para la gente que acaba de empezar, tener mucho cuidado acerca de dónde ir a trabajar. Si una empresa dice tener «una excelente ingeniería», pero un uso insuficiente de los datos alrededor del 2014, luego de que * no * son las herramientas más agudas en el banco de trabajo, es mejor escoger alguna otra empresa donde empezar. Encontrar mentores. Únete a equipos que tienen un fuerte patrocinio de Finanzas u Operaciones (que generalmente comprendern los datos y la varianza), mientras que tal vez evitando equipos que tienen el patrocinio de Ingeniería o de marketing (que por lo general no entienden el uso eficaz de los datos).

Recomendaciones, no necesariamente en este orden:

  • aprender a aprovechar la evolución de Py datos: IPython, pandas, scikitlearn, etc
  • aprender a liderar una experiencia interdisciplinaria en varios dominios fuera de los datos / análisis / programación
  • conseguir una buena puesta a tierra en el diseño y aplicarlo a la visualización de datos
  • hacer todo lo posible para convertirse en un mejor escritor y orador (fuera de confs académicas)
  • participar en reuniones en; publicar en blogs, presentaciones, etc. (los responsables de contratación ignoran hojas de vida y buscan el contenido publicado en línea)
  • conseguir una buena base en álgebra abstracta, estadísticas bayesianas, álgebra lineal, optimización convexa
  • estudiar sobre algoritmos y marcos para la transmisión de datos (los casos de uso más grande en el horizonte no son lotes)
  • aprender programación funcional y escalable con seguridad de tipos
  • evitar Business Intelligence (como la peste)
  • evitar todo lo que se refiere como «El ecosistema Hadoop» o «Hadoop como sistema operativo»

Artículo traducido desde kdnuggets.com. Escrito por Anmol Rajpurohit. Marzo, 2014. Link: http://bit.ly/1i7MbW3