Data Scientist vs Data Engineer

Las diferencias entre ingenieros de datos y científicos de datos explicadas: responsabilidades, herramientas, lenguajes, perspectivas laborales, salario, etc.

El debate sobre los roles de la ciencia de datos no es nuevo (recuerda la infografía de Data Science Industry que DataCamp sacó en 2015): el mayor enfoque de las empresas en la adquisición de talento de ciencia de datos parecía ir de la mano con la creación de todo un nuevo conjunto de roles y títulos de ciencia de datos. Y dos años después del primer post sobre esto, ¡esto sigue ocurriendo!

Últimamente se ha escrito mucho sobre la diferencia entre las distintas funciones de la ciencia de datos y, más concretamente, sobre la diferencia entre los científicos de datos y los ingenieros de datos. Tal vez el aumento del interés se deba a que, efectivamente, se ha producido un cambio de perspectiva con el paso de los años: mientras que hace un par de años, la atención se centraba más en la obtención de información valiosa a partir de los datos, la importancia de la gestión de datos ha empezado a calar poco a poco en el sector. Porque, al fin y al cabo, el principio de "basura dentro, basura fuera" sigue siendo válido: puedes construir los mejores modelos, pero si tus datos no son cualitativos, tus resultados serán débiles.

El papel del ingeniero de datos ha ido ganando protagonismo poco a poco.

La entrada de hoy expondrá las diferencias más importantes entre los científicos de datos y los ingenieros de datos, centrándose en las responsabilidades, las herramientas, los lenguajes y el software, la formación, los salarios y la contratación, las perspectivas laborales y los recursos que puede utilizar para iniciarse en la ciencia o la ingeniería de datos.

Responsabilidades

Responsabilidades del Data Engineer

El ingeniero de datos es alguien que desarrolla, construye, prueba y mantiene arquitecturas, como bases de datos y sistemas de procesamiento a gran escala. El científico de datos, en cambio, es alguien que limpia, masajea y organiza (grandes) datos.

Puede que la elección del verbo "masajear" le parezca especialmente exótica, pero sólo refleja aún más la diferencia entre ingenieros de datos y científicos de datos.

En general, los esfuerzos que ambas partes tendrán que hacer para obtener los datos en un formato utilizable son considerablemente diferentes.

Los ingenieros de datos tratan con datos brutos que contienen errores humanos, de máquinas o de instrumentos. Los datos pueden no estar validados y contener registros sospechosos; no estarán formateados y pueden contener códigos específicos del sistema.

Los ingenieros de datos tendrán que recomendar y, a veces, aplicar formas de mejorar la fiabilidad, eficacia y calidad de los datos. Para ello, tendrán que emplear diversos lenguajes y herramientas para unir sistemas o intentar cazar oportunidades de adquirir nuevos datos de otros sistemas para que los códigos específicos del sistema, por ejemplo, puedan convertirse en información en el tratamiento posterior por parte de los científicos de datos.

Muy estrechamente relacionado con estos dos aspectos está el hecho de que los ingenieros de datos tendrán que asegurarse de que la arquitectura establecida satisface los requisitos de los científicos de datos y de las partes interesadas, es decir, la empresa.

Por último, para entregar los datos al equipo de científicos de datos, el equipo de ingeniería de datos tendrá que desarrollar procesos de conjunto de datos para el modelado, la minería y la producción de datos.

Responsabilidades del Data Scientist

Por lo general, los científicos de datos ya obtienen datos que han superado una primera ronda de limpieza y manipulación, con los que pueden alimentar sofisticados programas de análisis y métodos estadísticos y de aprendizaje automático para preparar los datos para su uso en modelos predictivos y prescriptivos. Por supuesto, para construir modelos, necesitan investigar las preguntas de la industria y del negocio, y tendrán que aprovechar grandes volúmenes de datos de fuentes internas y externas para responder a las necesidades empresariales. Esto también implica a veces explorar y examinar los datos para encontrar patrones ocultos.

Una vez que los científicos de datos hayan realizado los análisis, tendrán que presentar una historia clara a las partes interesadas clave y, cuando se acepten los resultados, tendrán que asegurarse de que el trabajo se automatiza para que las perspectivas puedan entregarse a las partes interesadas de la empresa diaria, mensual o anualmente.

Está claro que ambas partes tienen que trabajar juntas para manejar los datos y proporcionar información que permita tomar decisiones críticas para la empresa. Hay un claro solapamiento en las competencias, pero ambas se están diferenciando gradualmente en el sector: mientras que el ingeniero de datos trabajará con sistemas de bases de datos, API de datos y herramientas para fines de ETL, y participará en el modelado de datos y la creación de soluciones de almacén de datos, el científico de datos necesita conocer las estadísticas, las matemáticas y el aprendizaje automático para construir modelos predictivos.

El científico de datos debe conocer la informática distribuida, ya que tendrá que acceder a los datos que ha procesado el equipo de ingeniería de datos, pero también tendrá que ser capaz de informar a las partes interesadas de la empresa: es esencial centrarse en la narración de historias y la visualización.

Idiomas, herramientas y software

Por supuesto, esta diferencia de conocimientos se traduce en diferencias en los lenguajes, herramientas y software que ambos utilizan. El siguiente resumen incluye tanto alternativas comerciales como de código abierto.

Aunque las herramientas que utilizan ambos dependen en gran medida de cómo se conciba la función en el contexto de la empresa, a menudo verá a ingenieros de datos trabajando con herramientas como SAP, Oracle, Cassandra, MySQL, Redis, Riak, PostgreSQL, MongoDB, neo4j, Hive y Sqoop.

Los científicos de datos harán uso de lenguajes como SPSS, R, Python, SAS, Stata y Julia para construir modelos. Las herramientas más populares aquí son, sin duda, Python y R. Cuando se trabaja con Python y R para la ciencia de datos, lo más habitual es recurrir a paquetes como ggplot2 para realizar increíbles visualizaciones de datos en R o a la biblioteca de manipulación de datos de Python Pandas. Por supuesto, existen muchos más paquetes que te resultarán útiles cuando trabajes en proyectos de ciencia de datos, como Scikit-Learn, NumPy, Matplotlib, Statsmodels, etc.

En la industria, también encontrarás que SAS y SPSS comerciales van bien, pero también otras herramientas como Tableau, Rapidminer, Matlab, Excel, Gephi encontrarán su camino en la caja de herramientas del científico de datos.

Se ve de nuevo que una de las principales distinciones entre los ingenieros de datos y los científicos de datos, el énfasis en la visualización de datos y la narración, se refleja en las herramientas que se mencionan.

Las herramientas, los lenguajes y el software que ambas partes tienen en común, como ya habrás adivinado, son Scala, Java y C#.

Se trata de lenguajes que no son necesariamente populares tanto para los científicos de datos como para los ingenieros: se podría argumentar que Scala es más popular entre los ingenieros de datos porque la integración con Spark es especialmente práctica para configurar grandes flujos ETL.

Lo mismo ocurre con el lenguaje Java: por el momento, su popularidad está aumentando entre los científicos de datos, pero en general, no es muy utilizado a diario por los profesionales. Pero, en general, verás que estos lenguajes aparecen en las ofertas de empleo de ambas funciones. Lo mismo puede decirse de las herramientas que ambas partes podrían tener en común, como Hadoop, Storm y Spark.

Por supuesto, la comparación en herramientas, lenguajes y software debe verse en el contexto específico en el que se está trabajando y cómo se interpretan las funciones de la ciencia de datos en cuestión; la ciencia de datos y la ingeniería de datos pueden estar estrechamente unidas en algunos casos específicos, en los que la distinción entre los equipos de ciencia de datos y de ingeniería de datos es, de hecho, tan pequeña que a veces, los dos equipos se fusionan.

Formación académica

Además de todo esto, los científicos de datos y los ingenieros de datos también pueden tener algo en común: su formación en Informática. Esta área de estudio es muy popular en ambas profesiones. Por supuesto, también verá que los científicos de datos a menudo han estudiado econometría, matemáticas, estadística e investigación de operaciones. Suelen tener un poco más de visión para los negocios que los ingenieros de datos. Los ingenieros de datos también proceden de la ingeniería y, en la mayoría de los casos, han recibido formación previa en ingeniería informática.

Sin embargo, todo esto no significa en absoluto que no encuentres ingenieros de datos que hayan adquirido conocimientos en operaciones y visión empresarial a partir de estudios previos.

Hay que tener en cuenta que, en general, la industria de la ciencia de datos está formada por profesionales que proceden de todo tipo de entornos: no es raro que físicos, biólogos o meteorólogos encuentren su camino hacia la ciencia de datos. Otros han hecho un cambio de carrera hacia la ciencia de datos y proceden del desarrollo web, la administración de bases de datos, etc.

Empleos

Como se ha descrito antes, la creación de funciones y títulos es necesaria para reflejar las necesidades cambiantes, pero otras veces se crean como forma de diferenciarse de otras empresas de contratación.

Además del aumento del interés por los problemas de gestión de datos, las empresas buscan soluciones más baratas, flexibles y escalables para almacenar y gestionar sus datos. Quieren trasladar sus datos a la Nube y, para ello, necesitan construir "lagos de datos" como complemento a los almacenes de datos que ya tienen instalados o como sustituto del Almacén de Datos Operativos (ODS).

Los flujos de datos tendrán que ser redirigidos y sustituidos en los próximos años y, como resultado, el enfoque y el número de ofertas de empleo para contratar ingenieros de datos ha aumentado gradualmente a lo largo de los años.

El papel de científico de datos ha estado en demanda desde el principio del bombo, pero hoy en día, las empresas buscan componer equipos de ciencia de datos en lugar de contratar científicos de datos unicornio que posean habilidades de comunicación, creatividad, ingenio, curiosidad, conocimientos técnicos, etc. Para los reclutadores, es difícil encontrar personas que encarnen todas las cualidades que buscan las empresas y la demanda supera claramente a la oferta.

Se podría decir que la "burbuja de los científicos de datos" ha estallado. O puede que aún estalle en el futuro.

Una cosa se mantendrá a pesar de todo esto: la demanda de expertos apasionados por los temas de la ciencia de datos siempre estará ahí. La búsqueda de empleo para estos expertos es muy positiva: según McKinsey, EE.UU. podría enfrentarse a una escasez de entre 140.000 y 190.000 personas con profundas habilidades analíticas y 1,5 millones de directivos y analistas con los conocimientos necesarios para utilizar el análisis de (big) data para tomar decisiones eficaces en 2018.

Conclusión

En resumen, un Data Scientist y un Data Engineer son dos roles fundamentales en el campo de la ciencia de datos. Ambos juegan un papel importante en el desarrollo de la industria. El Data Scientist es responsable de crear modelos predictivos y análisis avanzados, mientras que el Data Engineer se encarga de recopilar, preparar y administrar los datos. Si una empresa quiere aprovechar al máximo el potencial de la ciencia de datos, es importante que contrate a expertos de MaselData en los dos roles. Esto le permitirá obtener los mejores resultados y un crecimiento a largo plazo. No dudes en consultar por nuestros servicios de data science!