La ciencia de datos como una profesión

Muéstrame los datos

 

Los datos son el nuevo petróleo

“La mitad del dinero que gasto en publicidad es mal gastado; el problema es que no sé qué mitad.” John Wanamaker

Tomar “decisiones basadas en datos” en los negocios no es nada nuevo: las empresas durante más de un siglo han empleado técnicas estadísticas para controlar los procesos y la calidad en áreas como la fabricación y la agricultura. Lo nuevo es el alcance de los datos que ahora se pueden recopilar.

Tomemos, por ejemplo, la cita anterior del minorista John Wanamaker. La medición de la efectividad de la publicidad hace cincuenta años se limitó a tal vez encuestar a un puñado de clientes o rastrear la conversión de un cupón por correo.

Ahora, los minoristas pueden obtener un historial de clic por clic sobre cómo compran los usuarios. Pueden dirigirse directamente a ciertos segmentos de clientes en las redes sociales. Incluso pueden colocar sensores dentro de la tienda para rastrear los volúmenes y patrones de tráfico. Esta digitalización del comercio minorista ha llevado a una avalancha de datos y a un mayor control sobre la efectividad de algo como la publicidad.

Los datos son ahora lo que impulsa la mayoría de nuestras interacciones comerciales, especialmente en línea. Desde los programas que Netflix nos sugiere, hasta las publicaciones que vemos en Facebook, hasta la tarifa que recibimos en Uber, las compañías aprovechan sus datos para cumplir con los objetivos comerciales.

 

Los datos se han vuelto tan elementales para las empresas modernas que en 2006, dos años antes de la acuñación del término “científico de datos”, el matemático británico Clive Humby declaró que “los datos son el nuevo petróleo“.

Los datos son el nuevo petróleo. Es valioso, pero si no está refinado, realmente no se puede usar. Tiene que cambiarse a gas, plástico, productos químicos, etc. para crear una entidad valiosa que impulse la actividad rentable; entonces los datos deben desglosarse, analizarse para que tengan valor “.

La declaración de Humby llega al corazón del flujo de trabajo de la ciencia de datos. Como se indicó, los datos de “refinación” requieren la mayoría del tiempo de los científicos de datos. Es desordenado y poco atractivo, pero sin él, no habría información valiosa sobre el negocio.

Los datos son el nuevo suelo

Una de las alternativas más populares y creíbles a “los datos son el nuevo petróleo” proviene del diseñador británico David McCandless, quien argumenta que “los datos son el nuevo terreno“.

“Los datos son un medio fértil y creativo … que podemos regar con redes y conectividad. Los datos son el nuevo suelo “. David McCandless

Para McCandless, los datos son un ingrediente necesario para resultados comerciales exitosos. Puede y debe renovarse y reutilizarse para mantenerse eficiente. McCandless señala que gran parte de los datos recopilados son generados por el cliente, y que ayudar a esos clientes, no a la “tubería” de datos en sí, es lo que hace que un negocio sea exitoso.

Cualquiera de las dos analogías reconoce que el valor comercial basado en datos es esencial hoy y que se necesita mucho trabajo para llegar allí. Generalmente se necesita un equipo, en el que varios profesionales que hacen lo que podría considerarse “ciencia de datos” se especialicen en diferentes zonas. A continuación, veamos algunos roles especializados comunes en ciencia de datos.

Un científico de datos con otro nombre

Las diversas franjas de la ciencia de datos se pueden reducir en gran medida en cada una de las tres disciplinas del diagrama de Venn de ciencia de datos:

ciencia de datos diagrama de venn

Algunos científicos de datos se especializan en piratería, otros en matemáticas y estadísticas, y otros en experiencia en el tema. Lo que los distingue como “científicos de datos” es que todavía son excepcionalmente competentes en las otras disciplinas. El ingeniero Josh Willis capturó esta cualidad al definir a un científico de datos como una “persona que es mejor en estadística que cualquier ingeniero de software y mejor en ingeniería de software que cualquier estadístico”. Hay otros títulos de trabajo posibles que tienen los científicos de datos. Exploraremos los siguientes.

Ingeniero de datos / arquitecto de datos / ingeniero de aprendizaje automático. Estos científicos de datos no son solo “piratas informáticos” sino ingenieros de software con todas las de la ley que pueden manejar grandes cantidades de datos a escala. Es probable que sean expertos no solo en paquetes de ciencia de datos de R y Python, sino también en herramientas como Java para el desarrollo, Hadoop para el procesamiento de datos a gran escala y tecnologías ETL para el almacenamiento y almacenamiento de datos.

Estos roles se centran en hacer que los datos funcionen en la producción. Esto incluye modelos de solución de problemas que han quedado “obsoletos”, manteniendo registros de software e incluso buscando amenazas de seguridad.

data science perks

Estadístico / matemático / investigador de operaciones. Estas funciones pueden ser lo más parecido a los “científicos de datos” que las organizaciones tenían antes que los científicos de datos. Estos roles requieren un análisis cuantitativo riguroso en un contexto empresarial. Los lenguajes patentados como SAS, SPSS y MATLAB son más comunes en estos departamentos.

Roles como “matemático” o “investigador de operaciones” son especialmente comunes en industrias intensivas en recursos como el transporte y la fabricación. Las personas en estos roles están extremadamente bien fundamentadas en los fundamentos matemáticos y estadísticos del análisis de datos, pero no están tan involucradas con la “producción” de los modelos de aprendizaje automático.

Analista de datos / analista de inteligencia de negocios. Mientras están capacitados en los fundamentos de la ciencia de datos, es probable que las personas en estos roles sirvan como “intermediarios” con el equipo de ciencia de datos y audiencias y ejecutivos no técnicos. Se sienten cómodos con la recuperación de datos de bases de datos y almacenes de datos para realizar análisis a pequeña escala en herramientas como Excel, Tableau y Python.

Los proyectos de datos a largo plazo para analistas de datos probablemente tengan que ver con mantener un tablero y comunicarse con los ejecutivos sobre los resultados y estrategias de los indicadores clave de rendimiento (KPI). Estos científicos de datos incluso podrían estar versados ​​en la experiencia del usuario (UX) y las metodologías de diseño y tener experiencia en HTML y JavaScript.

¿Hacia donde van los científicos de datos?

No existe un comité organizador central o una junta de licencia de científicos de datos, por lo que no hay una voz oficial del mercado laboral de ciencia de datos. De hecho, el “científico de datos” ni siquiera figura en el Manual de Perspectivas Ocupacionales del Departamento de Trabajo de los Estados Unidos, porque es una profesión tan nueva y en evolución. Sin embargo, lo que el Departamento de Trabajo puede decirnos es que se proyecta que el empleo de ocupaciones de informática y tecnología de la información crecerá un 13 por ciento desde ahora hasta 2026. Esta es una tasa de crecimiento más rápida que cualquier otra profesión. En pocas palabras, los científicos de datos van a todas partes, desde el sector público hasta las organizaciones sin fines de lucro y el sector privado.

Sector público.

Muchos gobiernos están emprendiendo iniciativas de datos abiertos y emplean científicos de datos para recopilar, analizar e informar sobre datos. En los Estados Unidos, esto está encabezado en data.gov (esta también es una excelente fuente de conjuntos de datos). Ya has escuchado el nombre de DJ Patil, como uno de los pioneros del término “científico de datos”. Patil también es conocido como el primer científico jefe de datos de los Estados Unidos, una cita simbólica para la integración de la ciencia de datos en el sector público.

Sin fines de lucro.

Hay un movimiento creciente para ayudar a las organizaciones sin fines de lucro a convertirse en “datos” y alfabetizados “digitalmente”. Estas organizaciones, aunque tal vez carecen de los recursos y el conocimiento para proyectos de datos a gran escala, tienen fuertes lazos comunitarios y acceso a datos importantes. Organizaciones como DataKind se han convertido en “organizaciones sin fines de lucro para organizaciones sin fines de lucro” para ayudar a aumentar las capacidades de ciencia de datos. La Iniciativa de Ciencia de Datos para el Bien Social de la Universidad de Chicago incluso tiene un programa de becas remuneradas para capacitar a científicos de datos para trabajar con organizaciones sin fines de lucro.data sciencie hats

Sector privado.

Los científicos de datos trabajan en todas las industrias del sector privado, desde el comercio minorista hasta la agricultura. Sin embargo, es más probable que trabajen en industrias intensivas en conocimiento como salud, finanzas, tecnología y energía.

Tech.

Por una “compañía de tecnología”, utilizaremos la definición de Tech Nation de la red del Reino Unido de “empresa que proporciona un servicio técnico digital / producto / plataforma / hardware, o depende en gran medida de él, como su principal fuente de ingresos”. Por ejemplo, mientras Uber ofrece transporte, su diferenciador clave es su plataforma técnica. Lo mismo ocurre con Airbnb y la hospitalidad.

Por su naturaleza, las compañías tecnológicas operan altamente digitalmente, y esto genera muchos datos. ¡Cue la demanda de ciencia de datos! Los científicos de datos de estas compañías usan datos para conocer a los clientes y validar las ofertas de la compañía.

Finanzas.

La ciencia de datos en las finanzas no se limita a los “quants”, o analistas altamente rigurosos de los mercados financieros y valores, aunque la ciencia de datos ha revolucionado actividades como el comercio y las inversiones. Los científicos de datos en finanzas también pueden trabajar en roles más internos en los bancos, monitoreando las cuentas por fraude o riesgo de incumplimiento. También pueden analizar las redes sociales y las reseñas de los clientes para encontrar información sobre la experiencia del cliente.

Cuidado de la salud.

La ciencia de datos se usa en la atención médica para todo, desde pronosticar visitas a la sala de emergencias hasta detectar anomalías en las reclamaciones de seguros. También ha afectado directamente la atención al paciente: múltiples informes afirman que los algoritmos han hecho mejores diagnósticos que los médicos, y los hospitales están lidiando con la forma de aprovechar los modelos de ciencia de datos altamente predictivos al tiempo que permiten la experiencia humana.

Energía.

Los sensores e Internet de las cosas han liberado grandes cantidades de datos al sector energético. Los objetivos de la ciencia de datos en esta industria incluyen pronosticar el consumo, identificar ubicaciones de posibles fuentes de energía y prevenir interrupciones.

Start ups

Una nueva empresa podría provenir de cualquiera de las industrias mencionadas, aunque especialmente de la tecnología. Trabajar como científico de datos en una nueva empresa conlleva desafíos y recompensas únicos. Si bien es probable que las grandes empresas tengan grandes equipos de ciencia de datos con una infraestructura de datos establecida, es probable que la ciencia de datos en un inicio sea “más ágil”. La distinción entre la ciencia de datos y la infraestructura de datos es borrosa, y usted puede empujar sus límites como “pirata informático” en un entorno de ciencia de datos de inicio al nivel de “desarrollador aficionado”.

El objetivo final de la ciencia de datos en una startup (o realmente cualquier función en una startup) es validar quién es el cliente y lo que valora. Cuanto más rápido el inicio pueda aprender e iterar sobre esta propuesta de valor, mayor será la probabilidad de éxito. Esto significa plazos más cortos y mayor presión para entregar valor. Además de eso, los datos pueden ser difíciles de obtener en una pequeña empresa, lo que requiere una mayor innovación por parte del científico de datos. Trabajar en un inicio puede ser emocionante, pero potencialmente abrumador.

 

Las muchos habilidades de un científico de datos.

Si bien las tareas específicas de un científico de datos varían según la industria, un científico de datos será, en un alto nivel, investigador, desarrollador y narrador de historias. Por la naturaleza de sus deberes, los científicos de datos también trabajan con información altamente sensible, haciendo de la seguridad y las consideraciones éticas otro pilar de la ciencia de datos.

Como practicante

Los científicos de datos tienen cuidado de no mirar los datos fuera del contexto del negocio. Como expertos en la materia, los científicos de datos pueden trabajar en toda la empresa para identificar sus “puntos débiles” y las oportunidades de mejora. Esto podría implicar estar al tanto de las noticias de la industria, establecer relaciones con personas ajenas a la ciencia de datos y aprender sobre los procesos de negocio que generan los datos, en lugar de simplemente analizar el resultado.

En las famosas palabras del empresario Steve Blank, este papel del trabajo alienta a los científicos de datos a “salir del edificio” y convertirse en algo más que técnicos, sino profesionales de negocios que “viven y respiran” su industria, y su conocimiento para construir ciencia de datos. proyectos por encima de este conocimiento.

Los científicos de datos a menudo desempeñan el papel de consultor interno o evaluador de programas para proyectos empresariales. Las habilidades en gestión de proyectos y clientes ayudan a los científicos de datos a gestionar intereses competitivos de su tiempo y recursos y evitar proyectos sin fin o interminables.

Como investigador.

Estas tareas coinciden en gran medida con lo que describiremos como el “flujo de trabajo de ciencia de datos”. Con los objetivos y las reglas del negocio en mente, el científico de datos realiza un análisis cuantitativo riguroso con una variedad de fuentes de datos. Cuando la mayoría de la gente piensa en lo que hacen los científicos de datos (incluidos los propios científicos de datos), esto es probablemente lo que imaginan.

Como cuentacuentos.

Con un modelo de ciencia de datos productivo y exitoso en proceso, el científico de datos actúa como narrador y presentador en toda la organización. El científico de datos utiliza su investigación para elaborar información relevante para cada audiencia.

Esto podría ser para los ejecutivos y el C-suite, que se identifican con objetivos concretos y cuantificables y menos con los detalles técnicos de cómo se lograron. Por otro lado, el público técnico puede desear esta información, e incluirla puede ser beneficioso para todos, ya que los científicos de datos critican y crecen a partir del trabajo de los demás. Finalmente, algunas organizaciones también pueden involucrar a científicos de datos en comunicaciones públicas. Después de todo, el científico de datos ha obtenido un estatus público legendario, respaldado por titulares como “el trabajo más sexy del siglo XXI”.

Como guardián de los estándares éticos.

Si bien la falta de principios organizativos centrales ha democratizado la ciencia de datos para que las personas de todos los orígenes se involucren, también ha resultado en la ausencia de cierta autovigilancia ética como se encuentra en profesiones tradicionales como la medicina y el derecho. A medida que la profesión madura y el mundo se vuelve cada vez más digital, muchos científicos de datos han reconocido la necesidad de tomar explícitamente consideraciones éticas en los proyectos de ciencia de datos.

Los científicos de datos a menudo trabajan con datos generados por humanos, a menudo incluyendo detalles sensibles sobre la vida de una persona. Antes incluso de recopilar estos datos, los científicos de datos deben tener un plan para obtener el consentimiento realista de los participantes y mantener la seguridad de los datos. Los científicos de datos con antecedentes académicos pueden ver similitudes aquí con una junta de revisión institucional.

Los científicos de datos también deben tener en cuenta el sesgo o la línea roja que pueden producir sus algoritmos. A medida que los algoritmos aprenden a mejorar la predicción, pueden emplear tácticas inaceptables, como discriminar por raza o género. Este fenómeno, conocido como “sesgo de aprendizaje automático”, fue planteado en un popular libro de 2016 por la estadística estadounidense Cathy O’Neil, en Armas de destrucción matemática.

Al emplear datos sensibles altamente conectados en red, los científicos de datos también deben considerar los riesgos de un ataque malicioso en sus modelos. No solo los piratas informáticos (utilizados aquí con las connotaciones negativas) violan los datos de los clientes, sino que incluso pueden inyectar datos defectuosos, causando estragos en un modelo.

Por estas razones y más, la comunidad de ciencia de datos se está tomando en serio la ética. Hasta ahora, el consenso es que, en lugar del equivalente de un juramento hipocrático para la ciencia de datos, una lista de verificación publicada única para cada organización o proyecto serviría como una mejor guía. Establecer y mantener estos estándares éticos, aunque lamentablemente retrasados ​​en la profesión, se convierte en otro deber del científico de datos.

Previous

Generación de música con Python

Introducción a APIs de datos

Next

Deja un comentario