4 debe tener habilidades que todo científico de datos debe aprender

Queríamos hacer un seguimiento de nuestro artículo anterior sobre cómo crecer como científico de datos con algunas otras habilidades que los científicos de datos deberían tener. Nuestra esperanza es cerrar la brecha entre los gerentes de negocios y los científicos de datos técnicos mediante la creación de objetivos claros que los científicos de datos senior puedan aspirar. Ambas entidades tienen que enfrentar problemas muy diferentes. Ambos se benefician cuando están en la misma página. Es por eso que la publicación anterior se centró tan altamente en la comunicación. Parece simple, pero la brecha entre los aspectos técnicos y comerciales continúa creciendo a medida que las nuevas tecnologías se siguen acumulando cada año. Por lo tanto, nos parece importante que los gerentes y los científicos de datos tengan un camino claro de expectativas.

Tanto el conocimiento de negocios como el de TI son muy especializados. Sin embargo, debido a esta especialización de habilidades, la mayoría de las empresas ven una brecha entre las dos especializaciones. ¡Nuestro rol es ayudar a llenarlo!

Encontramos que es beneficioso cuando los científicos de datos están comenzando su viaje que se centran principalmente en los aspectos técnicos. Esto significa programación, consultas, limpieza de datos, etc. Sin embargo, a medida que crecen los científicos de datos. Deben enfocarse más en las decisiones de diseño y la comunicación con la administración. Esto multiplicará el impacto del conocimiento más experimentado de los científicos de datos. En lugar de estar atrapado en el día a día de la codificación. Pueden tomar decisiones de mayor nivel y ayudar a los científicos de datos más jóvenes si se estancan. Los científicos de datos más experimentados se benefician más a sí mismos y a sus compañías cuando utilizan su experiencia para ayudar a tomar decisiones de diseño que simplifican los sistemas complejos, optimizan los flujos de datos y ayudan a tomar decisiones sobre qué proyectos son más pertinentes.

Ser capaz de simplificar el complejo

Los científicos de datos tienden a querer utilizar todas las técnicas y algoritmos que conocen en cada problema y en cada solución. A su vez, esto crea sistemas complejos que son difíciles de mantener.

La ciencia de datos requiere modelos complejos y abstractos, así como una gran cantidad de tecnologías complejas (desde Hadoop hasta Tensorflow ). Con toda la complejidad que rodea el campo, es tentador desarrollar sistemas y algoritmos que a su vez sean complejos. Existe la tentación de involucrar a 4 o 5 tecnologías diferentes y utilizar cada nuevo algoritmo o marco. Sin embargo, como la mayoría de los otros campos que tienen alguna ingeniería involucrada. La reducción de la complejidad a menudo es mejor por múltiples razones.

Si John von Neumann , Erwin Schrödinger y Albert Einstein pueden ayudarnos a comprender las complejidades de sus propios campos matemáticos y físicos, entonces los científicos de datos no podemos escondernos detrás de la complejidad. , Erwin Schrödinger y Albert Einstein pueden ayudarnos a comprender las complejidades de sus propios campos matemáticos y físicos, entonces los científicos de datos no podemos escondernos detrás de la complejidad.

El papel de un ingeniero es simplificar una tarea. Si alguna vez ha construido o visto una máquina Rube Goldberg , comprenderá la idea de sobre-diseñar una tarea simple. Algunos algoritmos y sistemas de datos de científicos de datos se parecerían más a una loca trampa de ratón unida por cinta adhesiva y goma de mascar en lugar de una solución elegante pero efectiva. Hacer sistemas más simples significa que los sistemas serán más fáciles de mantener a lo largo del tiempo y proporcionar a los científicos de datos futuros la capacidad de agregar y quitar módulos según sea necesario. El próximo científico de datos que tome su posición le agradecerá si crea un marco simple. Por otro lado, si utilizas 3 idiomas diferentes, 2 fuentes de datos, 10 algoritmos y no dejas documentación, entonces solo debes saber que el futuro ingeniero está maldiciendo tu nombre en voz baja.

Los algoritmos y sistemas simples también permiten adiciones y restas más fáciles de realizar. Por lo tanto, a medida que se requieren cambios tecnológicos y actualizaciones o se necesita sacar un módulo. Un pobre científico de datos del futuro no tiene que jugar un juego de Jenga con tu código. Si elimino este bloque de código, ¿se derrumbará todo? ¿Has oído hablar de deuda técnica ?

Saber cómo vincular datos sin claves primarias

Uno de los grandes valores que los expertos en datos sólidos deberían proporcionar es unir conjuntos de datos que podrían no tener una conexión primaria u obvia. Los datos pueden representar las interacciones cotidianas de una persona o empresa. Tener la capacidad de encontrar patrones estadísticos en estos datos es lo que permite a los científicos de datos la capacidad de ayudar a los responsables de la toma de decisiones a tomar decisiones acertadas. Sin embargo, los datos que desea combinar no siempre se encuentran en el mismo sistema o en la misma granularidad.

Aquellos que han trabajado con datos sabrán que no siempre se integran muy bien en una sola base de datos. Los datos financieros a menudo se mantienen separados de los datos de IT Service Management, y las fuentes de datos externas pueden no tener el mismo nivel de agregación. Esto es un problema porque para encontrar valor en los datos a veces se requieren datos de otros departamentos y sistemas.

El mallado de datos requiere piezas de construcción en el mismo nivel de granularidad. Una forma de pensar es tener una gran pieza de rompecabezas unida por otra pieza grande creada por muchos pedazos de datos más pequeños.

Por ejemplo, ¿qué sucede si se le proporcionan reclamos médicos, tarjetas de crédito y tasas penales de vecindarios y desea averiguar cómo estos factores socioeconómicos afectan al paciente? Algunos conjuntos de datos pueden estar en una persona por nivel de persona, mientras que los demás pueden estar en una calle o ciudad sin un método claro para conectar los conjuntos de datos. ¿Cuál es la mejor manera de proceder? Esto se convierte en un problema de diseño que uno debe ser registrado y dos deben ser pensados.

Cada situación es diferente ya que hay muchas formas de combinar datos. Podría basarse en la región, los rasgos, los hábitos de gasto, etc. Esta es la razón por la cual la experiencia es importante. Un científico de datos experimentado tendrá la intuición de cómo se pueden unir los datos. Principalmente porque ya han probado cientos de métodos que no funcionan. Muchas veces, cuanto más cerca se puede combinar ambos conjuntos de datos a persona por persona, mejor. Entonces, si la región o ciudad resulta ser el nivel más bajo (el nivel más bajo se refiere a la granularidad de los datos, como nivel de persona, nivel de hogar, nivel de calle, nivel de ciudad, nivel de estado u otras agrupaciones) de conexión, entonces eso sería una buen lugar para comenzar

Ser capaz de priorizar proyectos

Como científico de datos, debe saber cómo explicar el ROI de los proyectos que podrían no resultar. Esto es solo una buena comunicación directa (Nuestro equipo nunca dejará de hablar sobre comunicación). Se trata de ser capaz de articular el valor y priorizar los objetivos a largo plazo frente a los objetivos a corto plazo (nuevamente, es más fácil decirlo que hacerlo).

Los equipos siempre tendrán más proyectos y solicitudes de proyectos de los que pueden manejar. Los miembros del equipo más experimentados deben tomar la iniciativa y ayudar a sus gerentes a decidir qué proyectos realmente valen la pena. Existe un buen equilibrio entre proyectos rápidos que pueden no tener el ROI más alto pero que tienen buenas posibilidades de tener éxito y proyectos a largo plazo que tienen más probabilidades de fracasar pero también proporcionan un gran ROI.

En este caso, es bueno tener una matriz de decisiones para ayudar a simplificar el proceso.

Una de las matrices de decisión clásicas para proyectos es una matriz de 2 por 2 que es importante y urgente. Esta matriz se puede encontrar en la mayoría de los cursos de negocios en la universidad y es realmente simple. ¡Por eso es genial!

He trabajado en empresas con personas realmente inteligentes. Sin embargo, cada proyecto fue tratado como una prioridad y si no ha escuchado el dicho, lo diremos aquí.

Si todo es una prioridad, nada lo es.

Elegir los proyectos correctos requiere hacer llamadas. No todo es una prioridad.

Muchas otras compañías tienen este problema. Es por eso que es importante que los miembros experimentados de los equipos de ciencia de datos sean capaces de articular claramente qué proyectos realmente deberían hacerse ahora, en vez de más tarde. Por lo tanto, usar la matriz simple hará eso.

(Como dijimos en nuestra última publicación, ser conciso es importante. Usar la matriz para ayudar a especificar el ROI ayudará).

Cuando hay una comunicación concisa y directa, los proyectos continúan avanzando y se genera confianza.

Ser capaz de desarrollar sistemas robustos y óptimos

Hacer un algoritmo o modelo que opere en un entorno controlado es una cosa. Integrar un modelo robusto en un sistema en vivo y que maneja grandes cantidades de datos es una cosa completamente distinta. Dependiendo de la compañía, a veces el científico de datos solo tendrá que desarrollar el algoritmo en sí. Entonces, un desarrollador o un ingeniero de aprendizaje automático será responsable de ponerlo en producción.

Sin embargo, este no es siempre el caso. Las empresas más pequeñas y los equipos más pequeños pueden hacer que el equipo de ciencia de datos ponga el código en producción. Esto significa que el algoritmo debe ser capaz de administrar el tráfico de datos a una velocidad razonable. Si su algoritmo tarda 3 horas en ejecutarse y necesita accederse en vivo. No entrará en producción. Por lo tanto, es necesario un buen diseño y optimización del sistema.

A medida que crecen los datos, y cada vez más personas interactúan con un sistema. Es importante que tu modelo se mantenga al día.

La ciencia de datos es un campo complejo que requiere una comprensión de datos, estadísticas, programación y temas. Para crecer, los científicos de datos deben ser capaces de simplificar y destilar estas complejidades en algoritmos. Necesitan poder concentrarse más en tomar decisiones de diseño. Esto ayuda a maximizar su conocimiento y experiencia que tienen.

Resumen

Los expertos en datos senior proporcionan el mayor impacto para ellos y sus empresas cuando van más allá de sus habilidades técnicas. El valor que aportan es su experiencia, puede ayudar a los desarrolladores más jóvenes a tomar mejores decisiones de diseño y ayudar a los gerentes a tomar mejores decisiones sobre qué proyectos tendrán el mejor ROI. A su vez, esto magnifica el impacto de su participación en el equipo.

Llamada a la acción

¿Es usted un ejecutivo o un director que necesita ayuda para mejorar su comunicación entre su equipo de ciencia de datos y los propietarios de su empresa? Queremos ayudar! Nuestro equipo se especializa en seminarios para ayudar a mejorar la comunicación y el rendimiento de sus equipos impulsados ??por datos. Contáctenos hoy aquí!

¿Interesado en leer más sobre ser un mejor científico de datos?

Cómo crecer como un científico de datos

Impulsar el embolsado y construir mejores algoritmos

Cómo sobrevivir a la política corporativa como científico de datos

8 mejores bibliotecas de Python para el aprendizaje automático

¿Qué es un árbol de decisiones?

4 debe tener habilidades que todo científico de datos debe aprender

Queríamos hacer un seguimiento de nuestro artículo anterior sobre cómo crecer como científico de datos con algunas otras habilidades que los científicos de datos deberían tener. Nuestra esperanza es cerrar la brecha entre los gerentes de negocios y los científicos de datos técnicos mediante la creación de objetivos claros que los científicos de datos senior puedan aspirar. Ambas entidades tienen que enfrentar problemas muy diferentes. Ambos se benefician cuando están en la misma página. Es por eso que la publicación anterior se centró tan altamente en la comunicación. Parece simple, pero la brecha entre los aspectos técnicos y comerciales continúa creciendo a medida que las nuevas tecnologías se siguen acumulando cada año. Por lo tanto, nos parece importante que los gerentes y los científicos de datos tengan un camino claro de expectativas.

Tanto el conocimiento de negocios como el de TI son muy especializados. Sin embargo, debido a esta especialización de habilidades, la mayoría de las empresas ven una brecha entre las dos especializaciones. ¡Nuestro rol es ayudar a llenarlo!

Encontramos que es beneficioso cuando los científicos de datos están comenzando su viaje que se centran principalmente en los aspectos técnicos. Esto significa programación, consultas, limpieza de datos, etc. Sin embargo, a medida que crecen los científicos de datos. Deben enfocarse más en las decisiones de diseño y la comunicación con la administración. Esto multiplicará el impacto del conocimiento más experimentado de los científicos de datos. En lugar de estar atrapado en el día a día de la codificación. Pueden tomar decisiones de mayor nivel y ayudar a los científicos de datos más jóvenes si se estancan. Los científicos de datos más experimentados se benefician más a sí mismos y a sus compañías cuando utilizan su experiencia para ayudar a tomar decisiones de diseño que simplifican los sistemas complejos, optimizan los flujos de datos y ayudan a tomar decisiones sobre qué proyectos son más pertinentes.

Ser capaz de simplificar el complejo

Los científicos de datos tienden a querer utilizar todas las técnicas y algoritmos que conocen en cada problema y en cada solución. A su vez, esto crea sistemas complejos que son difíciles de mantener.

La ciencia de datos requiere modelos complejos y abstractos, así como una gran cantidad de tecnologías complejas (desde Hadoop hasta Tensorflow ). Con toda la complejidad que rodea el campo, es tentador desarrollar sistemas y algoritmos que a su vez sean complejos. Existe la tentación de involucrar a 4 o 5 tecnologías diferentes y utilizar cada nuevo algoritmo o marco. Sin embargo, como la mayoría de los otros campos que tienen alguna ingeniería involucrada. La reducción de la complejidad a menudo es mejor por múltiples razones.

Si John von Neumann , Erwin Schrödinger y Albert Einstein pueden ayudarnos a comprender las complejidades de sus propios campos matemáticos y físicos, entonces los científicos de datos no podemos escondernos detrás de la complejidad. , Erwin Schrödinger y Albert Einstein pueden ayudarnos a comprender las complejidades de sus propios campos matemáticos y físicos, entonces los científicos de datos no podemos escondernos detrás de la complejidad.

El papel de un ingeniero es simplificar una tarea. Si alguna vez ha construido o visto una máquina Rube Goldberg , comprenderá la idea de sobre-diseñar una tarea simple. Algunos algoritmos y sistemas de datos de científicos de datos se parecerían más a una loca trampa de ratón unida por cinta adhesiva y goma de mascar en lugar de una solución elegante pero efectiva. Hacer sistemas más simples significa que los sistemas serán más fáciles de mantener a lo largo del tiempo y proporcionar a los científicos de datos futuros la capacidad de agregar y quitar módulos según sea necesario. El próximo científico de datos que tome su posición le agradecerá si crea un marco simple. Por otro lado, si utilizas 3 idiomas diferentes, 2 fuentes de datos, 10 algoritmos y no dejas documentación, entonces solo debes saber que el futuro ingeniero está maldiciendo tu nombre en voz baja.

Los algoritmos y sistemas simples también permiten adiciones y restas más fáciles de realizar. Por lo tanto, a medida que se requieren cambios tecnológicos y actualizaciones o se necesita sacar un módulo. Un pobre científico de datos del futuro no tiene que jugar un juego de Jenga con tu código. Si elimino este bloque de código, ¿se derrumbará todo? ¿Has oído hablar de deuda técnica ?

Saber cómo vincular datos sin claves primarias

Uno de los grandes valores que los expertos en datos sólidos deberían proporcionar es unir conjuntos de datos que podrían no tener una conexión primaria u obvia. Los datos pueden representar las interacciones cotidianas de una persona o empresa. Tener la capacidad de encontrar patrones estadísticos en estos datos es lo que permite a los científicos de datos la capacidad de ayudar a los responsables de la toma de decisiones a tomar decisiones acertadas. Sin embargo, los datos que desea combinar no siempre se encuentran en el mismo sistema o en la misma granularidad.

Aquellos que han trabajado con datos sabrán que no siempre se integran muy bien en una sola base de datos. Los datos financieros a menudo se mantienen separados de los datos de IT Service Management, y las fuentes de datos externas pueden no tener el mismo nivel de agregación. Esto es un problema porque para encontrar valor en los datos a veces se requieren datos de otros departamentos y sistemas.

El mallado de datos requiere piezas de construcción en el mismo nivel de granularidad. Una forma de pensar es tener una gran pieza de rompecabezas unida por otra pieza grande creada por muchos pedazos de datos más pequeños.

Por ejemplo, ¿qué sucede si se le proporcionan reclamos médicos, tarjetas de crédito y tasas penales de vecindarios y desea averiguar cómo estos factores socioeconómicos afectan al paciente? Algunos conjuntos de datos pueden estar en una persona por nivel de persona, mientras que los demás pueden estar en una calle o ciudad sin un método claro para conectar los conjuntos de datos. ¿Cuál es la mejor manera de proceder? Esto se convierte en un problema de diseño que uno debe ser registrado y dos deben ser pensados.

Cada situación es diferente ya que hay muchas formas de combinar datos. Podría basarse en la región, los rasgos, los hábitos de gasto, etc. Esta es la razón por la cual la experiencia es importante. Un científico de datos experimentado tendrá la intuición de cómo se pueden unir los datos. Principalmente porque ya han probado cientos de métodos que no funcionan. Muchas veces, cuanto más cerca se puede combinar ambos conjuntos de datos a persona por persona, mejor. Entonces, si la región o ciudad resulta ser el nivel más bajo (el nivel más bajo se refiere a la granularidad de los datos, como nivel de persona, nivel de hogar, nivel de calle, nivel de ciudad, nivel de estado u otras agrupaciones) de conexión, entonces eso sería una buen lugar para comenzar

Ser capaz de priorizar proyectos

Como científico de datos, debe saber cómo explicar el ROI de los proyectos que podrían no resultar. Esto es solo una buena comunicación directa (Nuestro equipo nunca dejará de hablar sobre comunicación). Se trata de ser capaz de articular el valor y priorizar los objetivos a largo plazo frente a los objetivos a corto plazo (nuevamente, es más fácil decirlo que hacerlo).

Los equipos siempre tendrán más proyectos y solicitudes de proyectos de los que pueden manejar. Los miembros del equipo más experimentados deben tomar la iniciativa y ayudar a sus gerentes a decidir qué proyectos realmente valen la pena. Existe un buen equilibrio entre proyectos rápidos que pueden no tener el ROI más alto pero que tienen buenas posibilidades de tener éxito y proyectos a largo plazo que tienen más probabilidades de fracasar pero también proporcionan un gran ROI.

En este caso, es bueno tener una matriz de decisiones para ayudar a simplificar el proceso.

Una de las matrices de decisión clásicas para proyectos es una matriz de 2 por 2 que es importante y urgente. Esta matriz se puede encontrar en la mayoría de los cursos de negocios en la universidad y es realmente simple. ¡Por eso es genial!

He trabajado en empresas con personas realmente inteligentes. Sin embargo, cada proyecto fue tratado como una prioridad y si no ha escuchado el dicho, lo diremos aquí.

Si todo es una prioridad, nada lo es.

Elegir los proyectos correctos requiere hacer llamadas. No todo es una prioridad.

Muchas otras compañías tienen este problema. Es por eso que es importante que los miembros experimentados de los equipos de ciencia de datos sean capaces de articular claramente qué proyectos realmente deberían hacerse ahora, en vez de más tarde. Por lo tanto, usar la matriz simple hará eso.

(Como dijimos en nuestra última publicación, ser conciso es importante. Usar la matriz para ayudar a especificar el ROI ayudará).

Cuando hay una comunicación concisa y directa, los proyectos continúan avanzando y se genera confianza.

Ser capaz de desarrollar sistemas robustos y óptimos

Hacer un algoritmo o modelo que opere en un entorno controlado es una cosa. Integrar un modelo robusto en un sistema en vivo y que maneja grandes cantidades de datos es una cosa completamente distinta. Dependiendo de la compañía, a veces el científico de datos solo tendrá que desarrollar el algoritmo en sí. Entonces, un desarrollador o un ingeniero de aprendizaje automático será responsable de ponerlo en producción.

Sin embargo, este no es siempre el caso. Las empresas más pequeñas y los equipos más pequeños pueden hacer que el equipo de ciencia de datos ponga el código en producción. Esto significa que el algoritmo debe ser capaz de administrar el tráfico de datos a una velocidad razonable. Si su algoritmo tarda 3 horas en ejecutarse y necesita accederse en vivo. No entrará en producción. Por lo tanto, es necesario un buen diseño y optimización del sistema.

A medida que crecen los datos, y cada vez más personas interactúan con un sistema. Es importante que tu modelo se mantenga al día.

La ciencia de datos es un campo complejo que requiere una comprensión de datos, estadísticas, programación y temas. Para crecer, los científicos de datos deben ser capaces de simplificar y destilar estas complejidades en algoritmos. Necesitan poder concentrarse más en tomar decisiones de diseño. Esto ayuda a maximizar su conocimiento y experiencia que tienen.

Resumen

Los expertos en datos senior proporcionan el mayor impacto para ellos y sus empresas cuando van más allá de sus habilidades técnicas. El valor que aportan es su experiencia, puede ayudar a los desarrolladores más jóvenes a tomar mejores decisiones de diseño y ayudar a los gerentes a tomar mejores decisiones sobre qué proyectos tendrán el mejor ROI. A su vez, esto magnifica el impacto de su participación en el equipo.

Llamada a la acción

¿Es usted un ejecutivo o un director que necesita ayuda para mejorar su comunicación entre su equipo de ciencia de datos y los propietarios de su empresa? Queremos ayudar! Nuestro equipo se especializa en seminarios para ayudar a mejorar la comunicación y el rendimiento de sus equipos impulsados ??por datos. Contáctenos hoy aquí!

¿Interesado en leer más sobre ser un mejor científico de datos?

Cómo crecer como un científico de datos

Impulsar el embolsado y construir mejores algoritmos

Cómo sobrevivir a la política corporativa como científico de datos

8 mejores bibliotecas de Python para el aprendizaje automático

¿Qué es un árbol de decisiones?

4 debe tener habilidades que todo científico de datos debe aprender

Queríamos hacer un seguimiento de nuestro artículo anterior sobre cómo crecer como científico de datos con algunas otras habilidades que los científicos de datos deberían tener. Nuestra esperanza es cerrar la brecha entre los gerentes de negocios y los científicos de datos técnicos mediante la creación de objetivos claros que los científicos de datos senior puedan aspirar. Ambas entidades tienen que enfrentar problemas muy diferentes. Ambos se benefician cuando están en la misma página. Es por eso que la publicación anterior se centró tan altamente en la comunicación. Parece simple, pero la brecha entre los aspectos técnicos y comerciales continúa creciendo a medida que las nuevas tecnologías se siguen acumulando cada año. Por lo tanto, nos parece importante que los gerentes y los científicos de datos tengan un camino claro de expectativas.

Tanto el conocimiento de negocios como el de TI son muy especializados. Sin embargo, debido a esta especialización de habilidades, la mayoría de las empresas ven una brecha entre las dos especializaciones. ¡Nuestro rol es ayudar a llenarlo!

Encontramos que es beneficioso cuando los científicos de datos están comenzando su viaje que se centran principalmente en los aspectos técnicos. Esto significa programación, consultas, limpieza de datos, etc. Sin embargo, a medida que crecen los científicos de datos. Deben enfocarse más en las decisiones de diseño y la comunicación con la administración. Esto multiplicará el impacto del conocimiento más experimentado de los científicos de datos. En lugar de estar atrapado en el día a día de la codificación. Pueden tomar decisiones de mayor nivel y ayudar a los científicos de datos más jóvenes si se estancan. Los científicos de datos más experimentados se benefician más a sí mismos y a sus compañías cuando utilizan su experiencia para ayudar a tomar decisiones de diseño que simplifican los sistemas complejos, optimizan los flujos de datos y ayudan a tomar decisiones sobre qué proyectos son más pertinentes.

Ser capaz de simplificar el complejo

Los científicos de datos tienden a querer utilizar todas las técnicas y algoritmos que conocen en cada problema y en cada solución. A su vez, esto crea sistemas complejos que son difíciles de mantener.

La ciencia de datos requiere modelos complejos y abstractos, así como una gran cantidad de tecnologías complejas (desde Hadoop hasta Tensorflow ). Con toda la complejidad que rodea el campo, es tentador desarrollar sistemas y algoritmos que a su vez sean complejos. Existe la tentación de involucrar a 4 o 5 tecnologías diferentes y utilizar cada nuevo algoritmo o marco. Sin embargo, como la mayoría de los otros campos que tienen alguna ingeniería involucrada. La reducción de la complejidad a menudo es mejor por múltiples razones.

Si John von Neumann , Erwin Schrödinger y Albert Einstein pueden ayudarnos a comprender las complejidades de sus propios campos matemáticos y físicos, entonces los científicos de datos no podemos escondernos detrás de la complejidad. , Erwin Schrödinger y Albert Einstein pueden ayudarnos a comprender las complejidades de sus propios campos matemáticos y físicos, entonces los científicos de datos no podemos escondernos detrás de la complejidad.

El papel de un ingeniero es simplificar una tarea. Si alguna vez ha construido o visto una máquina Rube Goldberg , comprenderá la idea de sobre-diseñar una tarea simple. Algunos algoritmos y sistemas de datos de científicos de datos se parecerían más a una loca trampa de ratón unida por cinta adhesiva y goma de mascar en lugar de una solución elegante pero efectiva. Hacer sistemas más simples significa que los sistemas serán más fáciles de mantener a lo largo del tiempo y proporcionar a los científicos de datos futuros la capacidad de agregar y quitar módulos según sea necesario. El próximo científico de datos que tome su posición le agradecerá si crea un marco simple. Por otro lado, si utilizas 3 idiomas diferentes, 2 fuentes de datos, 10 algoritmos y no dejas documentación, entonces solo debes saber que el futuro ingeniero está maldiciendo tu nombre en voz baja.

Los algoritmos y sistemas simples también permiten adiciones y restas más fáciles de realizar. Por lo tanto, a medida que se requieren cambios tecnológicos y actualizaciones o se necesita sacar un módulo. Un pobre científico de datos del futuro no tiene que jugar un juego de Jenga con tu código. Si elimino este bloque de código, ¿se derrumbará todo? ¿Has oído hablar de deuda técnica ?

Saber cómo vincular datos sin claves primarias

Uno de los grandes valores que los expertos en datos sólidos deberían proporcionar es unir conjuntos de datos que podrían no tener una conexión primaria u obvia. Los datos pueden representar las interacciones cotidianas de una persona o empresa. Tener la capacidad de encontrar patrones estadísticos en estos datos es lo que permite a los científicos de datos la capacidad de ayudar a los responsables de la toma de decisiones a tomar decisiones acertadas. Sin embargo, los datos que desea combinar no siempre se encuentran en el mismo sistema o en la misma granularidad.

Aquellos que han trabajado con datos sabrán que no siempre se integran muy bien en una sola base de datos. Los datos financieros a menudo se mantienen separados de los datos de IT Service Management, y las fuentes de datos externas pueden no tener el mismo nivel de agregación. Esto es un problema porque para encontrar valor en los datos a veces se requieren datos de otros departamentos y sistemas.

El mallado de datos requiere piezas de construcción en el mismo nivel de granularidad. Una forma de pensar es tener una gran pieza de rompecabezas unida por otra pieza grande creada por muchos pedazos de datos más pequeños.

Por ejemplo, ¿qué sucede si se le proporcionan reclamos médicos, tarjetas de crédito y tasas penales de vecindarios y desea averiguar cómo estos factores socioeconómicos afectan al paciente? Algunos conjuntos de datos pueden estar en una persona por nivel de persona, mientras que los demás pueden estar en una calle o ciudad sin un método claro para conectar los conjuntos de datos. ¿Cuál es la mejor manera de proceder? Esto se convierte en un problema de diseño que uno debe ser registrado y dos deben ser pensados.

Cada situación es diferente ya que hay muchas formas de combinar datos. Podría basarse en la región, los rasgos, los hábitos de gasto, etc. Esta es la razón por la cual la experiencia es importante. Un científico de datos experimentado tendrá la intuición de cómo se pueden unir los datos. Principalmente porque ya han probado cientos de métodos que no funcionan. Muchas veces, cuanto más cerca se puede combinar ambos conjuntos de datos a persona por persona, mejor. Entonces, si la región o ciudad resulta ser el nivel más bajo (el nivel más bajo se refiere a la granularidad de los datos, como nivel de persona, nivel de hogar, nivel de calle, nivel de ciudad, nivel de estado u otras agrupaciones) de conexión, entonces eso sería una buen lugar para comenzar

Ser capaz de priorizar proyectos

Como científico de datos, debe saber cómo explicar el ROI de los proyectos que podrían no resultar. Esto es solo una buena comunicación directa (Nuestro equipo nunca dejará de hablar sobre comunicación). Se trata de ser capaz de articular el valor y priorizar los objetivos a largo plazo frente a los objetivos a corto plazo (nuevamente, es más fácil decirlo que hacerlo).

Los equipos siempre tendrán más proyectos y solicitudes de proyectos de los que pueden manejar. Los miembros del equipo más experimentados deben tomar la iniciativa y ayudar a sus gerentes a decidir qué proyectos realmente valen la pena. Existe un buen equilibrio entre proyectos rápidos que pueden no tener el ROI más alto pero que tienen buenas posibilidades de tener éxito y proyectos a largo plazo que tienen más probabilidades de fracasar pero también proporcionan un gran ROI.

En este caso, es bueno tener una matriz de decisiones para ayudar a simplificar el proceso.

Una de las matrices de decisión clásicas para proyectos es una matriz de 2 por 2 que es importante y urgente. Esta matriz se puede encontrar en la mayoría de los cursos de negocios en la universidad y es realmente simple. ¡Por eso es genial!

He trabajado en empresas con personas realmente inteligentes. Sin embargo, cada proyecto fue tratado como una prioridad y si no ha escuchado el dicho, lo diremos aquí.

Si todo es una prioridad, nada lo es.

Elegir los proyectos correctos requiere hacer llamadas. No todo es una prioridad.

Muchas otras compañías tienen este problema. Es por eso que es importante que los miembros experimentados de los equipos de ciencia de datos sean capaces de articular claramente qué proyectos realmente deberían hacerse ahora, en vez de más tarde. Por lo tanto, usar la matriz simple hará eso.

(Como dijimos en nuestra última publicación, ser conciso es importante. Usar la matriz para ayudar a especificar el ROI ayudará).

Cuando hay una comunicación concisa y directa, los proyectos continúan avanzando y se genera confianza.

Ser capaz de desarrollar sistemas robustos y óptimos

Hacer un algoritmo o modelo que opere en un entorno controlado es una cosa. Integrar un modelo robusto en un sistema en vivo y que maneja grandes cantidades de datos es una cosa completamente distinta. Dependiendo de la compañía, a veces el científico de datos solo tendrá que desarrollar el algoritmo en sí. Entonces, un desarrollador o un ingeniero de aprendizaje automático será responsable de ponerlo en producción.

Sin embargo, este no es siempre el caso. Las empresas más pequeñas y los equipos más pequeños pueden hacer que el equipo de ciencia de datos ponga el código en producción. Esto significa que el algoritmo debe ser capaz de administrar el tráfico de datos a una velocidad razonable. Si su algoritmo tarda 3 horas en ejecutarse y necesita accederse en vivo. No entrará en producción. Por lo tanto, es necesario un buen diseño y optimización del sistema.

A medida que crecen los datos, y cada vez más personas interactúan con un sistema. Es importante que tu modelo se mantenga al día.

La ciencia de datos es un campo complejo que requiere una comprensión de datos, estadísticas, programación y temas. Para crecer, los científicos de datos deben ser capaces de simplificar y destilar estas complejidades en algoritmos. Necesitan poder concentrarse más en tomar decisiones de diseño. Esto ayuda a maximizar su conocimiento y experiencia que tienen.

Resumen

Los expertos en datos senior proporcionan el mayor impacto para ellos y sus empresas cuando van más allá de sus habilidades técnicas. El valor que aportan es su experiencia, puede ayudar a los desarrolladores más jóvenes a tomar mejores decisiones de diseño y ayudar a los gerentes a tomar mejores decisiones sobre qué proyectos tendrán el mejor ROI. A su vez, esto magnifica el impacto de su participación en el equipo.

Llamada a la acción

¿Es usted un ejecutivo o un director que necesita ayuda para mejorar su comunicación entre su equipo de ciencia de datos y los propietarios de su empresa? Queremos ayudar! Nuestro equipo se especializa en seminarios para ayudar a mejorar la comunicación y el rendimiento de sus equipos impulsados ??por datos. Contáctenos hoy aquí!

¿Interesado en leer más sobre ser un mejor científico de datos?

Cómo crecer como un científico de datos

Impulsar el embolsado y construir mejores algoritmos

Cómo sobrevivir a la política corporativa como científico de datos

8 mejores bibliotecas de Python para el aprendizaje automático

¿Qué es un árbol de decisiones?