Cómo ser un Data Scientist
Lo cierto es que los datos están ganando cada vez más importancia entre nuestra sociedad. La información permite a las empresas saber que les interesa más a sus clientes y poder ofrecerles lo más óptimo para ellos.
Esta es la razón por la que las empresas no paran de almacenar datos de sus clientes y de comprar información a otras compañías de personas que podrían estar interesadas en su producto.
¿Te ha pasado alguna vez que te llaman de una compañía de seguros y nunca les habías dado tu número de teléfono?
¿Te aparecen anuncios en Instagram o Facebook de temáticas que has hablado con familiares o amigos?
Por qué estudiar Big Data
¿Estás pensando en estudiar Big Data? Te contamos los motivos principales por lo que deberías estudiar Big Data si te gusta la tecnología.
Ver artículoDetrás de estas preguntas se encuentra un grupo de científicos de datos o data scientists.
Estos expertos de los datos son capaces de recoger todo tipo de información y convertirla en conclusiones palpables. Es decir, interpretan dichos datos y crean modelos con ellos.
Algunos de los objetivos de los data scientists son:
- Predicción de ventas en comercios.
- Creación de modelos de detección de fraudes en banca.
- Detección de patrones en el material genético que cause algún tipo de enfermedad.
- Generación de modelos de inteligencia artificial para coches autónomos.
Estos profesionales necesitan tener diferentes habilidades para poder desempeñar su trabajo de forma efectiva. Seguidamente te mostramos que tienes que dominar para convertirte en un buen data scientist.
Habilidades para trabajar como Data Scientist
La ciencia de datos es una área multidisciplinar por lo que un buen científico de datos debe ser capaz de dominar diferentes campos de la ciencia y tecnología:
Otros posts que te gustarán
Matemáticas
Es realmente importante tener un dominio avanzado de matemáticas. Campos como la estadística o el álgebra lineal son esenciales para modelar los datos de forma estadística y poder generar modelos de machine learning.
Otro campo de las matemáticas muy importante es la teoría de grafos. Este objeto matemático es una forma muy útil de modelar los datos y las conexiones entre ellos con lo que es esencial para dominar las bases de datos, sobre todo las bases de datos orientadas a grafos .
Machine learning y deep learning
El machine learning es la habilidad de crear modelos matemáticos que son capaces de inferir nuevos datos a partir de los existentes. El deep learning es un subcampo del machine learning que modela la información usando lo que se conoce como redes neuronales profundas.
Es importante que el profesional de los datos sepa cómo generar modelos fiables y hacer un diagnóstico de su efectividad. También debe saber que tipo de arquitectura aplicar en cada problema.
Algunas de las técnicas matemáticas que se incluyen dentro del machine learning son: las redes neuronales (recurrentes, convolucionales, prealimentada etc.), K vecinos más próximos, técnicas de clusterización como k-means clustering, reducción de la dimensión entre otras.
Big Data
Aunque esta habilidad no sea obligatoria para un data scientist ya que existen los ingenieros big data, entender las tecnologías distribuidas y saber cómo se manejan grandes cantidades de información de forma efectiva es muy positivo para una data scientist y puede que sea escogido en un puesto laboral frente a otro que no sepa nada de big data.
Algunos de los frameworks más importantes a dominar son Spark, Hive, Cassandra o Kafka. Todos pertenecen a la fundación Apache.
También es importante saber cómo correr aplicaciones dentro de un contenedor o microservicio usando la tecnología de docker. Como punto extra, también es recomendable tener nociones de lo que es Kubernetes.
Bases de datos
Este punto es crucial si quieres optar a un trabajo como data scientist. Un experto en ciencia de datos tiene que ser capaz de trabajar con todo tipo de base de datos con los ojos cerrados.
El primer punto es ser un experto en bases de datos del tipo relacional como Mysql, MariaDb o PosgreSQL y saber realizar consultas utilizando el lenguaje declarativo SQL (Structured Query Language).
Es recomendable saber gestionar bases de datos SQL en arquitecturas distribuidas utilizando técnicas como el sharding.
El otro tipo de base de datos crucial para un científico de datos son las no relacionales o NoSQL .
La más famosa es MongoDB pero existen otras que permiten trabajar de forma distribuida como Cassandra o Redis.
Si quieres ser de los mejores, entonces dominar las bases de datos orientadas a grafos como Neo4j o Amazon Neptune hará que lo seas.
Así que ya sabes, si estás pensando en convertirte en data scientist, vuélvete un experto en todo tipo de bases de datos.
Lenguajes de programación
Saber programar, igual que dominar las bases de datos, es imprescindible. El lenguaje más recomendable y el más usado en este campo es Python.
Este lenguaje es sencillo de aprender y permite hacer todo tipo de análisis de datos usando librerías como Pandas además de permitirte entrenar todo tipo de modelos de inteligencia artificial utilizan Pytorch o Tensorflow.
El lenguaje para estadística llamado R también permite hacer las operaciones que acabamos de mencionar. No obstante, está cada vez más en desuso y las empresas piden que sus empleados tengan un alto nivel en Python.
Si te interesa el mundo del Big Data entonces es recomendable aprender Scala y Java ya que la mayoría de frameworks del ecosistema de Hadoop están escritos en estos lenguajes.
Buena capacidad de comunicación
Una parte muy importante del trabajo de un científico de datos es ser capaz de transmitir las conclusiones sacadas del análisis de la información a otros departamentos como por ejemplo, de marketing o de ventas.
Transmitir las conclusiones a personas que son totalmente ajenas al mundo del análisis de datos es difícil. Por lo que tendrás que expresarte de forma sencilla y ayudarte de figuras y gráficos para hacer la explicación más fácil y amena.
Esto indirectamente implica que tienes que dominar librerías de generación de gráficos. Puedes hacerlos con excel, matplotlib (Python) o R.
Cómo aprender Data Science
Una vez sabemos las habilidades que tenemos que adquirir para ser el mejor científico de datos entonces nos queda solventar la siguiente pregunta.
¿Cómo aprendemos todas las habilidades anteriores?
Actualmente no hace falta ser un graduado en ingeniería informática para poder trabajar en esto. Yo mismo tengo la carrera de bioquímica y he trabajado varios años en empresas como data scientist.
Eso sí. Es muy importante formarse para poder optar a este trabajo.
Es recomendable acceder a los cursos de plataformas como Udemy, Coursera o Domestika y buscar cursos sobre las habilidades que hemos mencionado anteriormente. Podemos combinar el aprendizaje con libros y otros recursos como PDFs.
Otra opción más cara es realizar algún máster oficial sobre data science en alguna universidad de tu país.
Una vez domines un poco de todo entonces puedes aplicar a trabajos para entrar con una posición junior o de prácticas. Cobrarás menos pero allí podrás acabar de formarte y optar a posiciones más altas donde los sueldos acostumbran a ser muy elevados, bastante por encima de la media del país.
Consejos para convertirse en un buen data scientist
Cuando estés trabajando en algún proyecto como data scientist es importante que antes de empezar a modelar conozcas el producto o el negocio a fondo.
Una vez tengas un buen conocimiento y empieces a modelar es recomendable probar diferentes métodos y ver cuál funciona mejor para el problema que queremos solventar.
El punto más importante es hacer un buen diagnóstico de nuestro modelo final y analizar si sufre de overfitting o underfitting ya que esto es un indicativo de que nuestro modelo no es el más óptimo.