menu EXPLORA
history RECIENTE

Cursos spark con Scala, Python y Java

Spark es el framework Big Data más usado por las empresas de todo el mundo. Por esta razón, dominarlo supone una gran ventaja a la hora de encontrar trabajo o adquirir mejores posiciones dentro de una empresa tecnológica.

Aprender Apache Spark para Big Data

En esta sección hemos hecho una recopilación de cursos donde se introduce el framework de Apache Spark enseñando a manipular grandes volúmenes de datos distribuidos de forma paralela en un clúster virtual.

Los lenguajes usados en los diferentes cursos son la terminal de UNIX o Windows, Python a través de la API de Pyspark, Scala y Java.

Muchos de los cursos incluyen una introducción a otras aplicaciones del ecosistema de Hadoop como pueden ser Hive, Sqoop, Flume o Kafka.

9 aplicaciones y ejemplos del big data en la sociedad

9 aplicaciones y ejemplos del Big Data en la sociedad

El Big Data es usado actualmente en muchos sectores distintos. El manejo de grandes volúmenes de datos aporta muchos beneficios a empresas de todo el mundo.

Ver artículo

Estas otros frameworks del ecosistema de Hadoop pueden conectarse a Spark con lo que, combinándolos, podemos conseguir una solución a cada problema Big Data que tengamos.

La gran parte de los cursos que hemos escogidos introducen el core de Spark junto a sus componentes: SparkSQL, Spark Streaming, Spark MLlib y Graphx.

En cada uno de los cursos hemos hecho una descripción para que el usuario pueda saber si se adapta a sus necesidades o no. Además, hemos incluido los objetivos, el temario y un resumen de las valoraciones de la plataforma de Udemy donde se imparten dichos cursos.

Apache Spark with Scala – Hand on with Big Data

Este es el curso de Spark en Scala más popular de la Plataforma de Udemy. Está pensado para gente que quiera introducirse en el mundo del procesamiento distribuido haciendo uso de Spark y programando con su lenguaje de programación nativo: scala.

En él encontrarás una pequeña introducción teórica de como funciona Spark por dentro y de los tipos de objetos que usa para manipular datos de forma distribuida sobre un sistema de archivos distribuido como puede ser HDFS.

Otros posts que te gustarán

  1. Qué es Apache Spark
  2. Ventajas de blockchain

El curso se basa en la práctica haciendo uso de grandes conjuntos de datos. Estos datos son procesados usando los distintos componentes de spark: sparkSQL, Spark Streaming, Spark ML y Graphx.

Una vez acabado el curso introductorio se ofrece la posibilidad de adquirir más cursos para mejorar y tener un nivel más avanzado de estas tecnologías Big Data.

Tiempo del curso : 9 horas

Dispositivos : ordenador, móviles y TV

Garantía : 30 días

Idioma : inglés

Los objetivos de este curso de Spark son:

1. Enfrentarse a problemas típicos de Big Data

2. Optimizar los procesos de spark a través de técnicas de partición de datasets entre otras

3. Procesar datos de tiempo real en Spark Streaming

4. Utilizar técnicas de machine learning sobre datos distribuidos a través de MLlib

5. Aplicar transformaciones sobre los datos usando el módulo SparkSQL

1. Curso inicial de programación en Scala

2. Uso de objetos de Spark RDD

3. Módulo de SparkSQL: Dataframes y Datasets

4. Ejemplos de uso de Spark

5. Correr Spark en un clúster de forma distribuida

6. Machine learning con el componente de Spark ML

7. Introducción a proceso de datos en tiempo real con Spark Streaming

8. Introducción a GraphX

Este curso es uno de los mejores para empezar a dominar Spark usando Scala. EL profesor Frank Kane da una extensa explicación de los componentes de Spark más importantes como son los RDDs, los Dataframes o los Datasets.

Además, se proponen diferentes ejercicios prácticos para asentar los conceptos dados en la clase teórica.

Frank Kane es sin duda uno de los mejores profesores con quien empezar a aprender en el mundo Big Data ya que tiene a sus espaldas una larga trayectoria enseñando a miles y miles de alumnos de todo el mundo.

Domina Apache Spark 2.0 con Scala

Este programa de Apache Spark con Scala está pensado para aprender los fundamentos de Spark usando Scala como lenguaje de programación.

Se usan efectos prácticos para enseñar al alumno a solucionar problemas reales a través de las tecnologías distribuidas de Big Data.

El curso empieza dando instrucciones de como instalar java, git y otros componentes necesarios para la ejecución de Spark. Seguidamente se hace una breve introducción a los objetos RDD y las ventajas de usar esta tecnología Big Data.

Se muestran de forma práctica el uso de métodos para manipular datos como filtros, agrupaciones o mapeos.

Una vez introducido el funcionamiento del core de Spark el curso se enfoque en manejar grandes cantidades de datos empleando el módulo de SparkSQL donde a través de sentencias parecidas a SQL podemos trabajar con grandes volúmenes de datos de forma distribuida.

Tiempo del curso : 4 horas

Dispositivos : ordenador, móviles y TV

Garantía : 30 días

Idioma : castellano

Certificado de finalización

1. Aprender la arquitectura del core de Spark

2. Uso de operaciones sobre objetos RDD (Resilient Distributed Datasets)

3. Mejora del rendimiento usando caches y persistencia

4. Ser capaz de escalar aplicaciones en un cluster de Hadoop empleando Elastic MapReduce

1. Introducción a Apache Spark: Instalación y configuración del proyecto

2. Uso de los RDDs: transformaciones de RDDs a través de operaciones sobre datos

3. Arquitectura y componentes de Spark

4. Introducción a SparkSQL

5. Ejecución distribuida de Spark en Clúster

El contenido de este curso es adecuado para profundizar sobre el uso de Apache Spark y SparkSQL en clusters distribuidos. La mayoría de alumnos que han participado comentan que es necesario un conocimiento básico previo del lenguaje de programación Scala y de sistemas operativos como Linux ya que durante el curso se da por supuesto que el alumno sabe programar en dicho lenguaje.

Spark y Python en AWS para Big Data

Este curso está pensado para introducir al alumno al uso de los servicios de Amazon Web Server (AWS) con Apache Spark. En este caso el lenguaje utilizado es Python en vez de Scala.

Se empieza creando una cuenta en AWS y configurando la notebook de Jupyter para funcionar con la creación de la máquina virtual EC2. También se realizan la configuración de Spark.

El curso avanza con una introducción a Apache Spark. Se detalla las transformaciones que permite realizar de los datos de forma distribuida como filtros, agrupaciones o mapeos.

A continuación, se enseña el uso de SparkSQL a través de comandos parecidos a los de bases de datos relacionales como agregaciones y filtros. Esto permite tratar datos de forma distribuida de forma muy sencilla empleando lenguaje natural.

Finalmente se introduce MLlib, un componente de Spark que permite realizar técnicas estadísticas sobre un conjunto de datos distribuido.

Tiempo del curso : 4,5 horas

Dispositivos : ordenador, móviles y TV

Garantía : 30 días

Idioma : español

Certificación de finalización

1. Aprender sobre Big Data y computación paralela/distribuida

2. Uso de SparkSQL y objetos dataframes con pyspark

3. Uso de la librería de MLlib para crear modelos estadísticos

1. Introducción a Big Data y Spark

2. Configuración de Spark en AWS

3. Introducción a expresiones lambda, transformaciones y acciones

4. Importancia de los RDDs y clave-valor

5. Mejora de optimización con caché y persistencia de datos

6. Explicación y uso de los dataframes en SparkSQL

7. Explicación y ejemplos de la utilización del componente MLlib

En general, los alumnos que han realizado el curso están contentos de la formación recibida. Destacan que está pensado para gente que acaba de iniciarse en el mundo del Big Data ya que se detallan los conceptos básicos.

Se basa mayoritariamente en la practica, aunque alguna gente menciona que sería interesante añadir un poco más de teoría en la parte inicial del curso.

La sección de introducción a la librería de machine learning de Spark, MLlib, podría extenderse ya que solo se incluye un ejemplo de uso con regresión lineal cuando dicha librería incluye modelos de clusterización, arboles de decisión entre otros.

Curso de Big Data con Hadoop y Spark desde cero

Este es un completo curso que explica a usar Hadoop y diferentes componentes de su ecosistema como Spark, Sqoop, Pig o Flume haciendo una extensa introducción a las tecnologías usadas en el sector del Big Data.

El alumno aprenderá a configurar el ecosistema de aplicaciones Big Data en un clúster virtualizado de Cloudera. Es recomendable saber las bases del lenguaje de programación de Java ya que todos estos frameworks están escritos en dicho lenguaje.

Tiempo del curso: 4,5 horas

Dispositivos : ordenador, móviles y TV

Garantía : 30 días

Idioma : español

Certificación de finalización

1. Aprender las bases de las herramientas principales empleadas en el mundo de los datos

2. Crear aplicaciones Big Data combinando distintas tecnologías big data como Spark o Hive

3. Procesamiento de grandes cantidades de información con MapReduce

4. Ser capaz de procesar y manipular datos guardados en un sistema de ficheros distribuido empleando Spark

5. Introducción al gestor de recursos de YARN (Yet Another Resource Negotiator)

6. Aprender a almacenar datos en el sistema de ficheros distribuido de Hadoop (HDFS)

1. Aprender a almacenar datos en el sistema de ficheros distribuido de Hadoop (HDFS)

2. Gestionar datos a través de HDFS

3. Procesamiento de datos con operaciones de MapReduce

4. Consulta de datos con Hive

5. Dominar los flujos de datos con Apache Flume

6. Procesamiento de datos con Apache Pig

7. Procesamiento de datos en tiempo real con Spark Streaming

Este es un curso donde han participado hasta la fecha más de 1000 alumnos. Destacan que la profesora va directamente al grano, explicando las cosas más importantes de cada tecnología, perfecto para tener una visión global de la arquitectura Big Data.

La profesora introduce el sistema de Hadoop en la distribución de Cloudera con un enfoque especial a Spark. Algunos alumnos mencionan que serian necesarios algunos ejemplos practicos más.

Es importante dedicar tiempo para asimilar los scripts de programación entregados por la profesora para asegurar asimilar al máximo el temario impartido.

X

Aprende más sobre física, tecnología y programación en nuestra newsletter

Estamos preparando la newsletter... los 1000 primeros que se apunten tendrán regalos exclusivos.