menu EXPLORAR
history NOVIDADES

Cursos Spark com Scala, Python e Java

Spark é o framework de Big Data mais utilizado por empresas ao redor do mundo. Por isso, dominá-lo é uma grande vantagem na hora de encontrar um emprego ou adquirir melhores cargos em uma empresa de tecnologia.

Aprenda Apache Spark para Big Data

Nesta seção fizemos uma compilação de cursos onde é introduzido o framework Apache Spark, ensinando como manipular grandes volumes de dados distribuídos em paralelo em um cluster virtual.

As linguagens utilizadas nos diferentes cursos são o terminal UNIX ou Windows, Python através da API Pyspark, Scala e Java.

Muitos dos cursos incluem uma introdução a outras aplicações do ecossistema Hadoop, como Hive, Sqoop, Flume ou Kafka.

Esses outros frameworks do ecossistema Hadoop podem se conectar ao Spark para que, ao combiná-los, possamos alcançar uma solução para todos os problemas de Big Data que tivermos.

A maioria dos cursos que escolhemos apresentam o núcleo Spark junto com seus componentes: SparkSQL, Spark Streaming, Spark MLlib e Graphx.

Em cada um dos cursos fizemos uma descrição para que o usuário saiba se se adapta ou não às suas necessidades. Além disso, incluímos os objetivos, o plano de estudos e um resumo das avaliações da plataforma Udemy onde esses cursos são ministrados.

Apache Spark com Scala – Prática com Big Data

Este é o curso Spark in Scala mais popular na plataforma Udemy. Ele foi projetado para pessoas que desejam entrar no mundo do processamento distribuído usando Spark e programando com sua linguagem de programação nativa: scala.

Nele você encontrará uma pequena introdução teórica sobre como o Spark funciona internamente e os tipos de objetos que ele usa para manipular dados de forma distribuída em um sistema de arquivos distribuído como o HDFS.

O curso é baseado na prática usando grandes conjuntos de dados. Esses dados são processados ​​usando os diferentes componentes spark: sparkSQL, Spark Streaming, Spark ML e Graphx.

Terminado o curso introdutório, é oferecida a possibilidade de adquirir mais cursos para aprimorar e ter um nível mais avançado dessas tecnologias de Big Data.

Tempo do curso : 9 horas

Dispositivos : computador, celulares e TV

garantia : 30 dias

Linguagem : Inglês

Os objetivos deste curso Spark são:

1. Enfrente problemas típicos de Big Data

2. Otimize os processos do Spark por meio de técnicas de particionamento de conjuntos de dados, entre outras

3. Processe dados em tempo real no Spark Streaming

4. Use técnicas de aprendizado de máquina em dados distribuídos por meio de MLlib

5. Aplique transformações nos dados usando o módulo SparkSQL

1. Curso inicial de programação em Scala

2. Usando objetos Spark RDD

3. Módulo SparkSQL: Dataframes e conjuntos de dados

4. Exemplos de uso do Spark

5. Execute o Spark em um cluster de forma distribuída

6. Aprendizado de máquina com o componente Spark ML

7. Introdução ao processamento de dados em tempo real com Spark Streaming

8. Introdução ao GraphX

Este curso é um dos melhores para começar a dominar o Spark usando Scala. O professor Frank Kane dá uma explicação extensa dos componentes mais importantes do Spark, como RDDs, Dataframes ou Datasets.

Além disso, são propostos diversos exercícios práticos para estabelecer os conceitos ministrados na aula teórica.

Frank Kane é sem dúvida um dos melhores professores para começar a aprender no mundo do Big Data, pois tem uma longa história ensinando milhares e milhares de alunos de todo o mundo.

Domine o Apache Spark 2.0 com Scala

Este programa Apache Spark com Scala foi projetado para aprender os fundamentos do Spark usando Scala como linguagem de programação.

Efeitos práticos são utilizados para ensinar o aluno a resolver problemas reais por meio de tecnologias distribuídas de Big Data.

O curso começa dando instruções sobre como instalar java, git e outros componentes necessários para executar o Spark. Abaixo está uma breve introdução aos objetos RDD e as vantagens de usar esta tecnologia de Big Data.

A utilização de métodos para manipulação de dados como filtros, agrupamentos ou mapeamentos são mostrados de forma prática.

Uma vez introduzido o funcionamento do núcleo Spark, o curso se concentra no gerenciamento de grandes quantidades de dados usando o módulo SparkSQL onde através de instruções do tipo SQL podemos trabalhar com grandes volumes de dados de forma distribuída.

Tempo do curso : 4 horas

Dispositivos : computador, celulares e TV

garantia : 30 dias

Linguagem : Castelhano

Certificado de conclusão

1. Aprenda a arquitetura do núcleo Spark

2. Uso de operações em objetos RDD (Resilient Distributed Datasets)

3. Melhor desempenho usando caches e persistência

4. Ser capaz de dimensionar aplicativos em um cluster Hadoop usando Elastic MapReduce

1. Introdução ao Apache Spark: instalação e configuração do projeto

2. Uso de RDDs: transformações de RDDs através de operações sobre dados

3. Arquitetura e componentes do Spark

4. Introdução ao SparkSQL

5. Execução Distribuída Spark em Cluster

O conteúdo deste curso é adequado para aprofundar o uso do Apache Spark e SparkSQL em clusters distribuídos. A maioria dos alunos participantes comenta que é necessário um conhecimento básico prévio da linguagem de programação Scala e de sistemas operacionais como Linux, pois durante o curso se presume que o aluno saiba programar nessa linguagem.

Spark e Python na AWS para Big Data

Este curso foi desenvolvido para apresentar ao aluno o uso dos serviços Amazon Web Server (AWS) com Apache Spark. Neste caso a linguagem utilizada é Python em vez de Scala.

Você começa criando uma conta AWS e configurando o notebook Jupyter para funcionar com a criação da máquina virtual EC2. A configuração do Spark também é executada.

O curso progride com uma introdução ao Apache Spark. São detalhadas as transformações que permitem realizar os dados de forma distribuída, como filtros, agrupamentos ou mapeamentos.

A seguir, o uso do SparkSQL é ensinado por meio de comandos semelhantes aos dos bancos de dados relacionais, como agregações e filtros. Isso permite que os dados sejam processados ​​de forma distribuída e de forma muito simples, utilizando linguagem natural.

Por fim, é apresentado o MLlib, um componente Spark que permite realizar técnicas estatísticas em um conjunto de dados distribuídos.

Tempo do curso : 4,5 horas

Dispositivos : computador, celulares e TV

garantia : 30 dias

Linguagem : Espanhol

Certificação de Conclusão

1. Aprenda sobre Big Data e computação paralela/distribuída

2. Usando objetos SparkSQL e dataframe com pyspark

3. Uso da biblioteca MLlib para criar modelos estatísticos

1. Introdução ao Big Data e Spark

2. Configurando o Spark na AWS

3. Introdução às expressões, transformações e ações lambda

4. Importância dos RDDs e valor-chave

5. Melhoria de otimização com cache e persistência de dados

6. Explicação e uso de dataframes no SparkSQL

7. Explicação e exemplos de uso do componente MLlib

Em geral, os alunos que realizaram o curso estão satisfeitos com a formação recebida. Eles destacam que foi pensado para quem está começando no mundo do Big Data, já que os conceitos básicos são detalhados.

Baseia-se principalmente na prática, embora algumas pessoas mencionem que seria interessante acrescentar um pouco mais de teoria na parte inicial do curso.

A seção de introdução à biblioteca de aprendizado de máquina Spark, MLlib, poderia ser estendida, pois inclui apenas um exemplo de uso com regressão linear quando a referida biblioteca inclui modelos de clustering, árvores de decisão, entre outros.

Curso Big Data com Hadoop e Spark do zero

Este é um curso completo que explica como usar o Hadoop e diferentes componentes de seu ecossistema como Spark, Sqoop, Pig ou Flume, proporcionando uma extensa introdução às tecnologias utilizadas no setor de Big Data.

O aluno aprenderá como configurar o ecossistema de aplicações Big Data em um cluster Cloudera virtualizado. É aconselhável conhecer o básico da linguagem de programação Java, pois todos esses frameworks são escritos nessa linguagem.

Duração do curso: 4,5 horas

Dispositivos : computador, celulares e TV

garantia : 30 dias

Linguagem : Espanhol

Certificação de Conclusão

1. Aprenda o básico das principais ferramentas utilizadas no mundo dos dados

2. Crie aplicativos de Big Data combinando diferentes tecnologias de Big Data, como Spark ou Hive

3. Processando grandes quantidades de informações com MapReduce

4. Ser capaz de processar e manipular dados armazenados em um sistema de arquivos distribuído usando Spark

5. Introdução ao gerenciador de recursos YARN (Yet Another Resource Negotiator)

6. Aprenda a armazenar dados no sistema de arquivos distribuídos Hadoop (HDFS)

1. Aprenda a armazenar dados no sistema de arquivos distribuído Hadoop (HDFS)

2. Gerencie dados via HDFS

3. Processamento de dados com operações MapReduce

4. Consulta de dados com Hive

5. Fluxos de dados mestres com Apache Flume

6. Processamento de dados com Apache Pig

7. Processamento de dados em tempo real com Spark Streaming

Este é um curso onde mais de 1000 alunos já participaram até o momento. Eles destacam que o professor vai direto ao ponto, explicando o que há de mais importante em cada tecnologia, perfeito para ter uma visão global da arquitetura de Big Data.

O professor apresenta o sistema Hadoop à distribuição Cloudera com foco especial no Spark. Alguns alunos mencionam que seriam necessários mais alguns exemplos práticos.

É importante dedicar tempo para assimilar os roteiros de programação entregues pelo professor para garantir que você assimile o máximo possível o conteúdo programático ensinado.