menu EXPLORAR
history NOVIDADES

Análise exploratória de dados

As metodologias de exploração de dados são normalmente o primeiro passo antes de prosseguir com técnicas estatísticas avançadas, como estatística inferencial ou aprendizagem autónoma.

A análise exploratória de dados ou também conhecida como EDA pela sigla em inglês “Análise exploratória de dados” é uma parte da matemática estatística que utiliza ferramentas para descrever qualitativamente as principais características dos dados.

Gráficos e métricas são usados ​​para resumir os dados de interesse para tirar conclusões iniciais sobre as relações entre variáveis ​​e possíveis correlações.

Técnicas gráficas para exploração de dados

O primeiro passo quando começamos a analisar um novo conjunto de dados é representar graficamente as diferentes variáveis ​​para começar a entender quais informações podemos extrair delas.

Algumas das técnicas básicas de exploração e análise de informações são as seguintes:

Gráficos de caixa ou boxplots

Box plots ou em inglês, boxplots, são um tipo de gráfico que permite ver a distribuição dos dados em forma de caixa.

Eles representam os diferentes quartis da distribuição juntamente com a média, o desvio padrão e os outliers. Este tipo de gráfico nos dá uma primeira visão do formato dos dados e como eles estão distribuídos em nosso conjunto de dados.

análise de dados com diagramas

Histogramas

Histogramas são gráficos que descrevem uma variável por meio de barras onde sua área é diretamente proporcional à frequência dos valores em nossos dados.

Existem diferentes tipos de gráficos de histograma, cada um com um objetivo específico de compreensão dos dados.

É altamente recomendável utilizar este tipo de visualizações para compreender nossas variáveis ​​quando realizamos as fases iniciais de exploração e análise de dados.

análise de dados com histogramas

Mapas de calor ou mapas de calor

Os mapas de calor são um tipo de gráfico utilizado em diversos setores para analisar as magnitudes de uma variável de acordo com sua cor. Normalmente, a gama de cores utilizadas vai do azul ao vermelho, sendo o azul os valores mais baixos e o vermelho os mais altos.

Este tipo de exploração de dados é utilizado em diversas áreas, como biologia molecular para detectar o nível de expressão dos genes ou marketing digital para saber quais partes do site onde os usuários interagem mais.

analisar dados com mapas de calor

Gráficos de dispersão

Este tipo de gráfico permite estudar a relação entre pares de variáveis ​​(x,y) através de um diagrama formado por uma nuvem de pontos. Graças a esta análise podemos ver variáveis ​​​​relacionadas através de uma correlação direta ou inversa (diretamente proporcional ou inversamente proporcional).

Quando usar a exploração de dados

A resposta é sempre. Este tipo de análise inicial permite-nos começar a tirar conclusões dos nossos dados e pode orientar-nos na definição da estratégia de análise de dados.

Além disso, nesta etapa podemos detectar a qualidade do conjunto de dados recebido e desenhar uma boa metodologia para limpar os dados, melhorando sua qualidade e melhorando os resultados da análise.

Ferramentas para exploração de dados

Existem muitas ferramentas avançadas para análise de dados. Eles são projetados para realizar metodologias de business intelligence ou aprendizado de máquina.

Porém, para fazer uma análise exploratória inicial não precisamos de nenhuma ferramenta paga. Podemos usar diretamente uma planilha como Excel ou Planilhas Google.

Estes programas permitem-nos abrir os dados e criar diversos gráficos para começar a ter uma ideia de como é a informação que recebemos.

Minha ferramenta favorita são as linguagens de programação Python ou R. Elas possuem diversas bibliotecas voltadas para análise de dados. Se dominarmos qualquer uma dessas duas linguagens, poderemos criar gráficos diferentes de forma rápida e eficaz.