menu EXPLORAR
history NOVIDADES

O que é um conjunto de dados

No blog abdatum temos mencionou o termo conjunto de dados em vários artigos . Nós, cientistas de dados, pegamos emprestada essa palavra do inglês e a usamos constantemente para falar sobre nossos projetos de dados. aprendizado de máquina, inteligência de negócios qualquer grandes dados.

Neste artigo Vou te contar o que é exatamente um conjunto de dados, sua importância na ciência de dados e onde você pode encontrar conjuntos de dados como exemplo para que você possa observar como eles são e fazer experiências com eles.

O que são conjuntos de dados e sua importância

A palavra conjunto de dados significa literalmente conjunto de dados. Esses dados normalmente são tabulados em linhas e colunas para facilitar a análise das informações.

Todo projeto de inteligência artificial, ou em geral, que utiliza dados, obtém um bom conjunto de dados ou conjunto de dados É o primeiro passo de toda a metodologia. Todos os algoritmos de análise de dados são altamente dependentes da qualidade da informação. Se os dados estiverem errados, as conclusões que tirarmos também estarão erradas.

Por esta razão, Obter uma fonte confiável de dados é a coisa mais difícil na ciência de dados. Muitas vezes são necessários processos de limpeza e transformação de dados para melhorar sua qualidade e tornar mais confiáveis ​​os modelos estatísticos que geramos.

Tipos de conjuntos de dados ou conjuntos de dados

Podemos diferenciar diferentes tipos de conjuntos de dados dependendo de como eles são estruturados e armazenados.

arquivos

Existem vários formatos de arquivo que permitem salvar dados. Alguns dos formatos mais usados ​​para conjuntos de dados são .csv e .tab. A maioria das ferramentas de análise de dados aceita esses arquivos como fontes de dados.

Formatos Excel como .xlsx também são arquivos que podem atuar como um conjunto de dados para um projeto de big data ou análise de dados.

Páginas da web

Sites podem ser usados ​​para armazenar dados. As informações ficam salvas no servidor onde o site está hospedado e podemos acessar a página e extrair as informações que precisamos analisar.

Bases de dados

Os bancos de dados são a forma mais otimizada de armazenar nossos conjuntos de dados. Normalmente, para ter uma estrutura tabular, a chamada bancos de dados relacionais que utilizam o modelo relacional para estabelecer relacionamentos entre as diferentes tabelas de informações armazenadas no banco de dados.

Os 4 conjuntos de dados mais populares em ciência de dados

  1. Conjunto de dados da íris: Este é um conjunto de dados amplamente utilizado em aprendizado de máquina para testes. Ele contém informações sobre 3 tipos diferentes de flores: comprimento da sépala, largura da sépala, comprimento da pétala e largura da pétala.
  2. Conjunto de dados Coco: Coco é um conjunto de dados de legendagem, segmentação e detecção de objetos em grande escala publicado pela Microsoft. O objetivo deste conjunto de dados é fornecer ferramentas para reconhecimento de imagens. Ele é usado por equipes de visão computacional para treinar e testar seus modelos.
  3. Conjunto de dados Mnist: é um grande conjunto de dados que inclui imagens de dígitos manuscritos. Tem sido comumente usado para testar diferentes técnicas de multiclasse. Alguns modelos de aprendizado de máquina testados são: classificadores lineares, máquinas de vetores de suporte, redes neurais profundas, redes neurais convolucionais ou florestas aleatórias. Também tem sido usado para testar modelos generativos, como redes neurais adversárias ou codificadores automáticos .
  4. Conjunto de dados habitacionais de Boston: Este conjunto de dados tem sido amplamente utilizado para avaliar diferentes modelos de inteligência artificial. Contém informações sobre algumas casas na área de Boston. Alguns dos dados a prever são os preços das casas.

Onde encontrar conjuntos de dados públicos gratuitos

Se você chegou até aqui, provavelmente está se perguntando onde pode encontrar conjuntos de dados reais para começar a ver sua aparência e executar testes com eles. A seguir, apresentamos 4 páginas da web onde você encontrará todos os tipos de conjuntos de dados públicos e gratuitos.

Pesquisa de conjunto de dados do Google

Neste site existe um motor de busca onde podemos colocar o nome da informação que pretendemos que contenha. O Google retornará os resultados de onde encontrou as informações que solicitamos. É um bom lugar para começar a procurar conjuntos de dados para brincar e experimentar. Visualize conjuntos de dados.

Kaggle

Kaggle é uma plataforma onde são realizadas competições de aprendizado de máquina para ver quem consegue gerar um modelo melhor para resolver um determinado problema. A maioria dos problemas tem seu próprio conjunto de dados que você pode baixar gratuitamente. Visualize conjuntos de dados.

GitHub

Github é um repositório especializado em salvar código. No entanto, muitos usuários da plataforma também a utilizam para fazer upload de informações relevantes. Existem alguns repositórios que contêm uma lista de diferentes conjuntos de dados públicos e gratuitos que podemos baixar. Um deles são conjuntos de dados públicos incríveis. Visualize conjuntos de dados.

cinco e trinta e oito

Este é um site onde eles usam informações para dar conhecimento às pessoas. Para que todos possam verificar se o que dizem está correto, eles publicam todos os conjuntos de dados que utilizam para analisar a atualidade no país. Você pode acessar essas informações e usá-las como um conjunto de dados para realizar análises de dados ou testes de aprendizado de máquina. Visualize conjuntos de dados.

Diferença entre dataframe e conjunto de dados

Usarei a última seção deste artigo sobre conjuntos de dados para esclarecer uma pergunta que me foi feita diversas vezes. Qual é a diferença entre dataframe e conjunto de dados?

Explicamos que conjuntos de dados são simplesmente conjuntos de dados que normalmente são armazenados em uma estrutura tabular, seja em um arquivo, em um site ou em um banco de dados.

Dataframes são objetos de programação usados ​​em linguagens como R ou Python. Normalmente, quando importamos dados para um pacote de análise de dados, isso transforma o conjunto de dados em uma representação interna abstrata que em muitos pacotes de programação é chamada de dataframe.

Simplificando, um dataframe é simplesmente uma representação de um conjunto de dados.