20 conceitos básicos de ciência de dados para iniciantes

Por Benjamin Obi Tayo, Ph.D. , DataScienceHub.

  1. Conjunto de dados

Assim como o nome indica, a ciência de dados é um ramo da ciência que aplica o método científico aos dados com o objetivo de estudar as relações entre os diferentes recursos e extrair conclusões significativas com base nessas relações.

Os dados são, portanto, o principal componente da ciência de dados, um conjunto de dados é uma instância particular de dados que é usada para análise ou construção de modelo a qualquer momento.

Um conjunto de dados vem em diferentes sabores, como dados numéricos, dados categóricos, dados de texto, dados de imagem, dados de voz e dados de vídeo.

Um conjunto de dados pode ser estático (não muda) ou dinâmico (muda com o tempo, por exemplo, preços de ações), além disso, um conjunto de dados também pode depender do espaço, por exemplo, os dados de temperatura nos Estados Unidos difeririam significativamente dos dados de temperatura na África. Para iniciar projetos de ciência de dados,

  1. Organização de dados

Organização de dados é o processo de conversão de dados de sua forma bruta em uma forma organizada, pronta para análise, a transformação de dados é uma etapa importante no pré-processamento de dados e inclui vários processos como importação de dados, limpeza de dados, estruturação de dados, processamento de strings, análise de HTML, tratamento de datas e horas, tratamento de dados ausentes e mineração de texto.

  1. Visualização de dados

A visualização de dados é um dos ramos mais importantes da ciência de dados, é uma das principais ferramentas utilizadas para analisar e estudar as relações entre diferentes variáveis.

A visualização de dados (por exemplo, gráficos de dispersão, gráficos de linha, gráficos de barra, histogramas, qqplots, densidades suaves, boxplots, gráficos de pares, mapas de calor, etc.) podem ser usados ​​para análises descritivas.

A visualização de dados também é usada no aprendizado de máquina para pré-processamento e análise de dados, seleção de recursos, construção de modelo, teste de modelo e avaliação de modelo.

Ao preparar uma visualização de dados, lembre-se de que a visualização de dados é mais uma arte do que ciência, para produzir uma boa visualização, você precisa colocar várias partes do código juntas para um excelente resultado final.

  1. Outliers

Um outlier é um ponto de dados muito diferente do resto do conjunto de dados, os valores discrepantes geralmente são apenas dados ruins, por exemplo, devido a um sensor com defeito; experimentos contaminados; ou erro humano na gravação de dados.

Às vezes, valores discrepantes podem indicar algo real, como um defeito em um sistema.

Outliers são muito comuns e são esperados em grandes conjuntos de dados, uma maneira comum de detectar outliers em um conjunto de dados é usando um gráfico de caixa. Outliers podem degradar significativamente o poder preditivo de um modelo de aprendizado de máquina, uma maneira comum de lidar com outliers é simplesmente omitir os pontos de dados.

No entanto, remover dados discrepantes reais pode ser muito otimista, levando a modelos não realistas.

Métodos avançados para lidar com outliers incluem o método RANSAC.

  1. Imputação de dados

A maioria dos conjuntos de dados contém valores ausentes, a maneira mais fácil de lidar com dados ausentes é simplesmente descartar o ponto de dados.

No entanto, a remoção de amostras ou eliminação de colunas inteiras de recursos simplesmente não é viável porque podemos perder muitos dados valiosos, nesse caso, podemos usar diferentes técnicas de interpolação para estimar os valores ausentes das outras amostras de treinamento em nosso conjunto de dados.

Uma das técnicas de interpolação mais comuns é a imputação da média, em que simplesmente substituímos o valor ausente pelo valor médio de toda a coluna de recurso.

Outras opções para imputar valores ausentes são medianas ou mais frequentes (modo), onde o último substitui os valores ausentes pelos valores mais frequentes.

Seja qual for o método de imputação que você empregar em seu modelo, você deve ter em mente que a imputação é apenas uma aproximação e, portanto, pode produzir um erro no modelo final.

Se os dados fornecidos já foram pré-processados, você teria que descobrir como os valores ausentes foram considerados, qual porcentagem dos dados originais foi descartada? Qual método de imputação foi usado para estimar os valores ausentes?

  1. Escala de dados

O dimensionamento de seus recursos ajudará a melhorar a qualidade e a capacidade de previsão de seu modelo, por exemplo, suponha que você gostaria de construir um modelo para prever a qualidade de crédito de uma variável de destino com base em variáveis ​​de previsão, como renda e pontuação de crédito, como as pontuações de crédito variam de 0 a 850, enquanto a renda anual pode variar de $ 25.000 a $ 500.000, sem dimensionar seus recursos, o modelo tenderá para o recurso de renda. Isso significa que o fator de ponderação associado ao parâmetro de renda será muito pequeno, o que fará com que o modelo preditivo preveja a qualidade de crédito com base apenas no parâmetro de renda.

Para trazer recursos à mesma escala, podemos decidir usar a normalização ou padronização de recursos, na maioria das vezes, presumimos que os dados são normalmente distribuídos e padronizados, mas nem sempre é esse o caso.

É importante que, antes de decidir se usará padronização ou normalização, você primeiro dê uma olhada em como seus recursos são estatisticamente distribuídos.

Se o recurso tende a ser distribuído uniformemente, podemos usar a normalização (MinMaxScale r). Se o recurso for aproximadamente gaussiano, podemos usar a padronização (StandardScaler). Novamente, observe que, independentemente de você empregar normalização ou padronização, esses também são métodos aproximativos e contribuem para o erro geral do modelo.

  1. Análise de Componentes Principais (PCA)

Grandes conjuntos de dados com centenas ou milhares de recursos geralmente levam à redundância, especialmente quando os recursos são correlacionados entre si, treinar um modelo em um conjunto de dados de alta dimensão com muitos recursos às vezes pode levar a um sobreajuste (o modelo captura efeitos reais e aleatórios).

Além disso, um modelo excessivamente complexo com muitos recursos pode ser difícil de interpretar, uma maneira de resolver o problema de redundância é por meio de seleção de recursos e técnicas de redução de dimensionalidade, como PCA.

Análise de componente principal (PCA) é um método estatístico usado para extração de recursos. PCA é usado para dados de alta dimensão e correlacionados. A ideia básica do PCA é transformar o espaço original de feições no espaço do componente principal. Uma transformação PCA atinge o seguinte:

a). Reduza o número de recursos a serem usados ​​no modelo final, concentrando-se apenas nos componentes responsáveis ​​pela maioria da variância no conjunto de dados.

b). Remove a correlação entre recursos.

  1. Análise Discriminante Linear (LDA)

PCA e LDA são duas técnicas de transformação linear de pré-processamento de dados que são frequentemente usadas para redução de dimensionalidade para selecionar recursos relevantes que podem ser usados ​​no algoritmo de aprendizado de máquina final, o PCA é um algoritmo não supervisionado que é usado para extração de recursos em dados de alta dimensão e correlacionados.

O PCA atinge a redução da dimensionalidade ao transformar recursos em eixos de componentes ortogonais de variação máxima em um conjunto de dados.

O objetivo do LDA é encontrar o subespaço de recursos que otimiza a separabilidade de classes e reduz a dimensionalidade (veja a figura abaixo). Conseqüentemente, o LDA é um algoritmo supervisionado. Uma descrição detalhada do PCA e do LDA pode ser encontrada neste livro: Python Machine Learning de Sebastian Raschka, Capítulo 5.

  1. Particionamento de dados

No aprendizado de máquina, o conjunto de dados geralmente é particionado em conjuntos de treinamento e teste, o modelo é treinado no conjunto de dados de treinamento e, em seguida, testado no conjunto de dados de teste.

O conjunto de dados de teste, portanto, atua como o conjunto de dados invisível, que pode ser usado para estimar um erro de generalização (o erro esperado quando o modelo é aplicado a um conjunto de dados do mundo real após o modelo ter sido implantado).

No scikit-learn, o estimador de divisão de treinamento / teste pode ser usado para dividir o conjunto de dados da seguinte forma:

X_train, X_test, y_train, y_test = train_test_split (X, y, test_size = 0,3)

Aqui, X é a matriz de recursos ey é a variável de destino. Nesse caso, o conjunto de dados de teste é definido como 30%.

  1. Aprendizagem Supervisionada

Esses são algoritmos de aprendizado de máquina que realizam o aprendizado estudando a relação entre as variáveis ​​de recursos e a variável de destino conhecida. A aprendizagem supervisionada tem duas subcategorias:

  1. a) Variáveis-alvo contínuas

Os algoritmos para prever variáveis ​​de destino contínuas incluem Regressão Linear, Regressão KNeighbors (KNR) e Regressão de Vetor de Suporte (SVR).

  1. b) Variáveis-alvo discretas

Os algoritmos para prever variáveis ​​de destino discretas incluem:

  • Classificador Perceptron
  • Classificador de regressão logística
  • Support Vector Machines (SVM)
  • Classificador de árvore de decisão
  • Classificador K-mais próximo
  • Classificador Naive Bayes
  1. Aprendizagem não supervisionada

Na aprendizagem não supervisionada, estamos lidando com dados não rotulados ou dados de estrutura desconhecida. Usando técnicas de aprendizado não supervisionado, somos capazes de explorar a estrutura de nossos dados para extrair informações significativas sem a orientação de uma variável de resultado conhecida ou função de recompensa. O agrupamento K-means é um exemplo de algoritmo de aprendizado não supervisionado.

  1. Aprendizagem por Reforço

Na aprendizagem por reforço, o objetivo é desenvolver um sistema (agente) que aprimore seu desempenho a partir das interações com o ambiente. Como as informações sobre o estado atual do ambiente normalmente também incluem um chamado sinal de recompensa, podemos pensar na aprendizagem por reforço como um campo relacionado à aprendizagem supervisionada. No entanto, no aprendizado por reforço, esse feedback não é o rótulo ou valor correto da verdade fundamental, mas uma medida de quão bem a ação foi medida por uma função de recompensa. Por meio da interação com o ambiente, um agente pode então usar o aprendizado por reforço para aprender uma série de ações que maximizam essa recompensa.

  1. Parâmetros e hiperparâmetros do modelo

Em um modelo de aprendizado de máquina, existem dois tipos de parâmetros:

  1. a) Parâmetros do modelo:são os parâmetros do modelo que devem ser determinados usando o conjunto de dados de treinamento. Estes são os parâmetros ajustados. Por exemplo, suponha que temos um modelo como preço da casaa + b * (idade) + c * (tamanho), para estimar o custo das casas com base na idade da casa e seu tamanho (pé quadrado) , então um , b e c será o nosso modelo ou parâmetros equipados.
  2. b) Hiperparâmetros:são parâmetros ajustáveis ​​que devem ser ajustados para obter um modelo com desempenho ideal. Um exemplo de hiperparâmetro é mostrado aqui:

KNeighborsClassifier (n_neighbors = 5, p = 2, metric = ‘minkowski’)

É importante que durante o treinamento os hiperparâmetros sejam ajustados para obter o modelo com melhor desempenho (com os parâmetros mais ajustados).

  1. Validação cruzada

A validação cruzada é um método de avaliação do desempenho de um modelo de aprendizado de máquina em amostras aleatórias do conjunto de dados. Isso garante que qualquer tendência no conjunto de dados seja capturada.

A validação cruzada pode nos ajudar a obter estimativas confiáveis ​​do erro de generalização do modelo, isto é, quão bem o modelo se sai em dados não vistos.

Na validação cruzada k-fold, o conjunto de dados é particionado aleatoriamente em conjuntos de treinamento e teste. O modelo é treinado no conjunto de treinamento e avaliado no conjunto de teste. O processo é repetido k-vezes. As pontuações médias de treinamento e teste são calculadas pela média das dobras k.

Aqui está o pseudocódigo de validação cruzada k-fold:

  1. Compensação de viés-variância

Em estatística e aprendizado de máquina, a compensação de desvio de variância é a propriedade de um conjunto de modelos preditivos em que modelos com um viés menor na estimativa de parâmetro têm uma variância mais alta das estimativas de parâmetro nas amostras e vice-versa.

O dilema ou problema de polarização-variância é o conflito em tentar minimizar simultaneamente essas duas fontes de erro que impedem que algoritmos de aprendizagem supervisionada generalizem além de seu conjunto de treinamento:

  • tendênciaé um erro de suposições errôneas no algoritmo de aprendizagem. A alta polarização (simples demais) pode fazer com que um algoritmo perca as relações relevantes entre os recursos e os resultados desejados (ajuste insuficiente).
  • variaçãoé um erro de sensibilidade a pequenas flutuações no conjunto de treinamento. A alta variância (excessivamente complexa) pode fazer com que um algoritmo modele o ruído aleatório nos dados de treinamento em vez das saídas pretendidas (overfitting).

É importante encontrar o equilíbrio certo entre a simplicidade e a complexidade do modelo.

No aprendizado de máquina (análise preditiva), existem várias métricas que podem ser usadas para avaliação do modelo. Por exemplo, um modelo de aprendizado supervisionado (meta contínua) pode ser avaliado usando métricas como a pontuação de R2, erro quadrático médio (MSE) ou erro absoluto médio (MAE). Além disso, um modelo de aprendizado supervisionado (alvo discreto), também conhecido como modelo de classificação, pode ser avaliado usando métricas como exatidão, precisão, recall, pontuação f1 e a área sob a curva ROC (AUC).

  1. Quantificação de incerteza

É importante construir modelos de aprendizado de máquina que gerem estimativas imparciais de incertezas nos resultados calculados. Devido à aleatoriedade inerente ao conjunto de dados e ao modelo, os parâmetros de avaliação, como o escore R2, são variáveis ​​aleatórias e, portanto, é importante estimar o grau de incerteza do modelo. Para obter um exemplo de quantificação de incerteza, consulte este artigo: Quantificação de erro aleatório em aprendizado de máquina

  1. Conceitos matemáticos
  2. a) Cálculo básico: amaioria dos modelos de aprendizado de máquina são construídos com um conjunto de dados com vários recursos ou preditores. Portanto, a familiaridade com o cálculo multivariável é extremamente importante para construir um modelo de aprendizado de máquina. Aqui estão os tópicos com os quais você precisa estar familiarizado:

Funções de várias variáveis; Derivados e gradientes; Função de passo, função Sigmóide, função Logit, função ReLU (Unidade Linear Retificada); Função de custo; Plotagem de funções; Valores mínimo e máximo de uma função

  1. b) Álgebra Linear Básica:A álgebra linear é a habilidade matemática mais importante no aprendizado de máquina. Um conjunto de dados é representado como uma matriz. A álgebra linear é usada no pré-processamento de dados, transformação de dados, redução de dimensionalidade e avaliação de modelo. Aqui estão os tópicos com os quais você precisa estar familiarizado:

Vetores; Norma de um vetor; Matrizes; Transposição de uma matriz; O inverso de uma matriz; O determinante de uma matriz; Traço de uma matriz; Produto interno; Autovalores; Autovetores

  1. c) Métodos de Otimização:A maioria dos algoritmos de aprendizado de máquina executa modelagem preditiva minimizando uma função objetivo, aprendendo assim os pesos que devem ser aplicados aos dados de teste para obter os rótulos previstos. Aqui estão os tópicos com os quais você precisa estar familiarizado:

Função de custo / função objetivo; Função de verossimilhança; Função de erro; Algoritmo de Gradiente Descendente e suas variantes (por exemplo, Algoritmo de Gradiente Descendente Estocástico

  1. Estatística e conceitos de probabilidade

Estatísticas e probabilidade são usadas para visualização de recursos, pré-processamento de dados, transformação de recursos, imputação de dados, redução de dimensionalidade, engenharia de recursos, avaliação de modelo, etc. Aqui estão os tópicos com os quais você precisa estar familiarizado:

Média, mediana, modo, desvio padrão / variância, coeficiente de correlação e a matriz de covariância, distribuições de probabilidade (binomial, poisson, normal), valor p, teorema de Bayes (precisão, recall, valor preditivo positivo, valor preditivo negativo, matriz de confusão, Curva ROC), Teorema do Limite Central, pontuação R_2, Erro Quadrático Médio (MSE), Teste A / B, Simulação de Monte Carlo

Aqui estão alguns recursos educacionais sobre o Teorema do Limite Central e o Teorema de Bayes:

Ilustração do teorema do limite central usando simulação de Monte-Carlo

Teorema de Bayes explicado usando o conjunto de dados de alturas

  1. Ferramentas de produtividade

Um projeto de análise de dados típico pode envolver várias partes, cada uma incluindo vários arquivos de dados e scripts diferentes com código. Manter tudo isso organizado pode ser um desafio. As ferramentas de produtividade ajudam você a manter os projetos organizados e a manter um registro dos projetos concluídos. Algumas ferramentas de produtividade essenciais para cientistas de dados em atividade incluem ferramentas como Unix / Linux, git e GitHub, RStudio e Jupyter Notebook. Saiba mais sobre ferramentas de produtividade aqui: Ferramentas de produtividade em aprendizado de máquina

Para ler o artigo no original, incluindo tutoriais sobre cada um dos itens acima, assim como ilustração com gráficos e tabelas desse artigo, copie e cole no seu navegador o link abaixo:

https://www.kdnuggets.com/2020/12/20-core-data-science-concepts-beginners.html

VOCÊS CONHECEM NOSSOS CURSOS DE TECNOLOGIA EM SAÚDE?

Combo : Inovações e Impactos de Tecnologia em Saúde

CONHEÇA NOSSOS CURSOS. CLIQUE NAS IMAGENS PARA SABER MAIS!

Compartilhe em suas Redes Sociais