Introduções aos algoritmos de ciência de dados

Uma descrição de alto nível dos algoritmos essenciais usados ​​na Ciência de Dados. Como você já sabe, a ciência dos dados é um campo de estudo em que as decisões são tomadas com base nas idéias que obtemos dos dados, em vez de abordagens determinísticas clássicas baseadas em regras. Normalmente, podemos dividir uma tarefa de aprendizado de máquina em três partes

  • Obtendo os dados e mapeando o problema de negócios,
  • Aplicando técnicas de aprendizado de máquina e observando a métrica de desempenho
  • Testando e implantando o modelo

Em todo esse ciclo de vida, usamos vários algoritmos de ciência de dados para resolver a tarefa em questão. Neste artigo, dividiremos os algoritmos mais usados ​​com base em seus tipos de aprendizado e teremos uma discussão de alto nível sobre eles.

Tipos de algoritmos de ciência de dados

Com base nas metodologias de aprendizado, podemos simplesmente dividir os algoritmos de aprendizado de máquina ou de ciência de dados nos seguintes tipos

  1. Algoritmos Supervisionados
  2. Algoritmos não supervisionados

1. Algoritmos Supervisionados

Como o nome sugere, algoritmos supervisionados são uma classe de algoritmos de aprendizado de máquina em que o modelo é treinado com os dados rotulados. Por exemplo, com base nos dados históricos, você deseja prever que um cliente pagará ou não um empréstimo. Após o pré-processamento e a engenharia de recursos dos dados rotulados, os algoritmos supervisionados são treinados sobre os dados estruturados e testados em um novo ponto de dados ou, neste caso, para prever um inadimplente de empréstimos. Vamos mergulhar nos algoritmos supervisionados de aprendizado de máquina mais populares.

  • K vizinhos mais próximos

K vizinhos mais próximos (KNN) é um dos algoritmos de aprendizado de máquina mais simples e poderosos. É um algoritmo supervisionado em que a classificação é feita com base em k pontos de dados mais próximos. A idéia por trás do KNN é que pontos semelhantes são agrupados, medindo as propriedades dos pontos de dados mais próximos, podemos classificar um ponto de dados de teste. Por exemplo, estamos resolvendo um problema de classificação padrão em que queremos prever que um ponto de dados pertence à classe A ou classe B.Deixe k = 3, agora testaremos 3 pontos de dados mais próximos do ponto de dados de teste, se dois deles pertencerem à classe A declararemos o ponto de dados de teste como classe A, caso contrário, classe B. O valor correto de K é encontrado através da validação cruzada. Tem uma complexidade de tempo linear, portanto, não pode ser usado para aplicativos de baixa latência.

  • Regressão linear

A regressão linear é um algoritmo supervisionado de ciência de dados.

Resultado:

A variável é contínua. A idéia é encontrar um hiperplano em que o número máximo de pontos esteja no hiperplano. Por exemplo, prever a quantidade de chuva é um problema de regressão padrão em que a regressão linear pode ser usada. A regressão linear assume que a relação entre as variáveis ​​independentes e dependentes é linear e há muito pouca ou nenhuma multicolinearidade.

  • Regressão logística

Embora o nome diga regressão, a regressão logística é um algoritmo de classificação supervisionado.

Resultado:

A intuição geométrica é que podemos separar diferentes rótulos de classe usando um limite de decisão linear. A variável de saída da regressão logística é categórica. Observe que não podemos usar o erro quadrático médio como uma função de custo para a regressão logística, pois não é convexo para a regressão logística.

  • Máquina de vetores de suporte

Na regressão logística, nosso lema principal era encontrar uma superfície linear de separação.

Resultado:

Podemos considerar a máquina de vetores Support como uma extensão dessa ideia, na qual precisamos encontrar um hiperplano que maximize a margem. Mas o que é uma margem? Para um vetor W (a superfície de decisão que precisamos criar), desenhamos duas linhas paralelas em ambos os lados. A distância entre essas duas linhas é chamada de margem. O SVM assume que os dados são linearmente separáveis. Embora possamos usar o SVM para dados não lineares também usando o truque do Kernel.

  • Árvore de decisão

Árvore de Decisão é um classificador aninhado baseado em If-Else que usa uma estrutura de gráfico semelhante a uma árvore para tomar a decisão. As árvores de decisão são muito populares e um dos algoritmos de aprendizado de máquina supervisionados mais usados ​​em toda a área da ciência de dados. Ele fornece melhor estabilidade e precisão na maioria dos casos, comparativamente a outros algoritmos supervisionados e robusto a outliers. A variável de saída da árvore de decisão geralmente é categórica, mas também pode ser usada para resolver problemas de regressão.

  • Conjuntos

Os conjuntos são uma categoria popular de algoritmos de ciência de dados, onde vários modelos são usados ​​juntos para obter melhor desempenho. Se você estiver familiarizado com o Kaggle (uma plataforma do Google para praticar e competir em desafios de ciência de dados), você encontrará a maioria das soluções vencedoras usando algum tipo de conjunto.

Podemos dividir aproximadamente conjuntos nas seguintes categorias

  • Ensacamento
  • Impulsionar
  • Empilhamento
  • Em cascata

As árvores de decisão Floresta aleatória e Decisão de aumento de gradiente são exemplos de alguns algoritmos populares de conjuntos.

2. Algoritmos não supervisionados

Algoritmos não supervisionados são usados ​​para as tarefas em que os dados não são rotulados. O caso de uso mais popular de algoritmos não supervisionados é o clustering. O clustering é a tarefa de agrupar pontos de dados semelhantes sem intervenção manual. Vamos discutir alguns dos algoritmos populares de aprendizado de máquina não supervisionados aqui

  • K significa

O K Means é um algoritmo não supervisionado e randomizado usado para clustering.

1.Inicialize K pontos aleatoriamente (c1, c2..ck)

2. Para cada ponto (Xi) no conjunto de dados

Selecione Ci (i = 1, 2, 3..k) mais próximo

Adicionar Xi ao Ci

3. Recompute o centróide usando métricas adequadas (por exemplo, distância intracluster)

4, repita a etapa (2) (3) até convergir

  • K Means ++

A etapa de inicialização nos meios K é puramente aleatória e, com base na inicialização, o cluster muda drasticamente. K significa ++ resolve esse problema inicializando k de maneira probabilística, em vez de pura aleatorização. K significa ++ é mais estável do que K clássico significa.

  • K Medoids:

K medoids também é um algoritmo de agrupamento baseado em K significa. A principal diferença entre os dois é que os centróides de K significa que não existe necessariamente no conjunto de dados, o que não é o caso de K medoids. K medoids oferecem melhor interpretabilidade dos clusters. K significa minimizar o erro quadrático total, enquanto K medoids minimiza a diferença entre os pontos.

Conclusão

Neste artigo, discutimos os algoritmos de aprendizado de máquina mais populares usados ​​no campo da ciência de dados. Depois de tudo isso, pode-se perguntar: ' Qual algoritmo é o melhor? ' Claramente não há vencedor aqui. Depende apenas da tarefa em mãos e dos requisitos de negócios. Como prática recomendada, sempre começa com o algoritmo mais simples e aumenta a complexidade gradualmente.

Artigos recomendados

Este foi um guia para algoritmos de ciência de dados. Aqui discutimos uma visão geral dos algoritmos de ciência de dados e dois tipos de algoritmos de ciência de dados. Você também pode ler nossos artigos para saber mais.

  1. Plataforma de Ciência de Dados
  2. Idiomas de ciência de dados
  3. Algoritmos de classificação
  4. Algoritmos de mineração de dados
  5. Técnicas mais usadas de aprendizagem por conjuntos
  6. Maneiras simples de criar uma árvore de decisão
  7. Guia completo do ciclo de vida da ciência de dados

Categoria: