Introdução ao algoritmo KNN em R

No algoritmo KNN em R, KNN representa o algoritmo K vizinho mais próximo e R é uma linguagem de programação. Diz-se ser o mais simples do algoritmo de aprendizado de máquina. O KNN é um algoritmo supervisionado que classifica os pontos de dados em uma classe de destino comparando recursos com o vizinho mais próximo.

Exemplo: suponha que você queira classificar uma tela de toque e um telefone com teclado. Existem vários fatores que envolvem a diferenciação dos dois telefones. No entanto, o fator que diferencia os dois telefones é o teclado. Então, quando recebemos um ponto de dados (ou seja, telefone). Comparamos com os recursos semelhantes dos pontos de dados vizinhos para classificá-lo como teclado ou telefone de toque.

Recursos do algoritmo KNN

Aqui estudaremos os recursos do algoritmo KNN:

  • O algoritmo KNN usa dados de entrada para prever pontos de dados do conjunto de saída.
  • O algoritmo pode ser aplicado a vários conjuntos de problemas.
  • Concentra-se na semelhança de recursos para classificar os dados.
  • O algoritmo KNN lida com dados realistas e não faz suposições sobre os pontos de dados.
  • O KNN memoriza o conjunto de dados de treinamento em vez de ser intuitivo. Além disso, pode-se dizer que tem uma abordagem preguiçosa.
  • Pode resolver problemas de classificação e regressão.

Resolvendo problemas no algoritmo KNN em R

Seguinte problema de endereçamento:

1. Problema de Classificação

No problema de classificação, os valores são discretos, assim como se você gosta de comer pizza com coberturas ou sem. Há um terreno comum. O algoritmo KNN ajuda a resolver esse problema.

2. Problema de regressão

O problema de regressão aparece quando temos uma variável dependente e uma variável independente. Ex: índice de IMC. Normalmente, cada linha contém uma observação ou ponto de dados e um exemplo.

O algoritmo KNN em R

Vejamos as etapas no algoritmo a ser seguido:

Etapa 1: Carregue os dados de entrada.

Etapa 2: inicialize K com o número de vizinhos mais próximos.

Etapa 3: Cálculo dos dados (ou seja, distância entre a corrente e o vizinho mais próximo)

Etapa 4: adicionando a distância ao conjunto de dados ordenado atual.

Etapa 5: escolhendo K entradas e rotulando-as.

Etapa 6: retorne o valor médio para o problema de regressão.

Etapa 7: retorne o valor do modo para problemas de classificação.

Pontos a serem lembrados ao implementar o algoritmo KNN

  • Devemos garantir que o valor de K seja maior que um, pois a previsão dificulta a precisão.
  • Quanto mais o valor K, mais precisa a previsão pode ser devido à maioria.
  • É preferível ter K como um número ímpar. Caso contrário, pode levar a um desempate.

Pseudocódigo KNN

Na fórmula abaixo, representa variáveis ​​e representa pontos de dados em que (i = 1, 2, 3….)

Set(, )

Casos de Uso

A seguir estão os casos de uso no algoritmo KNN em R:

1. Comparando produtos e ajudando nas recomendações de compras

Quando compramos um laptop ou computador em um site de comércio eletrônico on-line, também vemos recomendações de compras, como a compra de alto-falantes ou software antivírus. Tudo isso porque, quando um cliente anterior compra um laptop, ele é comprado principalmente junto com antivírus ou alto-falantes. O aprendizado de máquina ajuda nas recomendações de comércio eletrônico.

2. Recomendações Alimentares

O aprendizado de máquina também ajuda nas recomendações baseadas em alimentos encomendados anteriormente e também sugere restaurantes de acordo.

Exemplo do algoritmo KNN

A seguir estão os exemplos do algoritmo KNN:

1. Importando Dados

Vamos pegar os dados fictícios sobre nós, prevendo o tamanho da camiseta de um cara com ajuda de altura e peso.

Altura (cms) Peso (kgs) Tamanho
140 58. S
140 59 S
140 63. S
150 59 M
152 60 M
153 60 M
154 61 M
155 64 M
156 64 M
157 61 M
160 62 eu
161 65 eu
162 62 eu
163 63. eu
163 66. eu
165 63. eu
165 64 eu
165 68 eu

2. Encontrando as semelhanças calculando a distância

Podemos usar as distâncias Manhattan e Euclidiana, pois os dados são contínuos. Calculamos a distância entre a nova amostra e o conjunto de dados de treinamento e, em seguida, encontramos o K-mais próximo.

Exemplo: Digamos que 'Raj' tem uma altura de 165 cm e pesa 63 kg. Calculamos a distância euclidiana usando a primeira observação com a nova amostra: SQRT ((165-140) 2 + (63-58) 2)

3. Encontrar vizinhos mais próximos de K

Vamos supor que K = 4, existem 4 clientes nos quais 3 deles tinham tamanho médio e 1 era tamanho grande. A melhor previsão é que os tamanhos médios sejam adequados para Raj.

Diferença entre KNN e K-mean

A seguir estão as diferenças:

  • KNN é um algoritmo supervisionado (variável dependente) enquanto K-mean é um algoritmo não supervisionado (sem variável dependente).
  • O K-mean usa uma técnica de clustering para dividir os pontos de dados que formam os clusters K. O KNN usa os vizinhos K mais próximos para classificar os pontos de dados e combiná-los.

Vantagens e desvantagens do KNN

A seguir estão as vantagens:

  • O algoritmo KNN é versátil, pode ser usado para problemas de classificação e regressão.
  • Não há necessidade de um modelo anterior para construir o algoritmo KNN.
  • Simples e fácil de implementar.

A seguir estão as desvantagens:

  • O algoritmo à medida que o número de amostras aumenta (ou seja, não de variáveis)

Artigos recomendados

Este é um guia para o algoritmo KNN em R. Aqui discutimos recursos, exemplos, pseudocódigo, etapas a serem seguidas no algoritmo KNN. Você também pode consultar nossos outros artigos relacionados para saber mais.

  1. Algoritmos de ciência de dados
  2. O que é algoritmo genético?
  3. Algoritmos de roteamento
  4. Algoritmos de redes neurais
  5. Algoritmo C ++ | Exemplos de algoritmo C ++

Categoria: