Introdução ao algoritmo KNN em R
No algoritmo KNN em R, KNN representa o algoritmo K vizinho mais próximo e R é uma linguagem de programação. Diz-se ser o mais simples do algoritmo de aprendizado de máquina. O KNN é um algoritmo supervisionado que classifica os pontos de dados em uma classe de destino comparando recursos com o vizinho mais próximo.
Exemplo: suponha que você queira classificar uma tela de toque e um telefone com teclado. Existem vários fatores que envolvem a diferenciação dos dois telefones. No entanto, o fator que diferencia os dois telefones é o teclado. Então, quando recebemos um ponto de dados (ou seja, telefone). Comparamos com os recursos semelhantes dos pontos de dados vizinhos para classificá-lo como teclado ou telefone de toque.
Recursos do algoritmo KNN
Aqui estudaremos os recursos do algoritmo KNN:
- O algoritmo KNN usa dados de entrada para prever pontos de dados do conjunto de saída.
- O algoritmo pode ser aplicado a vários conjuntos de problemas.
- Concentra-se na semelhança de recursos para classificar os dados.
- O algoritmo KNN lida com dados realistas e não faz suposições sobre os pontos de dados.
- O KNN memoriza o conjunto de dados de treinamento em vez de ser intuitivo. Além disso, pode-se dizer que tem uma abordagem preguiçosa.
- Pode resolver problemas de classificação e regressão.
Resolvendo problemas no algoritmo KNN em R
Seguinte problema de endereçamento:
1. Problema de Classificação
No problema de classificação, os valores são discretos, assim como se você gosta de comer pizza com coberturas ou sem. Há um terreno comum. O algoritmo KNN ajuda a resolver esse problema.
2. Problema de regressão
O problema de regressão aparece quando temos uma variável dependente e uma variável independente. Ex: índice de IMC. Normalmente, cada linha contém uma observação ou ponto de dados e um exemplo.
O algoritmo KNN em R
Vejamos as etapas no algoritmo a ser seguido:
Etapa 1: Carregue os dados de entrada.
Etapa 2: inicialize K com o número de vizinhos mais próximos.
Etapa 3: Cálculo dos dados (ou seja, distância entre a corrente e o vizinho mais próximo)
Etapa 4: adicionando a distância ao conjunto de dados ordenado atual.
Etapa 5: escolhendo K entradas e rotulando-as.
Etapa 6: retorne o valor médio para o problema de regressão.
Etapa 7: retorne o valor do modo para problemas de classificação.
Pontos a serem lembrados ao implementar o algoritmo KNN
- Devemos garantir que o valor de K seja maior que um, pois a previsão dificulta a precisão.
- Quanto mais o valor K, mais precisa a previsão pode ser devido à maioria.
- É preferível ter K como um número ímpar. Caso contrário, pode levar a um desempate.
Pseudocódigo KNN
Na fórmula abaixo, representa variáveis e representa pontos de dados em que (i = 1, 2, 3….)
Set(, )
Casos de Uso
A seguir estão os casos de uso no algoritmo KNN em R:
1. Comparando produtos e ajudando nas recomendações de compras
Quando compramos um laptop ou computador em um site de comércio eletrônico on-line, também vemos recomendações de compras, como a compra de alto-falantes ou software antivírus. Tudo isso porque, quando um cliente anterior compra um laptop, ele é comprado principalmente junto com antivírus ou alto-falantes. O aprendizado de máquina ajuda nas recomendações de comércio eletrônico.
2. Recomendações Alimentares
O aprendizado de máquina também ajuda nas recomendações baseadas em alimentos encomendados anteriormente e também sugere restaurantes de acordo.
Exemplo do algoritmo KNN
A seguir estão os exemplos do algoritmo KNN:
1. Importando Dados
Vamos pegar os dados fictícios sobre nós, prevendo o tamanho da camiseta de um cara com ajuda de altura e peso.
Altura (cms) | Peso (kgs) | Tamanho |
140 | 58. | S |
140 | 59 | S |
140 | 63. | S |
150 | 59 | M |
152 | 60 | M |
153 | 60 | M |
154 | 61 | M |
155 | 64 | M |
156 | 64 | M |
157 | 61 | M |
160 | 62 | eu |
161 | 65 | eu |
162 | 62 | eu |
163 | 63. | eu |
163 | 66. | eu |
165 | 63. | eu |
165 | 64 | eu |
165 | 68 | eu |
2. Encontrando as semelhanças calculando a distância
Podemos usar as distâncias Manhattan e Euclidiana, pois os dados são contínuos. Calculamos a distância entre a nova amostra e o conjunto de dados de treinamento e, em seguida, encontramos o K-mais próximo.
Exemplo: Digamos que 'Raj' tem uma altura de 165 cm e pesa 63 kg. Calculamos a distância euclidiana usando a primeira observação com a nova amostra: SQRT ((165-140) 2 + (63-58) 2)
3. Encontrar vizinhos mais próximos de K
Vamos supor que K = 4, existem 4 clientes nos quais 3 deles tinham tamanho médio e 1 era tamanho grande. A melhor previsão é que os tamanhos médios sejam adequados para Raj.
Diferença entre KNN e K-mean
A seguir estão as diferenças:
- KNN é um algoritmo supervisionado (variável dependente) enquanto K-mean é um algoritmo não supervisionado (sem variável dependente).
- O K-mean usa uma técnica de clustering para dividir os pontos de dados que formam os clusters K. O KNN usa os vizinhos K mais próximos para classificar os pontos de dados e combiná-los.
Vantagens e desvantagens do KNN
A seguir estão as vantagens:
- O algoritmo KNN é versátil, pode ser usado para problemas de classificação e regressão.
- Não há necessidade de um modelo anterior para construir o algoritmo KNN.
- Simples e fácil de implementar.
A seguir estão as desvantagens:
- O algoritmo à medida que o número de amostras aumenta (ou seja, não de variáveis)
Artigos recomendados
Este é um guia para o algoritmo KNN em R. Aqui discutimos recursos, exemplos, pseudocódigo, etapas a serem seguidas no algoritmo KNN. Você também pode consultar nossos outros artigos relacionados para saber mais.
- Algoritmos de ciência de dados
- O que é algoritmo genético?
- Algoritmos de roteamento
- Algoritmos de redes neurais
- Algoritmo C ++ | Exemplos de algoritmo C ++