Introdução às Técnicas de Conjunto

O aprendizado por conjunto é uma técnica de aprendizado de máquina que leva a ajuda de vários modelos básicos e combina sua saída para produzir um modelo otimizado. Esse tipo de algoritmo de aprendizado de máquina ajuda a melhorar o desempenho geral do modelo. Aqui, o modelo base mais comumente usado é o classificador da árvore de Decisão. Uma árvore de decisão trabalha basicamente em várias regras e fornece uma saída preditiva, onde as regras são os nós e suas decisões serão seus filhos e os nós folha constituirão a decisão final. Como mostrado no exemplo de uma árvore de decisão.

A árvore de decisão acima fala basicamente sobre se uma pessoa / cliente pode receber um empréstimo ou não. Uma das regras para a elegibilidade do empréstimo sim é que, se (renda = Sim && Casado = Não) Então Empréstimo = Sim, então é assim que um classificador da árvore de decisão funciona. Incorporaremos esses classificadores como um modelo de base múltipla e combinaremos sua saída para criar um modelo preditivo ideal. A Figura 1.b mostra a imagem geral de um algoritmo de aprendizado de conjunto.

Tipos de técnicas de conjuntos

Diferentes tipos de conjuntos, mas nosso foco principal será nos dois tipos abaixo:

  • Ensacamento
  • Impulsionar

Esses métodos ajudam a reduzir a variação e o viés em um modelo de aprendizado de máquina. Agora vamos tentar entender o que é preconceito e variação. Viés é um erro que ocorre devido a suposições incorretas em nosso algoritmo; um viés alto indica que nosso modelo é muito simples / não adequado. Variação é o erro causado devido à sensibilidade do modelo a flutuações muito pequenas no conjunto de dados; uma alta variação indica que nosso modelo é altamente complexo / superajustado. Um modelo ideal de ML deve ter um equilíbrio adequado entre viés e variância.

Agregação / Ensacamento de Bootstrap

Ensacamento é uma técnica de ensemble que ajuda a reduzir a variação no nosso modelo e, portanto, evita o excesso de ajuste. O ensacamento é um exemplo do algoritmo de aprendizado paralelo. O ensacamento funciona com base em dois princípios.

  • Bootstrapping: No conjunto de dados original, diferentes populações de amostra são consideradas com a substituição.
  • Agregando: calculando a média dos resultados de todos os classificadores e fornecendo uma saída única, para isso, utiliza o voto majoritário no caso de classificação e a média no caso do problema de regressão. Um dos famosos algoritmos de aprendizado de máquina que usam o conceito de ensacamento é uma floresta aleatória.

Random Forest

Na floresta aleatória da amostra aleatória retirada da população com substituição e um subconjunto de recursos é selecionado no conjunto de todos os recursos que uma árvore de decisão é construída. A partir desses subconjuntos de recursos, o que fornecer a melhor divisão é selecionado como raiz da árvore de decisão. O subconjunto de recursos deve ser escolhido aleatoriamente a qualquer custo, caso contrário, produziremos apenas árvores correlatas e a variação do modelo não será aprimorada.

Agora que construímos nosso modelo com as amostras retiradas da população, a questão é como validamos o modelo? Como estamos considerando as amostras com substituição, portanto, todas as amostras não serão consideradas e algumas delas não serão incluídas em nenhum saco, que são chamadas de amostras fora do saco. Podemos validar nosso modelo com essas amostras OOB (fora do saco). Os parâmetros importantes a serem considerados em uma floresta aleatória são o número de amostras e o número de árvores. Vamos considerar 'm' como o subconjunto de recursos e 'p' é o conjunto completo de recursos; agora, como regra geral, é sempre ideal escolher

  • m as√ e um tamanho mínimo de nó como 1 para um problema de classificação.
  • m como P / 3 e tamanho mínimo do nó para 5 para um problema de regressão.

O ep devem ser tratados como parâmetros de ajuste quando lidamos com um problema prático. O treinamento pode ser encerrado quando o erro OOB se estabilizar. Uma desvantagem da floresta aleatória é que, quando temos 100 recursos em nosso conjunto de dados e apenas alguns são importantes, esse algoritmo apresenta um desempenho ruim.

Impulsionar

O impulso é um algoritmo de aprendizado sequencial que ajuda a reduzir o viés em nosso modelo e a variação em alguns casos de aprendizado supervisionado. Também ajuda na conversão de alunos fracos em alunos fortes. O impulso funciona com o princípio de colocar os alunos fracos sequencialmente e atribui um peso a cada ponto de dados após cada rodada; mais peso é atribuído ao ponto de dados classificado incorretamente na rodada anterior. Esse método ponderado sequencial de treinamento de nosso conjunto de dados é a principal diferença do ensacamento.

A Fig3.a mostra a abordagem geral para impulsionar

As previsões finais são combinadas com base na votação por maioria ponderada no caso de classificação e soma ponderada no caso de regressão. O algoritmo de reforço mais utilizado é o reforço adaptativo (Adaboost).

Reforço adaptável

As etapas envolvidas no algoritmo Adaboost são as seguintes:

  1. Para os n pontos de dados fornecidos, definimos a classe de destino e inicializamos todos os pesos para 1 / n.
  2. Ajustamos os classificadores ao conjunto de dados e escolhemos a classificação com o erro de classificação menos ponderado
  3. Atribuímos pesos para o classificador por uma regra geral baseada na precisão, se a precisão for superior a 50%, o peso será positivo e vice-versa.
  4. Atualizamos os pesos dos classificadores no final da iteração; atualizamos mais peso para o ponto classificado incorretamente, para que na próxima iteração o classifiquemos corretamente.
  5. Após toda a iteração, obtemos o resultado final da previsão com base na votação majoritária / média ponderada.

O Adaboosting trabalha eficientemente com alunos fracos (menos complexos) e com classificadores de alto viés. As principais vantagens do Adaboosting são que ele é rápido, não há parâmetros de ajuste semelhantes ao caso do ensacamento e não fazemos suposições sobre alunos fracos. Esta técnica falha em fornecer um resultado preciso quando

  • Existem mais discrepâncias em nossos dados.
  • O conjunto de dados é insuficiente.
  • Os alunos fracos são altamente complexos.

Eles são suscetíveis ao ruído também. As árvores de decisão que são produzidas como resultado do aumento terão profundidade limitada e alta precisão.

Conclusão

As técnicas de aprendizado de conjuntos são amplamente usadas para melhorar a precisão do modelo; precisamos decidir sobre qual técnica usar com base em nosso conjunto de dados. Mas essas técnicas não são preferidas em alguns casos em que a interpretabilidade é importante, pois perdemos a interpretabilidade à custa da melhoria do desempenho. Eles têm um significado tremendo no setor de assistência médica, onde uma pequena melhoria no desempenho é muito valiosa.

Artigos recomendados

Este é um guia para técnicas de conjunto. Aqui discutimos a introdução e dois tipos principais de técnicas de conjunto. Você também pode consultar nossos outros artigos relacionados para saber mais.

  1. Técnicas de esteganografia
  2. Técnicas de aprendizado de máquina
  3. Técnicas de Team Building
  4. Algoritmos de ciência de dados
  5. Técnicas mais usadas de aprendizagem por conjuntos

Categoria: