Introdução aos Métodos de Conjunto no Aprendizado de Máquina

Neste artigo, veremos um esboço sobre Métodos de Conjunto no Aprendizado de Máquina. O aprendizado por conjunto é uma combinação de diversas técnicas de aprendizado de máquina em um modelo preditivo para melhorar a previsão. A aprendizagem por conjunto é adquirida para reduzir a variação nos dados preditivos. Esse tipo de aprendizado visa minimizar o viés do modelo. A aprendizagem por conjunto é um sistema multi-modelo no qual diferentes classificadores ou técnicas são combinados estrategicamente para classificar ou prever estatísticas do problema complexo com maior precisão. O objetivo desse aprendizado é minimizar a probabilidade de uma seleção ruim do modelo. Ele indica a confiança na decisão tomada pelo modelo. A idéia de selecionar os recursos ideais foi concretizada no aprendizado de conjuntos.

Tipos de métodos de ensemble no aprendizado de máquina

Os métodos de conjunto ajudam a criar vários modelos e depois combiná-los para produzir melhores resultados. Alguns métodos de conjunto são categorizados nos seguintes grupos:

1. Métodos Sequenciais

Nesse tipo de método Ensemble, existem aprendizes base gerados sequencialmente nos quais a dependência de dados reside. Todos os outros dados no aluno base estão tendo alguma dependência dos dados anteriores. Portanto, os dados anteriores com etiquetas incorretas são ajustados com base no seu peso para melhorar o desempenho do sistema geral.

Exemplo : Reforço

2. Método Paralelo

Nesse tipo de método Ensemble, o aluno básico é gerado em ordem paralela na qual a dependência de dados não existe. Todos os dados no aluno base são gerados independentemente.

Exemplo : Empilhamento

3. Conjunto Homogêneo

Esse método de conjunto é uma combinação dos mesmos tipos de classificadores. Mas o conjunto de dados é diferente para cada classificador. Isso fará com que o modelo combinado funcione com mais precisão após a agregação dos resultados de cada modelo. Esse tipo de método de conjunto funciona com um grande número de conjuntos de dados. No método homogêneo, o método de seleção de recursos é o mesmo para diferentes dados de treinamento. É computacionalmente caro.

Exemplo: Métodos populares como ensacamento e reforço entram no conjunto homogêneo.

4. Conjunto Heterogêneo

Esse método de conjunto é a combinação de diferentes tipos de classificadores ou modelos de aprendizado de máquina nos quais cada classificador se baseia nos mesmos dados. Esse método funciona para pequenos conjuntos de dados. Em heterogêneo, o método de seleção de recurso é diferente para os mesmos dados de treinamento. O resultado geral desse método de conjunto é realizado pela média de todos os resultados de cada modelo combinado.

Exemplo : Empilhamento

Classificação Técnica de Métodos de Conjunto

Abaixo está a classificação técnica dos métodos de conjunto:

1. Ensacamento

Esse método de conjunto combina dois modelos de aprendizado de máquina, ou seja, Bootstrapping e Agregação em um único modelo de conjunto. O objetivo do método de ensacamento é reduzir a alta variação do modelo. As árvores de decisão têm variação e baixo viés. O grande conjunto de dados é (digamos 1000 amostras) subamostrado (digamos 10 subamostras, cada um carrega 100 amostras de dados). As múltiplas árvores de decisão são construídas em cada dado de treinamento de subamostra. Ao agregar os dados de subamostra nas diferentes árvores de decisão, a preocupação com o excesso de ajuste dos dados de treinamento em cada árvore de decisão é reduzida. Para a eficiência do modelo, cada uma das árvores de decisão individuais é aprofundada, contendo dados de treinamento subamostrados. Os resultados de cada árvore de decisão são agregados para entender a previsão final. A variação dos dados agregados chega a ser reduzida. A precisão da previsão do modelo no método de ensacamento depende do número de árvores de decisão utilizadas. As várias subamostras de uma amostra de dados são escolhidas aleatoriamente com substituição. A saída de cada árvore tem uma alta correlação.

2. Impulsionar

O conjunto de reforço também combina diferentes tipos de classificadores. O reforço é um dos métodos sequenciais de conjunto nos quais cada modelo ou classificador é executado com base nos recursos que serão utilizados pelo próximo modelo. Dessa maneira, o método de reforço cria um modelo de aluno mais forte a partir de modelos de alunos fracos, calculando a média de seus pesos. Em outras palavras, um modelo treinado mais forte depende dos vários modelos treinados fracos. Um aluno fraco ou um modelo treinado para o desgaste é muito menos correlacionado com a verdadeira classificação. Mas o próximo aluno fraco está um pouco mais correlacionado com a verdadeira classificação. A combinação de diferentes alunos fracos dá a um aluno forte que está bem correlacionado com a verdadeira classificação.

3. Empilhamento

Esse método também combina várias classificações ou técnicas de regressão usando um meta-classificador ou meta-modelo. Os modelos de níveis inferiores são treinados com o conjunto de dados de treinamento completo e, em seguida, o modelo combinado é treinado com os resultados dos modelos de nível inferior. Ao contrário do reforço, cada modelo de nível inferior é submetido a um treinamento paralelo. A previsão dos modelos de nível inferior é usada como entrada para o próximo modelo como o conjunto de dados de treinamento e forma uma pilha na qual a camada superior do modelo é mais treinada que a camada inferior do modelo. O modelo da camada superior possui boa precisão de previsão e foi construído com base em modelos de nível inferior. A pilha continua aumentando até que a melhor previsão seja realizada com um erro mínimo. A previsão do modelo ou meta-modelo combinado é baseada na previsão dos diferentes modelos fracos ou modelos da camada inferior. Ele se concentra em produzir um modelo com menos viés.

4. Floresta aleatória

A floresta aleatória é um pouco diferente do ensacamento, pois usa árvores profundas que são ajustadas em amostras de bootstrap. A saída de cada trança é combinada para reduzir a variação. Ao aumentar cada árvore, em vez de gerar uma amostra de autoinicialização baseada em observação no conjunto de dados, também fazemos a amostragem do conjunto de dados com base nos recursos e usamos apenas um subconjunto aleatório dessa amostra para construir a árvore. Em outras palavras, a amostragem do conjunto de dados é feita com base em recursos que reduzem a correlação de diferentes saídas. A floresta aleatória é boa para decidir pela falta de dados. Floresta aleatória significa seleção aleatória de um subconjunto de uma amostra que reduz as chances de obter valores de previsão relacionados. Cada árvore tem uma estrutura diferente. A floresta aleatória resulta em um aumento no viés da floresta levemente, mas devido à média de todas as previsões menos relacionadas de diferentes árvores, a variação resultante diminui e proporciona um desempenho geral melhor.

Conclusão

A abordagem multi-modelo do ensemble é realizada por modelos de aprendizado profundo, nos quais dados complexos foram estudados e processados ​​por meio de combinações tão diferentes do classificador para obter uma melhor previsão ou classificação. A previsão de cada modelo na aprendizagem de conjuntos deve ser mais não correlacionada. Isso manterá o viés e a variação do modelo o mais baixo possível. O modelo será mais eficiente e prevê a saída com erro mínimo. O conjunto é um algoritmo de aprendizado supervisionado, pois o modelo é treinado anteriormente com o conjunto de dados para fazer a previsão. No aprendizado de conjuntos, o número de classificadores de componentes deve ser o mesmo que os rótulos das classes para obter alta precisão.

Artigos recomendados

Este é um guia para Métodos de Conjunto no Aprendizado de Máquina. Aqui discutimos os tipos importantes de métodos de conjunto no aprendizado de máquina, juntamente com a classificação técnica. Você também pode consultar nossos outros artigos sugeridos para saber mais -

  1. Introdução às Técnicas de Conjunto
  2. Ciclo de vida do aprendizado de máquina com vantagens
  3. Algoritmos de aprendizado de máquina
  4. As 24 principais perguntas da entrevista de aprendizado de máquina

Categoria: