Introdução ao Algoritmo da Árvore de Decisão

Quando temos um problema a resolver que é um problema de classificação ou de regressão, o algoritmo da árvore de decisão é um dos algoritmos mais populares usados ​​para construir os modelos de classificação e regressão. Eles se enquadram na categoria de aprendizado supervisionado, ou seja, dados que são rotulados.

O que é o algoritmo da árvore de decisão?

O algoritmo da árvore de decisão é um algoritmo supervisionado de aprendizado de máquina em que os dados são continuamente divididos em cada linha com base em certas regras até que o resultado final seja gerado. Vamos dar um exemplo, suponha que você abra um shopping e, é claro, gostaria que ele crescesse nos negócios com o tempo. Portanto, você precisará de clientes que retornam e novos clientes em seu shopping. Para isso, você prepararia estratégias comerciais e de marketing diferentes, como o envio de emails para clientes em potencial; criar ofertas e negócios, visando novos clientes etc. Mas como sabemos quem são os clientes em potencial? Em outras palavras, como classificamos a categoria dos clientes? Como alguns clientes visitam uma vez por semana e outros gostariam de visitar uma ou duas vezes em um mês, ou alguns visitam em um quarto. Portanto, as árvores de decisão são um desses algoritmos de classificação que classificarão os resultados em grupos até que não haja mais similaridade.

Dessa maneira, a árvore de decisão desce em um formato estruturado em árvore. Os principais componentes de uma árvore de decisão são:

  • Nós de decisão, onde os dados são divididos ou digitados, é um local para o atributo.
  • Link de decisão, que representa uma regra.
  • Folhas de decisão, que são os resultados finais.

Trabalho de um algoritmo de árvore de decisão

Há muitas etapas envolvidas no trabalho de uma árvore de decisão:

1. Divisão - É o processo de particionamento de dados em subconjuntos. A divisão pode ser feita por vários fatores, como mostrado abaixo, ou seja, com base no sexo, na altura ou na classe.

2. Poda - É o processo de encurtar os galhos da árvore de decisão, limitando a profundidade da árvore

A poda também é de dois tipos:

  • Pré-poda - Aqui paramos de crescer a árvore quando não encontramos nenhuma associação estatisticamente significativa entre os atributos e a classe em qualquer nó específico.
  • Pós-poda - Para postar a poda, devemos validar o desempenho do modelo do conjunto de testes e, em seguida, cortar os galhos resultantes do excesso de ajuste do ruído do conjunto de treinamento.

3. Seleção de árvore - O terceiro passo é o processo de encontrar a menor árvore que se ajusta aos dados.

Exemplos e ilustração de construção de uma árvore de decisão

Agora, como aprendemos os princípios de uma Árvore de Decisão. Vamos entender e ilustrar isso com a ajuda de um exemplo.

Digamos que você queira jogar críquete em um dia específico (por exemplo, sábado). Quais são os fatores envolvidos que decidirão se a peça vai acontecer ou não?

Claramente, o principal fator é o clima, nenhum outro fator tem tanta probabilidade quanto o clima para a interrupção do jogo.

Reunimos os dados dos últimos 10 dias, que são apresentados abaixo:

DiaClimaTemperaturaUmidadeVentoToque?
1 1NubladoQuenteAltoFracosim
2EnsolaradoQuenteAltoFracoNão
3EnsolaradoSuaveNormalFortesim
4ChuvosoSuaveAltoForteNão
5NubladoSuaveAltoFortesim
6ChuvosoLegalNormalForteNão
7ChuvosoSuaveAltoFracosim
8EnsolaradoQuenteAltoForteNão
9NubladoQuenteNormalFracosim
10ChuvosoSuaveAltoForteNão

Vamos agora construir nossa árvore de decisão com base nos dados que obtivemos. Portanto, dividimos a árvore de decisão em dois níveis, o primeiro é baseado no atributo "Clima" e a segunda linha é baseada em "Umidade" e "Vento". As imagens abaixo ilustram uma árvore de decisão aprendida.

Também podemos definir alguns valores limite se os recursos forem contínuos.

O que é Entropia no Algoritmo da Árvore de Decisão?

Em palavras simples, entropia é a medida de quão desordenados são seus dados. Embora você possa ter ouvido esse termo nas aulas de Matemática ou Física, é o mesmo aqui.

A razão pela qual a Entropia é usada na árvore de decisão é porque o objetivo final da árvore de decisão é agrupar grupos de dados semelhantes em classes semelhantes, ou seja, organizar os dados.

Vamos ver a imagem abaixo, onde temos o conjunto de dados inicial e somos obrigados a aplicar o algoritmo da árvore de decisão para agrupar os pontos de dados semelhantes em uma categoria.

Após a divisão da decisão, como podemos ver claramente, a maioria dos círculos vermelhos se enquadra em uma classe, enquanto a maioria das cruzes azuis se enquadra em outra classe. Portanto, uma decisão foi classificar os atributos que poderiam ser baseados em vários fatores.

Agora, vamos tentar fazer algumas contas aqui:

Digamos que temos conjuntos "N" do item e esses itens se enquadram em duas categorias e, agora, para agrupar os dados com base em rótulos, apresentamos a proporção:

A entropia do nosso conjunto é dada pela seguinte equação:

Vamos verificar o gráfico para a equação dada:

Acima da imagem (com p = 0, 5 e q = 0, 5)

Vantagens

1. Uma árvore de decisão é simples de entender e, uma vez entendida, podemos construí-la.

2. Podemos implementar uma árvore de decisão em dados numéricos e categóricos.

3. A Árvore de Decisão provou ser um modelo robusto com resultados promissores.

4. Eles também são eficientes em termos de tempo com grandes dados.

5. Requer menos esforço para o treinamento dos dados.

Desvantagens

1. Instabilidade - Somente se as informações forem precisas e exatas, a árvore de decisão fornecerá resultados promissores. Mesmo se houver uma pequena alteração nos dados de entrada, isso pode causar grandes alterações na árvore.

2. Complexidade - Se o conjunto de dados é enorme, com muitas colunas e linhas, é uma tarefa muito complexa projetar uma árvore de decisão com muitos ramos.

3. Custos - Às vezes, o custo também permanece um fator principal, porque quando é necessário construir uma árvore de decisão complexa, é necessário conhecimento avançado em análise quantitativa e estatística.

Conclusão

Neste artigo, aprendemos sobre o algoritmo da árvore de decisão e como construir um. Também vimos o grande papel desempenhado pelo Entropy no algoritmo da árvore de decisão e, finalmente, vimos as vantagens e desvantagens da árvore de decisão.

Artigos recomendados

Este foi um guia para o algoritmo da árvore de decisão. Aqui discutimos o papel desempenhado por Entropia, Trabalho, Vantagens e Desvantagem. Você também pode consultar nossos outros artigos sugeridos para saber mais -

  1. Métodos importantes de mineração de dados
  2. O que é aplicativo da Web?
  3. Guia de O que é Ciência de Dados?
  4. Perguntas da entrevista do analista de dados
  5. Aplicação da árvore de decisão na mineração de dados

Categoria: