Introdução à Árvore de Decisão no Machine Learning

A Árvore de Decisão no Aprendizado de Máquina possui um amplo campo no mundo moderno. Existem muitos algoritmos no ML que são utilizados no dia a dia. Um dos algoritmos importantes é a Árvore de Decisão, usada para classificação e também uma solução para problemas de regressão. Como é um modelo preditivo, a Análise da Árvore de Decisão é feita por meio de abordagem algorítmica, na qual um conjunto de dados é dividido em subconjuntos conforme as condições. O próprio nome diz que é um modelo semelhante a uma árvore na forma de instruções if-then-else. Quanto mais profunda a árvore e mais os nós, melhor o modelo.

Tipos de árvore de decisão no Machine Learning

Árvore de Decisão é um gráfico semelhante a uma árvore em que a classificação começa do nó raiz ao nó folha até que o destino seja alcançado. É o mais popular para decisão e classificação com base em algoritmos supervisionados. É construído pelo particionamento recursivo, em que cada nó atua como um caso de teste para alguns atributos e cada aresta, derivada do nó, é uma resposta possível no caso de teste. Os nós raiz e folha são duas entidades do algoritmo.

Vamos entender com a ajuda de um pequeno exemplo da seguinte maneira:

Aqui, o nó raiz é se você tem menos de 40 anos ou não. Se sim, você come fast-food? Se sim, então você está inapto, ou então está em forma. E se você tem mais de 40 anos, então se exercita? Se sim, então você está em forma, ou então não está em forma. Esta foi basicamente uma classificação binária.

Existem dois tipos de árvores de decisão:

  1. Árvores de classificação: O exemplo acima é uma árvore de classificação baseada em categorias.
  2. Árvores de regressão : nesse tipo de algoritmo, a decisão ou resultado é contínuo. Ele possui uma única saída numérica com mais entradas ou preditores.

Na árvore de decisão, o desafio típico é identificar o atributo em cada nó. O processo é chamado de seleção de atributo e tem algumas medidas a serem usadas para identificar o atributo.

uma. Ganho de informação (IG)

O ganho de informações mede quanta informação um recurso individual fornece sobre a classe. Ele atua como a chave principal para construir uma Árvore de Decisão. Um atributo com o maior ganho de informação é dividido primeiro. Portanto, a Árvore de Decisão sempre maximiza o ganho de informações. Quando usamos um nó para particionar as instâncias em subconjuntos menores, a entropia muda.

Entropia: É a medida da incerteza ou impureza em uma variável aleatória. A entropia decide como uma Árvore de Decisão divide os dados em subconjuntos.

A equação para ganho de informação e entropia é a seguinte:

Ganho de informação = entropia (pai) - (média ponderada * entropia (filhos))

Entropia: ∑p (X) log p (X)

P (X) aqui é a fração de exemplos em uma determinada classe.

b. Índice Gini

O Índice de Gini é uma métrica que decide com que frequência um elemento escolhido aleatoriamente seria identificado incorretamente. Ele afirma claramente que o atributo com um baixo índice de Gini recebe a primeira preferência.

Índice de Gini: 1-∑ p (X) 2

Dividir criação

  1. Para criar uma divisão, primeiro, precisamos calcular a pontuação de Gini.
  2. Os dados são divididos usando uma lista de linhas com um índice de um atributo e um valor de divisão desse atributo. Depois que o conjunto de dados direito e esquerdo é encontrado, podemos obter o valor de divisão pela pontuação de Gini na primeira parte. Agora, o valor da divisão será o local onde o atributo residirá.
  3. A próxima parte é avaliar todas as divisões. O melhor valor possível é calculado avaliando o custo da divisão. A melhor divisão é usada como um nó da Árvore de Decisão.

Construindo uma árvore - Árvore de decisão no Machine Learning

Há duas etapas para criar uma Árvore de Decisão.

1. Criação do nó do terminal

Ao criar o nó do terminal, o mais importante é observar se precisamos parar de cultivar árvores ou prosseguir. As seguintes maneiras podem ser usadas para isso:

  • Profundidade máxima da árvore: quando a árvore atinge o número máximo de nós, a execução para por aí.
  • Registros mínimos do nó: ele pode ser definido como um mínimo de padrões exigidos por um nó. Então podemos parar de adicionar nós de terminal imediatamente, obtemos esses registros mínimos de nós.

2. Divisão recursiva

Depois que o nó é criado, podemos criar um nó filho recursivamente dividindo o conjunto de dados e chamando a mesma função várias vezes.

Predição

Depois que uma árvore é construída, a previsão é feita usando uma função recursiva. O mesmo processo de previsão é seguido novamente com nós filhos esquerdo ou direito e assim por diante.

Vantagens e desvantagens da árvore de decisão

Abaixo são dadas algumas vantagens e desvantagens:

Vantagens

A árvore de decisão tem algumas vantagens no Machine Learning, como a seguir:

  • Abrangente: leva em consideração cada resultado possível de uma decisão e rastreia cada nó até a conclusão de acordo.
  • Específico: as árvores de decisão atribuem um valor específico a cada problema, decisão e resultado (s). Reduz a incerteza e a ambiguidade e também aumenta a clareza.
  • Simplicidade: a Árvore de Decisão é um dos algoritmos mais fáceis e confiáveis, pois não possui fórmulas ou estruturas de dados complexas. Somente estatísticas e matemática simples são necessárias para o cálculo.
  • Versátil: as árvores de decisão podem ser construídas manualmente usando matemática e também com outros programas de computador.

Desvantagens

A árvore de decisão tem algumas desvantagens no Machine Learning, como a seguir:

  • As árvores de decisão são menos apropriadas para estimativa e tarefas financeiras onde precisamos de um valor apropriado.
  • É um algoritmo de classificação propenso a erros em comparação com outros algoritmos computacionais.
  • É computacionalmente caro. Em cada nó, a divisão do candidato deve ser classificada antes de determinar o melhor. Existem outras alternativas que muitas entidades de negócios seguem para tarefas financeiras, pois a Árvore de Decisão é muito cara para avaliação.
  • Ao trabalhar com variáveis ​​contínuas, a Árvore de Decisão não é adequada como a melhor solução, pois tende a perder informações ao categorizar variáveis.
  • Às vezes, é instável, pois pequenas variações no conjunto de dados podem levar à formação de uma nova árvore.

Conclusão - Árvore de decisão no aprendizado de máquina

Como um dos algoritmos mais importantes e supervisionados, a Decision Tree desempenha um papel vital na análise de decisões na vida real. Como modelo preditivo, é usado em muitas áreas por sua abordagem dividida, o que ajuda a identificar soluções com base em diferentes condições, seja pelo método de classificação ou de regressão.

Artigos recomendados

Este é um guia para a Árvore de Decisão no Machine Learning. Aqui discutimos a introdução Tipos de árvore de decisão no Machine Learning, criação de divisão e Construção de uma árvore. Você também pode consultar nossos outros artigos sugeridos para saber mais:

  1. Tipos de dados Python
  2. Conjuntos de dados do Tableau
  3. Modelagem de Dados Cassandra
  4. Teste da tabela de decisão
  5. As 8 principais etapas do ciclo de vida do Machine Learning

Categoria: