Introdução à criação de uma árvore de decisão
Com o recente crescimento rápido da quantidade de dados gerados pelos sistemas de informação, para lidar com grandes conjuntos de dados, existe uma necessidade dominante da árvore de decisão para reduzir a complexidade da computação. Uma árvore de decisão pode ser considerada a abordagem mais importante para representar os classificadores. Em outras palavras, podemos dizer que os dados são estruturados usando uma estratégia de dividir e conquistar. saber que nós apenas exploramos. Uma árvore de decisão é estruturada como uma estrutura para precisão dos valores e probabilidade das decisões sobre resultados
m cada nível do nó, ajudando os tomadores de decisão a escolher previsões corretas entre os vários dados inadequados. Neste artigo, você mostrará como criar uma árvore de decisão com base em dados de amostra de uma maneira simples.
O que é a Árvore de Decisão?
Uma árvore de decisão é uma estrutura hierárquica binária que identifica a maneira como cada nó divide um conjunto de dados com base em diferentes condições. Construir uma árvore ideal com uma abordagem de modelo para classificar uma variável de resposta que prediz o valor de uma variável de destino com regras de decisão simples (instruções if-then-else). A abordagem é um aprendizado supervisionado usado principalmente em problemas de classificação e considerado um modelo preditivo muito eficaz. Eles são usados em diferentes domínios de aplicação, como teoria dos jogos, inteligência artificial, aprendizado de máquina, mineração de dados e áreas como segurança e medicina.
Como criar uma árvore de decisão?
Uma árvore de decisão é criada de maneiras simples com a maneira de cima para baixo; eles consistem em nós que formam um nó direcionado que possui nós raiz sem arestas de entrada. Todos os outros nós são chamados de nós de decisão (nó interno e nós folha que correspondem aos rótulos de atributo e classe) com pelo menos uma borda de entrada. O principal objetivo dos conjuntos de dados é minimizar os erros de generalização, encontrando a solução ideal na árvore de decisão.
Um exemplo de uma árvore de decisão é explicado abaixo com um conjunto de dados de amostra. O objetivo é prever se um lucro cai ou não usando os atributos da vida e da competição. Aqui, as variáveis da árvore de decisão são categóricas (Sim, Não).
O conjunto de dados
Vida | Concorrência | Tipo | Lucro |
Velho | sim | Programas | Baixa |
Velho | Não | Programas | Baixa |
Velho | Não | Hardware | Baixa |
Meados | sim | Programas | Baixa |
Meados | sim | Hardware | Baixa |
Meados | Não | Hardware | Acima |
Meados | Não | Programas | Acima |
Novo | sim | Programas | Acima |
Novo | Não | Hardware | Acima |
Novo | Não | Programas | Acima |
Do conjunto de dados acima: vida, competição, Tipo são os preditores e o atributo lucro é o objetivo. Existem vários algoritmos para implementar uma árvore de decisão, mas o melhor algoritmo usado para construir uma árvore de decisão é o ID3, que enfatiza a abordagem de busca gananciosa. A árvore de decisão segue a regra de inferência de decisão ou a forma normal disjuntiva (^).
Árvore de decisão
Inicialmente, todo o atributo de treinamento é considerado a raiz. A prioridade da ordem para colocar os atributos como raiz é feita pela seguinte abordagem. Esse processo é conhecido por atribuir seleção para identificar qual atributo é feito para ser um nó raiz em cada nível. A árvore segue dois passos: construção de uma árvore, poda de árvores. E os dados são divididos em todos os nós de decisão.
Ganho de informação
É a medida da mudança na entropia com base na variável independente. A árvore de decisão deve encontrar o maior ganho de informações.
Entropia
A entropia é definida como para o conjunto finito, a medida da aleatoriedade nos dados ou na previsibilidade de eventos, se a amostra é de valores semelhantes, a entropia é zero e se é igualmente dividida com a amostra, é uma.
Entropia para a classe
Onde p é a probabilidade de obter lucro para dizer 'sim' e N é perda, diga 'não'.
portanto, entropia = 1
Uma vez calculado o valor da entropia, é necessário decidir um nó raiz a partir do atributo.
Entropia da Idade
De acordo com o conjunto de dados para o atributo Life, temos old = 3 down, mid = 2 down e um up em relação ao rótulo de lucro.
Vida | Pi | ni | I (pi, ni) | |
Velho | 0 0 | 3 | 0 0 | |
Meados | 2 | 2 | 1 1 | |
Novo | 3 | 0 0 | 0 0 |
Ganho = Entropia de Classe - Entropia de Vida = 1 - 0, 4 = 0, 6
Entropia (competição) = 0, 87
Concorrência | Pi | ni | I (pi, ni) | |
sim | 1 1 | 3 | 0, 8 | |
Não | 4 | 2 | 0, 9 |
Ganho = Entropia de Classe - Entropia de Vida = 1 - 0, 87 = 0, 12
Agora, o problema surge no atributo Vida, em que o meio tem uma probabilidade igual, tanto para cima quanto para baixo. portanto, a entropia é 1. Da mesma forma, é calculada para o atributo type novamente, a entropia é 1 e o ganho é 0. Agora, uma decisão completa foi criada para obter um resultado preciso para o valor médio.
Vantagens da árvore de decisão
- Eles são fáceis de entender e as regras geradas são flexíveis. Tem pouco esforço para preparação de dados.
- Uma abordagem visual para representar decisões e resultados é muito útil.
- A árvore de decisão lida com o conjunto de dados de treinamento com erros e valores ausentes.
- Eles podem manipular valor discreto e um atributo numérico. Trabalha variáveis categóricas e contínuas para entrada e saída.
- Eles são uma ferramenta útil para o domínio comercial que precisa tomar decisões após a análise sob determinadas condições.
Desvantagens da Árvore de Decisão
- Os alunos podem criar uma árvore de decisão complexa, dependendo dos dados treinados. esse processo é denominado sobreajuste, um processo difícil nos modelos de árvore de decisão.
- Os valores preferidos para ser são categóricos; se for contínua, a árvore de decisão perde informações que levam a propensão a erros. O crescimento exponencial do cálculo é maior durante a análise.
- Muitos rótulos de classe levam a cálculos complexos incorretos e oferecem baixa precisão de previsão do conjunto de dados.
- As informações obtidas no algoritmo DT fornecem uma resposta tendenciosa aos valores mais altos categóricos.
Conclusão
Portanto, para concluir, as árvores de decisão fornecem um método prático e fácil para o aprendizado e são fortemente conhecidas como ferramentas eficientes para o aprendizado de máquina, pois em pouco tempo elas se saem bem com grandes conjuntos de dados. É uma tarefa de aprendizado que utiliza uma abordagem estatística para tirar uma conclusão generalizada. Agora, é melhor entender por que a árvore de decisão é usada na modelagem preditiva e, para os cientistas de dados, eles são a ferramenta poderosa.
Artigos recomendados
Este é um guia para criar uma árvore de decisão. Aqui discutimos como criar uma árvore de decisão, juntamente com várias vantagens e desvantagens. Você também pode consultar nossos outros artigos sugeridos para saber mais -
- Visão geral da árvore de decisão em R
- O que é o algoritmo da árvore de decisão?
- Introdução às Ferramentas de Inteligência Artificial
- As 10 principais perguntas da entrevista sobre inteligência artificial