Como instalar o NLTK?

O artigo a seguir Instalar o NLTK fornece um esboço para a instalação do NLTK. NLTK é um conjunto de bibliotecas para processamento de linguagem natural. É uma plataforma para a criação de programas Python para processar a linguagem natural. O NLTK é escrito na linguagem de programação Python. Foi desenvolvido por Steven Bird e Edward Loper. Ele suporta pesquisa e ensino em PNL ou em áreas estreitamente relacionadas, incluindo ciência cognitiva, linguística empírica, recuperação de informações, inteligência artificial e aprendizado de máquina. O NLTK fornece uma interface fácil de usar.

NLTK (Natural Language Toolkit)

  • O processamento da linguagem natural (PNL) é uma parte da inteligência artificial que processa a linguagem falada pelos seres humanos. Assim, ajuda os humanos a interagir com os computadores, mesmo que eles não tenham conhecimento de como usá-lo. Usando a PNL, os humanos precisam apenas ditar o comando para os computadores. Com o poder do aprendizado de máquina, o Processamento de linguagem natural está se tornando popular e mais fácil de implementar. É basicamente a técnica para interagir com seres humanos e executar ações em comandos de voz.
  • Isso permite que os dispositivos sejam usados ​​até mesmo pelo iniciante que não tem conhecimento de tecnologia. Mas a implementação do processamento de linguagem natural não é fácil, pois uma linguagem falada por humanos não tem estrutura definida. É ambíguo e depende de palavras de contexto que podem ter um significado diferente.
  • O NLTK possui mais de 50 corpora e fontes lexicais como WordNet, Problem Report Corpus, Penn Treebank Corpus, etc. Ele também vem com um guia que explica os conceitos de processamento de linguagem por kit de ferramentas e fundamentos de programação do Python, o que facilita as pessoas. que não têm conhecimento profundo de programação. Ele possui uma ampla variedade de pacotes, o que o torna um dos kits de ferramentas poderosos para a PNL. Tokenização, Lematização, Stemming, Análise, Contagem de caracteres, Pontuação, Contagem de palavras são alguns desses pacotes.

Instale o NLTK para Windows

Abaixo estão as instruções para instalar o NLTK no Windows. Eles são baseados no pressuposto de que o Python não está instalado no sistema. O NLTK requer versões Python 2.7, 3.5 e superior.

Etapa 1: Baixe a versão mais recente do Python para Windows no link abaixo

https://www.python.org/downloads/

Etapa 2: Clique em .exe baixado para executá-lo.

Etapa 3: selecione personalizar a instalação.

Etapa 4: verifique todos os recursos, especialmente “pip”, pois ajuda a instalar o NLTK e clique em Avançar.

Etapa 5: na próxima tela, selecione opções avançadas, selecione o caminho e clique em instalar.

Etapa 6: Quando a instalação for bem-sucedida, feche a janela.

Etapa 7: Copie o caminho da pasta Scripts para instalar o NLTK na mesma pasta.

O NLTK pode ser facilmente instalado usando um instalador "pip". Além disso, temos que instalar o "numpy" também.

Etapa 8: Para instalar o NLTK, abra o prompt de comando e digite o comando abaixo.

Verifique se a instalação foi bem-sucedida.

Após a instalação bem-sucedida, agora é hora de usar o NLTK para processamento de linguagem natural.

Etapa 9: Abra o Python Shell e digite o comando abaixo.

Se for importado sem nenhum erro, significa que o NLTK está instalado corretamente.

Instale o NLTK para Mac / Linux

Ao contrário do Windows, os sistemas Linux vêm com o Python instalado nele. Para instalar o NLTK no Linux / Mac, é usado o instalador do pacote Pip do Python. Para instalar o pip ou atualizá-lo, digite os comandos abaixo no prompt de comando.

Para instalar o python no Linux, use os comandos abaixo.

Etapa 1: Para atualizar o índice do pacote, use o comando abaixo.

Etapa 2: Para instalar o Python no sistema Linux, use abaixo.

Etapa 3: Digite o comando abaixo para instalar o "pip" para Python 3.

Etapa 4: Depois que o "Pip" for instalado com sucesso, use os seguintes comandos para instalar o NLTK.

Conjunto de dados NLTK

O NLTK tem muitos conjuntos de dados disponíveis para processamento de linguagem natural, por exemplo, WordNet, WikiCorpus, Gutenberg, Opinion Lexicon, Tweebank, etc. Esses conjuntos de dados são chamados de corpora. Basicamente, o conjunto de dados NLTK contém um conjunto de arquivos ou documentos. Cada arquivo / documento contém uma coleção de palavras, letras ou texto em um único idioma. Assim, um corpus é principalmente bibliotecas para entender / aprender um idioma. Possui regras de gramática e estrutura de um idioma.

Após a instalação bem-sucedida do NLTK, você pode importá-lo e também baixar seus corpora com o seguinte comando.

O NLTK Downloader abre uma janela para baixar os conjuntos de dados. O tamanho do conjunto de dados é grande, portanto, levará tempo. Para testar se os conjuntos de dados estão instalados corretamente, tente importar o conjunto de dados e use-o.

Processamento de NLTK

Existem 5 processos principais de processamento de linguagem natural. Estas são as etapas envolvidas no processamento de qualquer texto.

  1. Detecção EOS : a detecção de final de fala divide o texto em uma coleção de frases significativas. Ele divide o texto longo em partes com algum significado.
  2. Tokenização : Esta etapa divide as frases em tokens. Os tokens não contêm apenas palavras, mas também incluem espaços em branco, quebras de frase.
  3. Marcação no PDV : PDV significa comunicação de voz. Aqui, as informações são atribuídas ao token. Esta informação sugere que tipo de fala é tensa, verbo, adjetivo, substantivo, etc.
  4. Chunking : Chunking significa coletar texto com base em tags.
  5. Extração: a extração é um processo contínuo de passar por partes e identificá-las como entidades nomeadas, como pessoas, locais, organizações etc.

Conclusão:

O NLTK é usado para classificação de texto, legenda de imagens, reconhecimento de fala, resposta a perguntas, modelagem de idiomas, resumo de documentos e muitas outras operações. Existem muitas outras ferramentas para processamento de linguagem natural. Mas o NLTK possui uma ampla variedade de bibliotecas, o que o torna uma das poderosas ferramentas de processamento de linguagem natural. É mais preciso do que qualquer outra ferramenta, mas devido a um grande número de bibliotecas, é um pouco lento. Portanto, tudo depende dos requisitos do usuário. Se o usuário deseja velocidade, ele também pode preferir outras ferramentas, mas precisará comprometer a precisão do conteúdo. Mas se a precisão é uma prioridade, eles definitivamente devem usar o NLTK.

Artigos recomendados:

Este foi um guia para instalar o NLTK. Aqui discutimos o conceito básico e as diferentes etapas para instalar o NLTK no Windows e Linux \ Mac. Você também pode consultar os seguintes artigos para saber mais:

  1. Instalar o painel do Kubernetes
  2. Como instalar o JDK
  3. Instalar o Docker
  4. Como instalar o Magento?
  5. Versões de Magento | Recursos das versões do Magento