Introdução às redes neurais convolucionais

As redes neurais convolucionais, também conhecidas como CNN ou ConvNet, fazem parte da categoria de redes neurais artificiais usadas para processamento e visualização de imagens. A inteligência artificial usa aprendizado profundo para executar a tarefa. As redes neurais são hardware ou software programadas como neurônios no cérebro humano. A rede neural tradicional captura apenas imagens de resolução reduzida como entradas. A CNN resolve esse problema organizando seus neurônios como o lobo frontal do cérebro humano. O pré-processamento na CNN é muito menor quando comparado a outros algoritmos. Convolução, uma operação matemática linear é empregada na CNN. Ele usa convolução em vez de multiplicação de matriz geral em uma de suas camadas.

Camadas em redes neurais convolucionais

Abaixo estão as camadas das redes neurais convolucionais:

1. Camada de entrada de imagem

A camada de entrada fornece entradas (principalmente imagens) e a normalização é realizada. O tamanho da entrada deve ser mencionado aqui.

2. Camada Convolucional

A convolução é realizada nessa camada e a imagem é dividida em perceptrons (algoritmo), são criados campos locais que levam à compressão dos perceptrons para apresentar mapas como uma matriz com tamanho mx n.

3. Camada de não linearidade

Aqui, os mapas de recursos são tomados como entrada e os mapas de ativação são dados como saída com a ajuda da função de ativação. A função de ativação é geralmente implementada como funções tangentes sigmóides ou hiperbólicas.

4. Camada de retificação

O componente crucial da CNN, essa camada faz o treinamento mais rápido, sem reduzir a precisão. Ele realiza operação de valor absoluto em termos de elementos nos mapas de ativação.

5. Unidades lineares retificadas (ReLU)

O ReLU combina camadas não lineares e de retificação na CNN. Isso faz a operação de limite em que valores negativos são convertidos em zero. No entanto, ReLU não altera o tamanho da entrada.

6. Camada de pool

A camada de pool também é chamada de camada de downsampling, pois é responsável por reduzir o tamanho dos mapas de ativação. Um filtro e passada do mesmo comprimento são aplicados ao volume de entrada. Dados menos significativos são ignorados por essa camada, portanto, o reconhecimento de imagem é feito em uma representação menor. Essa camada reduz o super ajuste. Como a quantidade de parâmetros é reduzida usando a camada de pool, o custo também é reduzido. A entrada é dividida em regiões de pool retangular e é calculado o máximo ou a média, que retornam o máximo ou a média consequentemente. O Max Pooling é popular.

7. Camada de abandono

Essa camada define aleatoriamente a camada de entrada para zero com uma determinada probabilidade. Mais resultados em diferentes elementos são descartados após esta operação. Essa camada também ajuda a reduzir o excesso de ajuste. Isso torna a rede redundante. Nenhum aprendizado acontece nesta camada. Esta operação é realizada apenas durante o treinamento.

8. Camada totalmente conectada

Os mapas de ativação, que são a saída das camadas anteriores, são transformados em uma distribuição de probabilidade de classe nessa camada. A camada FC multiplica a entrada por uma matriz de peso e adiciona o vetor de polarização.

9. Camada de Saída

A camada FC é seguida pelas camadas softmax e classificação. A função softmax é aplicada à entrada. A camada de classificação calcula a função de entropia cruzada e perda para problemas de classificação.

10. Camada de regressão

O erro quadrático médio é calculado nesta camada. Essa camada deve seguir a camada FC.

Arquitetura da Rede Neural Convolucional

Abaixo está a arquitetura das redes neurais convolucionais:

1. LeNet

O LeNet foi introduzido para reconhecimento óptico e de caracteres em documentos em 1998. É pequeno e perfeito para rodar na CPU. LeNet é pequeno e fácil de entender. Isso é construído com três idéias principais: campos receptivos locais, pesos compartilhados e subamostragem espacial. A rede mostra a melhor representação interna de imagens brutas. Possui três camadas convolucionais, duas camadas de pool, uma camada totalmente conectada e uma camada de saída. Uma camada convolucional foi imediatamente seguida pela camada de agrupamento. Todas as camadas são explicadas acima.

2. AlexNet

AlexNet foi desenvolvido em 2012. Essa arquitetura popularizou a CNN em visão computacional. Possui cinco camadas convolucionais e três totalmente conectadas, nas quais o ReLU é aplicado após cada camada. Ele tira as vantagens de ambas as camadas, pois uma camada convolucional tem poucos parâmetros e computação longa e é o oposto de uma camada totalmente conectada. O excesso de ajuste foi muito reduzido pelo aumento e abandono de dados. O AlexNet era mais profundo, as camadas maiores e convolucionais não são separadas pela camada de pool em comparação com o LeNet.

3. ZF Net

O ZF Net foi desenvolvido em 2013, que era uma versão modificada do AlexNet. O tamanho da camada convolucional média foi expandido e o passo da primeira camada convolucional e o tamanho do filtro foram reduzidos. Apenas reconheceu as deficiências da AlexNet e desenvolveu uma superior. Todas as camadas são iguais ao AlexNet. O ZF Net ajusta os parâmetros da camada, como tamanho do filtro ou passo do AlexNet, o que reduz as taxas de erro.

4. GoogLeNet

Essa arquitetura foi desenvolvida em 2014. A camada inicial é o conceito principal. Essa camada cobre a área maior, mas anota pequenas informações da imagem. Para melhorar o desempenho, nove módulos iniciais são usados ​​no GoogLeNet. Como a camada inicial é propensa a sobreajuste, mais não linearidades e menos parâmetros são usados ​​aqui. A camada de pool máximo é usada para concatenar a saída da camada anterior. Essa arquitetura possui 22 camadas e os parâmetros são 12x a menos. Isso é mais preciso que o AlexNet, mais rápido também. A taxa de erro é comparativamente menor. A camada média de pool é usada no final, em vez de uma camada totalmente conectada. A computação é reduzida, a profundidade e a largura são aumentadas. Muitos módulos iniciais estão conectados para aprofundar a arquitetura. O GoogLeNet superou todas as outras arquiteturas desenvolvidas até 2014. Diversas versões de acompanhamento estão disponíveis para essa arquitetura.

5. Rede VGG

Isso foi uma melhoria em relação à ZFNet e posteriormente à AlexNet. Possui 16 camadas com 3 × 3 camadas convolucionais, 2 × 2 camadas de pool e camadas totalmente conectadas. Essa arquitetura adota a estrutura de rede mais simples, mas possui a maioria dos parâmetros.

6. ResNet

A arquitetura de rede residual foi desenvolvida em 2015. Ela usa a normalização em lote e ignora o uso das camadas FC. Essa arquitetura usa 152 camadas e pula conexões. O ResNet agora é usado principalmente em todos os algoritmos de aprendizado profundo.

Conclusão

O Facebook usa a CNN para marcação de imagens, a Amazon para recomendações de produtos e o Google para pesquisar entre fotos de usuários. Tudo isso é feito com maior precisão e eficiência. O avanço da aprendizagem profunda chegou a um estágio em que a CNN foi desenvolvida e ajuda de várias maneiras. À medida que a CNN se torna complicada, ajuda a melhorar a eficiência.

Artigo recomendado

Este é um guia para redes neurais convolucionais. Aqui discutimos Introdução às redes neurais convolucionais e suas camadas, juntamente com a arquitetura. Você também pode consultar nossos outros artigos sugeridos para saber mais -

  1. Classificação da Rede Neural
  2. Aprendizado de máquina versus rede neural
  3. Visão geral dos algoritmos de redes neurais
  4. Redes Neurais Recorrentes (RNN)
  5. Implementação de redes neurais
  6. Top 6 Comparações entre CNN vs RNN

Categoria: