Redes neurais convolucionais para classificação de imagens e detecção de objetos com casos de uso
Nos últimos anos vemos na sociedade uma proliferação de soluções inovadoras e arrojadas sobretudo nos campos de visão computacional, reconhecimento e síntese de fala. Quando olhamos mais atentamente para tais implementações verificamos que elas possuem algoritmos baseados em redes neurais convolucionais profundas (CNN, do inglês Convolutional Neural Network), treinadas em hardware de alto poder computacional com modernas placas gráficas de processamento paralelo de propósito geral. Mais recentemente vimos propostas para racionalização desses recursos computacionais e um foco em desempenho de modo a atingir execuções em tempo real. Dado este contexto, o presente trabalho tem como objetivo analisar e propor soluções utilizando abordagens CNN, tais como, arquiteturas Google Net, Mobile Net, VGG (versão 16 e 24), NasNet e DenseNet. Estas soluções serão aplicadas em problemas ainda pouco explorados como digitalização de livros, detecção de gestos, detecção de códigos de barra e QRCodes, onde todas essas tarefas têm como entrada principal de dados imagens adquiridas por câmera de vídeo convencional e a análise é efetuada em tempo real. Como resultados, constatamos que a melhor arquitetura depende de cada um destes problemas.