Detecção de Anomalias em Tráfego de Dados em Redes IoT
Nos últimos anos, os avanços tecnológicos relacionados aos dispositivos e à infraestrutura da Internet das Coisas (IoT, do inglês Internet of things) possibilitou às grandes indústrias rastrear estoques, gerenciar máquinas e monitorar processos industriais de maneira mais rápida e eficaz, além de contribuir para o desenvolvimento de veículos autônomos e, no caso de consumidores individuais, automatizar residências e monitorar a saúde pessoal. Essa evolução também permitiu, devido às conexões com a Internet, que cada um desses dispositivos se tornasse um potencial alvo de ataque por indivíduos mal intencionados, sendo necessária uma maior preocupação com a segurança desse ambiente bastante heterogêneo. Como os dispositivos IoT são restritos em recursos computacionais e energia, os modelos de segurança tradicionais, que atuam como uma linha de defesa, agindo no processo de detecção de intrusos e ameaças, não podem ser diretamente adotados para eles. Uma alternativa é implementar um sistema de detecção de intrusão (IDS, do inglês Intrusion Detection System) em um gateway, protegendo assim os dispositivos IoT. Embora IDS's tradicionais empreguem técnicas estatísticas, abordagens mais recentes se concentram na utilização de algoritmos de aprendizado de máquina (ML, do inglês Machine Learning), que procuram aprender as características de cada tipo de ataque a partir de dados de tráfego de rede.
Devido à grande quantidade de dados de tráfego disponíveis, restringir os atributos de tráfego empregados para detecção de uma eventual ameaça é uma garantia de ganho computacional e de tempo. Assim, técnicas de seleção de atributos (ou de características) são fundamentais para uma implementação prática de um IDS usando ML. Além disso, como a disponibilidade de dados de tráfego normal é muito maior que a de dados de intrusões, é comum utilizar técnicas de reamostragem, que procuram equilibrar as quantidades de dados das duas classes de tráfego (normal e ataque), antes dos classificadores baseados em ML. Portanto, um dos objetivos principais deste trabalho é realizar uma análise comparativa de desempenho de diversas técnicas de seleção de atributos aplicadas a algoritmos de aprendizagem de máquina para IDS. Outro objetivo desta dissertação é avaliar a efetividade de técnicas de reamostragem para balanceamento dos dados. Em particular, neste trabalho de mestrado, foram utilizados três algoritmos para classificar os dados de tráfego IoT em normal ou de ataque, três técnicas de seleção de atributos e uma técnica de reamostragem. Os resultados obtidos indicam que classificadores baseados em árvores de decisão, com seleção de atributos usando a informação mútua, fornecem uma boa solução de compromisso entre complexidade computacional e desempenho de classificação. Além disso, para as bases de dados consideradas, não houve alteração significativa de desempenho dos classificadores ao se empregar a técnica de reamostragem simulada.