Detecção de Anomalias em Redes Utilizando Autoencoder
Atualmente, a segurança digital pode ser vista como uma área de extrema importância econômica, tendo em vista o ativo de altíssimo valor que se tornou a informação, denominando a época atual como a "Era da Informação". Com isso, mecanismos de proteção de dados como os Sistemas de Detecção de Intrusão (IDS, do inglês Intrusion Detection Systems), responsáveis por monitorar e inspecionar atividades em rede para detectar ameaças, se tornaram essenciais.
Um IDS clássico, baseia-se em quatro componentes: decodificador, pré-processador, sistema de decisão e o mecanismo de defesa, sendo o mais importante o sistema de decisão, pois nele que o processo de detecção de ataque ocorre. Duas abordagens diferentes pode ser utilizadas: a abordagem por Mau-Uso origina os Sistemas de Detecção por Mau-Uso (MDS, do inglês Misuse Detection Systems), onde são utilizadas características previamente conhecidas dos ataques para realizar a detecção, e a abordagem por Anomalia, que origina os Sistemas de Detecção por Anomalia (ADS, do inglês Anomaly Detection Systems), onde é utilizado o desvio de padrão nos dados, sendo este padrão determinado pelo uso normal da rede, para a detecção. Uma vantagem dos ADS sobre os MDS é a não necessidade de conhecimento específico dos ataques a serem detectados, possibilitando a detecção de ataques desconhecidos.
Diversas técnicas de aprendizados de máquina vem sendo utilizadas para a resolução deste problema, porém estes algoritmos não apresentam bom desempenho quando os dados disponíveis para treinamento são desbalanceados, isto é, há uma predominância considerável de determinadas classes em relação a outras. Neste sentido, os Auto Codificadores (AE, do inglês Autoencoders) têm sido utilizados, por permitir o treinamento utilizando apenas a classe de dados majoritária no conjunto evitando o desbalanceamento. Esta característica de treinamento de AE possibilita sua utilização como um classificador através do erro de reconstrução (RE, do inglês reconstruction error) extraído, sendo RE considerado pequeno para a classe de treinamento e maior para qualquer outra, possibilitando uma distinção. A classificação deste RE é realizada através de sua comparação com um limiar, geralmente, calculado utilizando testes de hipótese, resultando em diferentes critérios para o seu cálculo. Como isso, a obtenção de um limiar para conseguir fazer a detecção utilizando AEs é uma questão em aberto. Neste trabalho, é proposto que esta decisão seja tomada por outro algoritmo de aprendizado de máquina, sendo este limiar substituído por estes algoritmos. Além disso, um pipeline para o treinamento do sistema completo é proposto, sendo também testado em um conjunto de dados baseado em aplicação IoT.