Dimensionamento da Decomposição do Viés e da Variância em Estudo na Ciência de Materiais
A maioria das aplicações de aprendizado de máquina envolvendo bancos de dados de
química quântica utilizam exclusivamente um único parâmetro estatístico, por exemplo
o erro médio quadrático (EMQ), para avaliação do desempenho da predição. Entretanto
esta abordagem possui limitações, ou pode acarretar em interpretações incorretas. Aqui
é apresentada uma investigação sistemática sobre dois componente do EMQ, o viés e a
variância, utilizando o banco de dados QM9 como fonte de informações de treino e teste.
Nesta abordagem são utilizados três descritores considerados como estado da arte: (i) o
Symmetry Functions (SF) com dois e três corpos, (ii) o Many-body tensor representation
(MBTR) também com dois e três corpos e (iii) o Smooth Overlap of Atomic Positions
(SOAP). A avaliação do processo de predição feito com estes três descritores utilizou
diferentes quantidades de moléculas nas amostras de treino e o efeito do viés e da variância
no EMQ. Normalmente tamanhos de amostra baixos estão relacionados a EMQ mais alto.
Além disso, o componente de viés influencia fortemente os maiores EMQs. Também há uma
baixa correlação entre as moléculas com os erros atípicos, para todos os descritores. De
acordo com os resultados obtidos para a distribuição do EMQ (incluindo seus componentes
viés e variância) e a presença de erros atípicos, fica indicado o uso de conjuntos de
descritores com baixo viés (no caso do QM9, a melhor combinação é o uso das duas versões
do MBTR) para minimizar o EMQ, mais especificamente usando um pequena quantidade
de moléculas na amostra de treino.