Dimensionamento da Decomposição do Viés e da Variância em Estudo na Ciência de Materiais
A maioria das aplicações de aprendizado de máquina envolvendo bancos de dados de química quântica utilizam exclusivamente um único parâmetro estatístico, por exemplo o Erro Quadrático Médio (EQM), para avaliação do desempenho da predição. Entretanto esta abordagem possui limitações, ou pode acarretar em interpretações incorretas. Aqui é apresentada uma investigação sistemática sobre dois componentes do EQM, o viés e a variância, utilizando o banco de dados QM9 como fonte de informações de treino e teste. Nesta abordagem são utilizados três descritores considerados como estado da arte: $(i)$ o \textit{Symmetry Functions} (SF) com dois e três corpos, $(ii)$ o \textit{Many-body tensor representation} (MBTR) também com dois e três corpos e $(iii)$ o \textit{Smooth Overlap of Atomic Positions} (SOAP). Foi avaliado o processo de predição feito com estes três descritores utilizando diferentes quantidades de moléculas nas amostras de treino e o efeito do viés e da variância no EQM. Normalmente tamanhos de amostra baixos estão relacionados a EQM mais alto. Além disso, o componente de viés influencia fortemente os maiores EQMs. Também há uma baixa correlação entre as moléculas com os erros atípicos, para todos os descritores. Entretanto, existe uma grande correlação entre os conjunto de interseção entre os \textit{outliers} dos diferentes descritores e o volume do fecho convexo das coordenadas geométricas (VFC). De acordo com os resultados obtidos com a distribuição do EQM (e seus componentes viés e variância) e a presença de \textit{outliers}, o uso de \textit{ensembles} composto de modelos com um viés baixo minimiza o EQM, mais especificamente quando é utilizado um número baixo de moléculas na amostra de treinamento.