Agrupamento com supervisão para seleção de moléculas em banco de dados químicos
Arquivos
Data
2022-02-11
Tipo
Trabalho de conclusão de curso
Título da Revista
ISSN da Revista
Título de Volume
Resumo
Métodos de aprendizado de máquina, desde algoritmos não supervisionados a supervisionados, têm sido aplicados para resolver várias tarefas no domínio da Ciência dos Materiais, como predição de propriedades, projeto de novos compostos, modelos substitutos em simulações de dinâmica molecular, entre outras. No entanto, apesar de já haver avanços notáveis, o uso de modelos de Aprendizado de Máquina nesse domínio ainda está em seu estágio inicial. Com o objetivo de contribuir ainda mais para a área, e visando reduzir o custo computacional de triagem de materiais, este trabalho desenvolve um sistema que inclui algoritmos de agrupamento (K-Means) e otimização (força bruta e Basinhopping) para gerar um método de agrupamento supervisionado que pondera o conjunto de dados de acordo com a qualidade dos agrupamentos formados, seleciona amostras a serem testadas e, em seguida, fornece informações textuais e gráficas para facilitar as análises físico-químicas. Os resultados preliminares mostram que é um método viável de introduzir restrições na forma como os dados são agrupados e pode ser muito poderoso, uma vez que herda a ótima eficiência computacional dos métodos de agrupamento, enquanto também permite a construção de agrupamentos com propriedades específicas destacadas, o que muitas vezes é algo desejável.
Machine Learning methods, from unsupervised to supervised algorithms, have been applied to solve several tasks in the Materials Science domain, such as property prediction, design of new compounds, surrogate models in molecular dynamics simulations, among others. However, despite already having noticeable advances in the field, the use of Machine Learning models in the domain is still in its early stages. With the goal of further contributing to the area, and aiming to reduce the computational cost of material screening, this work develops a system that includes clustering (K-Means) and optimization (brute force and Basinhopping) algorithms in order to generate a supervised clustering method to weight the data set according to the quality of the clusters formed, select samples to be further tested and then provide textual and graphical information to facilitate physicochemical analyses. The preliminary results show that it is a viable method of introducing constraints in the way the data is clustered and can be very powerful, since it inherits the great computational efficiency of clustering methods but also allows clusters with specific properties highlighted to be built, which is often something desirable.
Machine Learning methods, from unsupervised to supervised algorithms, have been applied to solve several tasks in the Materials Science domain, such as property prediction, design of new compounds, surrogate models in molecular dynamics simulations, among others. However, despite already having noticeable advances in the field, the use of Machine Learning models in the domain is still in its early stages. With the goal of further contributing to the area, and aiming to reduce the computational cost of material screening, this work develops a system that includes clustering (K-Means) and optimization (brute force and Basinhopping) algorithms in order to generate a supervised clustering method to weight the data set according to the quality of the clusters formed, select samples to be further tested and then provide textual and graphical information to facilitate physicochemical analyses. The preliminary results show that it is a viable method of introducing constraints in the way the data is clustered and can be very powerful, since it inherits the great computational efficiency of clustering methods but also allows clusters with specific properties highlighted to be built, which is often something desirable.