Unraveling molecular descriptors for reliable adsorption energy prediction

dc.contributor.advisorGalvão, Breno Rodrigues Lamaghere
dc.contributor.advisorLatteshttp://lattes.cnpq.br/7962146839706796
dc.contributor.authorPena, Lucas Bernardes
dc.contributor.authorLatteshttp://lattes.cnpq.br/4607469939663727
dc.contributor.refereeGalvão, Breno Rodrigues Lamaghere
dc.contributor.refereePedroso, Emerson Fernandes
dc.contributor.refereeLourenço, Maicon Pierre
dc.date.accessioned2025-10-17T20:43:33Z
dc.date.available2025-10-17T20:43:33Z
dc.date.issued2025-08-01
dc.description.abstractA acumulação de CO2 na atmosfera terrestre é um problema crescente, com consequências devastadoras em todo o mundo. Uma abordagem promissora para mitigar esse problema é a conversão de CO2 em combustíveis e produtos químicos de valor econômico utilizando fontes de energia renováveis. Essa estratégia não apenas reduz os níveis atmosféricos de CO2, mas também contribui para o desenvolvimento de soluções energéticas sustentáveis. Cálculos ab initio possibilitam a descoberta de novos catalisadores através de análises exploratórias de sistemas nanocluster-adsorbato de alto custo computacional, uma vez que diversas configurações de adsorção precisam ser avaliadas em diferentes estruturas de clusters. Dado o vasto volume de dados computacionais já disponíveis para esses sistemas, métodos de aprendizado de máquina são uma alternativa de ferramenta para acelerar o processo de triagem de catalisadores. Entretanto, os frameworks atuais são limitados pela falta de diversidade nos dados e pela falta de transferência de conhecimento dos modelos, comprometendo sua confiabilidade especialmente perante novos dados. Neste trabalho, os descritores moleculares Coulomb matrix e many-body tensor representation foram otimizados para a regressão da energia de adsorção em nanoclusters utilizando-se uma nova base de dados diversa. Utilizando o algoritmo de regressão random forest, atingiu-se um erro médio absoluto de 0.05 eV na predição da energia de adsorção para ambos os descritores. Para avaliar a generalizabilidade do modelo, um novo conjunto de dados foi gerado para o sistema mais representativo do dataset utilizado na etapa de desenvolvimento. Ao testar o modelo neste conjunto externo, nota-se a incapacidade de generalização do modelo, com o aumento do erro médio absoluto para 0.30 eV. Para a melhora da performance, propõe-se uma feature eletrônica, a qual corrigiu as predições para um dos novos sistemas adsorvidos inéditos.
dc.description.abstractotherThe accumulation of CO2 in Earth’s atmosphere is a growing problem with devastating consequences worldwide. A promising approach to mitigating this issue is the conversion of CO2 into fuels and economically valuable chemicals using renewable energy sources. This strategy not only reduces atmospheric CO2 levels but also contributes to the development of sustainable energy solutions. Ab initio calculations enable the discovery of new catalysts through exploratory analyses of nanocluster adsorbed systems, which are computationally expensive, as multiple adsorption configurations must be evaluated across different cluster structures. Given the vast volume of computational data already available for these systems, machine learning methods are an option to accelerate the catalyst screening process. However, current frameworks are limited by a lack of data diversity and lack of knowledge transferability, compromising their reliability, especially when applied to new data. In this work, the molecular descriptors Coulomb matrix and many-body tensor representation were optimized for adsorption energy regression in nanoclusters using a newly developed diverse dataset. Using the random forest regression algorithm, an absolute mean error of 0.05 eV was achieved in adsorption energy prediction for both descriptors. To assess the model’s generalizability, a new dataset was generated with the most representative cluster from the dataset used in the development phase. When tested on this external dataset, the model demonstrated a lack of generalization, with an increase of the absolute mean error to 0.30 eV. For improving the model, an additional electronic feature was proposed, enabling better results for one of the unprecedented adsorbed systems.
dc.identifier.urihttps://repositorio.cefetmg.br//handle/123456789/2399
dc.language.isopt
dc.publisherCentro Federal de Educação Tecnológica de Minas Gerais
dc.publisher.countryBrasil
dc.publisher.initialsCEFET-MG
dc.publisher.programPrograma de Pós-Graduação Multicêntrico em Química de Minas Gerais
dc.subjectNanoestruturas
dc.subjectCluster
dc.subjectAdsorção
dc.subjectFuncionais de densidade
dc.subjectAprendizado de máquina
dc.titleUnraveling molecular descriptors for reliable adsorption energy prediction
dc.typeDissertação

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Unraveling molecular descriptors for reliable adsorption energy.pdf
Tamanho:
7.17 MB
Formato:
Adobe Portable Document Format
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.39 KB
Formato:
Item-specific license agreed to upon submission
Descrição: