Unraveling molecular descriptors for reliable adsorption energy prediction

Pena, Lucas Bernardes

Unraveling molecular descriptors for reliable adsorption energy prediction

dc.contributor.advisor	Galvão, Breno Rodrigues Lamaghere
dc.contributor.advisorLattes	http://lattes.cnpq.br/7962146839706796
dc.contributor.author	Pena, Lucas Bernardes
dc.contributor.authorLattes	http://lattes.cnpq.br/4607469939663727
dc.contributor.referee	Galvão, Breno Rodrigues Lamaghere
dc.contributor.referee	Pedroso, Emerson Fernandes
dc.contributor.referee	Lourenço, Maicon Pierre
dc.date.accessioned	2025-10-17T20:43:33Z
dc.date.available	2025-10-17T20:43:33Z
dc.date.issued	2025-08-01
dc.description.abstract	A acumulação de CO2 na atmosfera terrestre é um problema crescente, com consequências devastadoras em todo o mundo. Uma abordagem promissora para mitigar esse problema é a conversão de CO2 em combustíveis e produtos químicos de valor econômico utilizando fontes de energia renováveis. Essa estratégia não apenas reduz os níveis atmosféricos de CO2, mas também contribui para o desenvolvimento de soluções energéticas sustentáveis. Cálculos ab initio possibilitam a descoberta de novos catalisadores através de análises exploratórias de sistemas nanocluster-adsorbato de alto custo computacional, uma vez que diversas configurações de adsorção precisam ser avaliadas em diferentes estruturas de clusters. Dado o vasto volume de dados computacionais já disponíveis para esses sistemas, métodos de aprendizado de máquina são uma alternativa de ferramenta para acelerar o processo de triagem de catalisadores. Entretanto, os frameworks atuais são limitados pela falta de diversidade nos dados e pela falta de transferência de conhecimento dos modelos, comprometendo sua confiabilidade especialmente perante novos dados. Neste trabalho, os descritores moleculares Coulomb matrix e many-body tensor representation foram otimizados para a regressão da energia de adsorção em nanoclusters utilizando-se uma nova base de dados diversa. Utilizando o algoritmo de regressão random forest, atingiu-se um erro médio absoluto de 0.05 eV na predição da energia de adsorção para ambos os descritores. Para avaliar a generalizabilidade do modelo, um novo conjunto de dados foi gerado para o sistema mais representativo do dataset utilizado na etapa de desenvolvimento. Ao testar o modelo neste conjunto externo, nota-se a incapacidade de generalização do modelo, com o aumento do erro médio absoluto para 0.30 eV. Para a melhora da performance, propõe-se uma feature eletrônica, a qual corrigiu as predições para um dos novos sistemas adsorvidos inéditos.
dc.description.abstractother	The accumulation of CO2 in Earth’s atmosphere is a growing problem with devastating consequences worldwide. A promising approach to mitigating this issue is the conversion of CO2 into fuels and economically valuable chemicals using renewable energy sources. This strategy not only reduces atmospheric CO2 levels but also contributes to the development of sustainable energy solutions. Ab initio calculations enable the discovery of new catalysts through exploratory analyses of nanocluster adsorbed systems, which are computationally expensive, as multiple adsorption configurations must be evaluated across different cluster structures. Given the vast volume of computational data already available for these systems, machine learning methods are an option to accelerate the catalyst screening process. However, current frameworks are limited by a lack of data diversity and lack of knowledge transferability, compromising their reliability, especially when applied to new data. In this work, the molecular descriptors Coulomb matrix and many-body tensor representation were optimized for adsorption energy regression in nanoclusters using a newly developed diverse dataset. Using the random forest regression algorithm, an absolute mean error of 0.05 eV was achieved in adsorption energy prediction for both descriptors. To assess the model’s generalizability, a new dataset was generated with the most representative cluster from the dataset used in the development phase. When tested on this external dataset, the model demonstrated a lack of generalization, with an increase of the absolute mean error to 0.30 eV. For improving the model, an additional electronic feature was proposed, enabling better results for one of the unprecedented adsorbed systems.
dc.identifier.uri	https://repositorio.cefetmg.br//handle/123456789/2399
dc.language.iso	pt
dc.publisher	Centro Federal de Educação Tecnológica de Minas Gerais
dc.publisher.country	Brasil
dc.publisher.initials	CEFET-MG
dc.publisher.program	Programa de Pós-Graduação Multicêntrico em Química de Minas Gerais
dc.subject	Nanoestruturas
dc.subject	Cluster
dc.subject	Adsorção
dc.subject	Funcionais de densidade
dc.subject	Aprendizado de máquina
dc.title	Unraveling molecular descriptors for reliable adsorption energy prediction
dc.type	Dissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: Unraveling molecular descriptors for reliable adsorption energy.pdf
Tamanho:: 7.17 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.39 KB
Formato:: Item-specific license agreed to upon submission
Descrição:

Baixar

Coleções

Mestrado Multicêntrico em Química