Desenvolvimento de matrizes de distâncias para representar interações de proteínas combinadas com algoritmos de agrupamento
dc.contributor.advisor | Rodrigues, Thiago de Souza | |
dc.contributor.advisor-co | Dias, Sandro Renato | |
dc.contributor.advisor-coLattes | http://lattes.cnpq.br/5300421458375793 | |
dc.contributor.advisorLattes | http://lattes.cnpq.br/4182923743939851 | |
dc.contributor.author | Monteiro, Otaviano Martins | |
dc.contributor.authorLattes | http://lattes.cnpq.br/5378637011361467 | |
dc.contributor.referee | Rodrigues, Thiago de Souza | |
dc.contributor.referee | Dias, Sandro Renato | |
dc.contributor.referee | Gomes, Rogério Martins | |
dc.contributor.referee | Cruz, André Rodrigues da | |
dc.contributor.referee | Menezes, Gustavo Campos | |
dc.contributor.referee | Silva, Alisson Marques da | |
dc.date.accessioned | 2025-03-27T19:39:09Z | |
dc.date.available | 2025-03-27T19:39:09Z | |
dc.date.issued | 2023-08-24 | |
dc.description.abstract | As proteínas são macromoléculas formadas por aminoácidos e estão presentes em todos os seres vivos. Várias proteínas tiveram suas estruturas tridimensionais resolvidas experimentalmente e foram armazenadas através de arquivos de texto em bancos de dados biológicos como o Protein Data Bank (PDB). Essas informações proteicas podem ser utilizadas por softwares, como o LSQKAB, que verificam similaridades tridimensionais de proteínas através de sobreposições entre os átomos das estruturas comparadas. No entanto, a realização de sobreposições atômicas requer um alinhamento preciso entre os átomos de duas estruturas por meio de movimentos de rotação e translação. Esse procedimento é computacionalmente intensivo, sendo classificado como NP-Completo. Portanto, a realização de múltiplas sobreposições atômicas, algo frequente em softwares que propõem mutações em proteínas, acarreta em um elevado custo computacional. Assim sendo, o propósito deste estudo consiste em elaborar abordagens fundamentadas em matrizes de distâncias, combinadas com algoritmos agrupamento (clustering) com o intuito de criar conjuntos de interações de proteínas que compartilham conformações tridimensionais semelhantes. O objetivo principal é alcançar soluções de alta precisão e desempenho notável, com o propósito de minimizar a necessidade de realizar sobreposições atômicas. Com o intuito de cumprir esses objetivos, foram desenvolvidas matrizes de distâncias baseadas em diferentes abordagens. A Matriz de Ângulos (MA) foi desenvolvida a partir dos ângulos dos átomos. A Matriz de Distâncias Completa Mista (MDCM) foi desenvolvida através da fusão de diferentes técnicas. A Matriz de Distâncias Reduzida cujos Centroides são Carbonos Alfa (MDRCCA), a Matriz de Distâncias Reduzida a partir de um Ponto entre os Carbonos Alfa (MDRPCA), além da Matriz de Pontos Médios (MPM) foram desenvolvidas a partir da importância dos átomos de carbonos alfa (CA). A concepção da MPM também foi influenciada pela importância das distâncias entre todos os átomos na estrutura, uma vez que essas distâncias são cruciais para o enovelamento da mesma. Essas estratégias foram integradas a algoritmos de agrupamento e os resultados subsequentes foram comparados com o método de busca da ferramenta RID, por ser uma ferramenta especialista em trabalhar com interações de proteínas, além da atomic Cutoff Scanning Matrix (aCSM) por ser uma das versões da Cutoff Scanning Matrix (CSM), que é considerada o estado da arte na geração de assinaturas em grafos proteicos, e com a Matriz de Distâncias Completa (MDC), que apresentou resultados superiores ao método de busca da RID e aCSM, nos primeiros trabalhos deste projeto. Os resultados foram satisfatórios, principalmente os alcançados pela MPM, que superou as demais técnicas na maioria dos experimentos. | |
dc.description.abstractother | Proteins are macromolecules formed by amino acids and are present in all living beings. Several proteins had their three-dimensional structures experimentally resolved and were stored through text files in biological databases such as the Protein Data Bank (PDB). These proteins information can be used by softwares, such as LSQKAB, which verify threedimensional similarities of proteins through superimpositions between the atoms of compared structures. However, to perform atomic superpositions requires a precise alignment between the atoms of two structures through rotation and translation movements. This procedure is computationally intensive, being classified as NP-Complete. In this way, carrying out multiple atomic overlaps, something frequent in software that propose mutations in proteins, entails a high computational cost. Therefore, the purpose of this study is to develop approaches based on distance matrices, combined with clustering algorithms in order to create groups of protein interactions that share similar three-dimensional conformations. The main objective is to achieve solutions of high precision and remarkable performance, with the purpose of minimizing the need to carry out atomic superimpositions. In order to fulfill these objectives, distance matrices based on different approaches were developed. The Angle Matrix (MA) was developed from the angles of atoms. The Mixed Complete Distance Matrix (MDCM) was developed by merging different techniques. The Reduced Distance Matrix whose Centroids are Alpha Carbons (MDRCCA), the Reduced Distance Matrix from a Point Between Alpha Carbons (MDRPCA) and the Midpoint Matrix (MPM) were developed from the importance of alpha carbons atoms (CA). The design of MPM was also influenced by the importance of the distances between all atoms in the structure, because these distances are crucial for its folding. These strategies were integrated to clustering algorithms and the subsequent results were compared with the RID search method, because it is a specialist tool in working with protein interactions, atomic Cutoff Scanning Matrix (aCSM), as it is one of the versions of the Cutoff Scanning Matrix (CSM), which is considered the state of the art in the generation of signatures in protein graphs, and with the Complete Distance Matrix (MDC), which presented superior results to RID search method and aCSM, in the first works of this project. The results were satisfactory, mainly those achieved by MPM, which outperformed the other techniques in most experiments. | |
dc.identifier.uri | https://repositorio.cefetmg.br//handle/123456789/994 | |
dc.language.iso | pt | |
dc.publisher | Centro Federal de Educação Tecnológica de Minas Gerais | |
dc.publisher.country | Brasil | |
dc.publisher.initials | CEFET-MG | |
dc.publisher.program | Programa de Pós-Graduação em Modelagem Matemática e Computacional | |
dc.subject | Análise de conglomerados | |
dc.subject | Matrizes | |
dc.subject | Proteínas | |
dc.title | Desenvolvimento de matrizes de distâncias para representar interações de proteínas combinadas com algoritmos de agrupamento | |
dc.type | Tese |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Desenvolvimento de matrizes de distâncias para representar interações de.pdf
- Tamanho:
- 14.21 MB
- Formato:
- Adobe Portable Document Format
Licença do Pacote
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- license.txt
- Tamanho:
- 1.39 KB
- Formato:
- Item-specific license agreed to upon submission
- Descrição: