Uma estratégia para a predição de coautorias em dados de publicações científicas
dc.contributor.advisor | Dias, Thiago Magela Rodrigues | |
dc.contributor.advisor-co | Silva, Alisson Marques da | |
dc.contributor.advisor-coLattes | http://lattes.cnpq.br/3856358583630209 | |
dc.contributor.advisorLattes | http://lattes.cnpq.br/4687858846001290 | |
dc.contributor.author | Affonso, Felipe | |
dc.contributor.authorLattes | http://lattes.cnpq.br/1468618041970656 | |
dc.contributor.referee | Dias, Thiago Magela Rodrigues | |
dc.contributor.referee | Silva, Alisson Marques da | |
dc.contributor.referee | Moita, Gray Farias | |
dc.contributor.referee | Gomes, Jether Oliveira | |
dc.date.accessioned | 2025-04-11T14:04:09Z | |
dc.date.available | 2025-04-11T14:04:09Z | |
dc.date.issued | 2020-11-27 | |
dc.description.abstract | Ao se publicar um artigo em conjunto com outros autores, um vínculo é formado pela colaboração, o que pode ser caracterizado como uma rede de colaboração científica. Neste contexto, os trabalhos representam as arestas, e os autores representam os nós, formando uma rede. É possível compreender melhor o relacionamento e as características existentes entre os autores ao se utilizar os conceitos da análise de redes sociais. Desta forma, surge a seguinte pergunta: “É possível estimar futuras colaborações científicas a fim de compreender a evolução desta rede?”. Para ser possível responder a esta pergunta, é necessário analisar como dois nós interagem entre si, ou seja, quais fatores são essenciais para que uma nova ligação seja realizada. O trabalho em questão tem como objetivo realizar a predição de ligações em redes de colaboração científica formadas pelos doutores brasileiros, em 8 diferentes áreas do conhecimento. Como fonte de dados é adotada a Plataforma Lattes, atualmente com 6,9 milhões de currículos cadastrados, que representa um dos repositórios científicos mais relevantes e reconhecidos mundialmente. Deste conjunto, foram utilizados dados de 71.010 doutores, que realizaram, em conjunto, a autoria de 5,8 milhões de colaborações científicas no período de 1960 a 2019, tornando este trabalho inédito devido à sua representatividade. De forma a tornar possível a análise e execução do trabalho, técnicas de aprendizado de máquinas foram utilizadas. Estas possuem a capacidade de identificar padrões de comportamento em grandes conjuntos de dados. Para tanto, quatro algoritmos são utilizados: Regressão Logística, Florestas Aleatórias, K Vizinhos Mais Próximos e Naive Bayes. A partir da abordagem utilizada, é possível identificar diferentes características das áreas do conhecimento analisando como estas influenciam o comportamento das técnicas escolhidas. Os resultados obtidos apresentam uma média de 88% de acertos, considerando todas as áreas e todos os algoritmos, onde a técnica Florestas Aleatórias apresentou o melhor resultado, com 99% de acertos em todas as redes analisadas. Avaliando os fatores que influenciam o surgimento de colaborações científicas, o atributo Menor Caminho se destaca, sendo considerado o mais influente. | |
dc.description.abstractother | When publishing an article together with other authors, a link is formed by collaboration, which can be characterized as a network of scientific collaboration. In this context, the works represent the edges, and the authors represent the nodes of the network. By using the concepts of social network analysis, it is possible to better understand the relationship and characteristics that exist between the authors. Therefore, the following question arises: "Is it possible to estimate future scientific collaborations in order to understand the evolution of this network?". To answer this question, it is necessary to analyze how two nodes interact with each other, that is, which factors are essential for a new connection to be made. The work in question aims to predict the connections in scientific collaboration networks formed by Brazilian Phd’s, in 8 different areas of knowledge. The Lattes Platform is adopted as the data source, currently with 6.9 million registered resumes, representing one of the most relevant and recognized scientific repositories worldwide. From this data set, data from 71,010 doctors were used, who jointly authored 5.8 million scientific collaborations between 1960 and 2019, making this work unprecedented due to its representativeness. In order to enable the analysis and execution of this work, machine learning techniques were used to identify behavior patterns in large data sets. For this, four algorithms are used, namely: Logistic Regression, Random Forests, K Nearest Neighbors, and, Naive Bayes. From the approach used, it is possible to identify different characteristics of the knowledge areas analyzed, and how they influence the behavior of the chosen techniques. The results obtained show an average of 88% of correct answers, considering all areas and all algorithms, where the Random Forests technique presented the best result, with 99 % of correct answers in all analyzed networks. The factors that influence the appearance of scientific collaborations, the attribute Shortest Path stands out, being considered the most influential. | |
dc.identifier.uri | https://repositorio.cefetmg.br//handle/123456789/1174 | |
dc.language.iso | pt | |
dc.publisher | Centro Federal de Educação Tecnológica de Minas Gerais | |
dc.publisher.country | Brasil | |
dc.publisher.initials | CEFET-MG | |
dc.publisher.program | Programa de Pós-Graduação em Modelagem Matemática e Computacional | |
dc.subject | Redes de informação | |
dc.subject | Comunicação na ciência | |
dc.subject | Currículos | |
dc.title | Uma estratégia para a predição de coautorias em dados de publicações científicas | |
dc.type | Dissertação |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Uma estratégia para a predição de coautorias em dados de publicações científicas.pdf
- Tamanho:
- 19.98 MB
- Formato:
- Adobe Portable Document Format
Licença do Pacote
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- license.txt
- Tamanho:
- 1.39 KB
- Formato:
- Item-specific license agreed to upon submission
- Descrição: