Uma estratégia para a predição de coautorias em dados de publicações científicas

Affonso, Felipe

Uma estratégia para a predição de coautorias em dados de publicações científicas

dc.contributor.advisor	Dias, Thiago Magela Rodrigues
dc.contributor.advisor-co	Silva, Alisson Marques da
dc.contributor.advisor-coLattes	http://lattes.cnpq.br/3856358583630209
dc.contributor.advisorLattes	http://lattes.cnpq.br/4687858846001290
dc.contributor.author	Affonso, Felipe
dc.contributor.authorLattes	http://lattes.cnpq.br/1468618041970656
dc.contributor.referee	Dias, Thiago Magela Rodrigues
dc.contributor.referee	Silva, Alisson Marques da
dc.contributor.referee	Moita, Gray Farias
dc.contributor.referee	Gomes, Jether Oliveira
dc.date.accessioned	2025-04-11T14:04:09Z
dc.date.available	2025-04-11T14:04:09Z
dc.date.issued	2020-11-27
dc.description.abstract	Ao se publicar um artigo em conjunto com outros autores, um vínculo é formado pela colaboração, o que pode ser caracterizado como uma rede de colaboração científica. Neste contexto, os trabalhos representam as arestas, e os autores representam os nós, formando uma rede. É possível compreender melhor o relacionamento e as características existentes entre os autores ao se utilizar os conceitos da análise de redes sociais. Desta forma, surge a seguinte pergunta: “É possível estimar futuras colaborações científicas a fim de compreender a evolução desta rede?”. Para ser possível responder a esta pergunta, é necessário analisar como dois nós interagem entre si, ou seja, quais fatores são essenciais para que uma nova ligação seja realizada. O trabalho em questão tem como objetivo realizar a predição de ligações em redes de colaboração científica formadas pelos doutores brasileiros, em 8 diferentes áreas do conhecimento. Como fonte de dados é adotada a Plataforma Lattes, atualmente com 6,9 milhões de currículos cadastrados, que representa um dos repositórios científicos mais relevantes e reconhecidos mundialmente. Deste conjunto, foram utilizados dados de 71.010 doutores, que realizaram, em conjunto, a autoria de 5,8 milhões de colaborações científicas no período de 1960 a 2019, tornando este trabalho inédito devido à sua representatividade. De forma a tornar possível a análise e execução do trabalho, técnicas de aprendizado de máquinas foram utilizadas. Estas possuem a capacidade de identificar padrões de comportamento em grandes conjuntos de dados. Para tanto, quatro algoritmos são utilizados: Regressão Logística, Florestas Aleatórias, K Vizinhos Mais Próximos e Naive Bayes. A partir da abordagem utilizada, é possível identificar diferentes características das áreas do conhecimento analisando como estas influenciam o comportamento das técnicas escolhidas. Os resultados obtidos apresentam uma média de 88% de acertos, considerando todas as áreas e todos os algoritmos, onde a técnica Florestas Aleatórias apresentou o melhor resultado, com 99% de acertos em todas as redes analisadas. Avaliando os fatores que influenciam o surgimento de colaborações científicas, o atributo Menor Caminho se destaca, sendo considerado o mais influente.
dc.description.abstractother	When publishing an article together with other authors, a link is formed by collaboration, which can be characterized as a network of scientific collaboration. In this context, the works represent the edges, and the authors represent the nodes of the network. By using the concepts of social network analysis, it is possible to better understand the relationship and characteristics that exist between the authors. Therefore, the following question arises: "Is it possible to estimate future scientific collaborations in order to understand the evolution of this network?". To answer this question, it is necessary to analyze how two nodes interact with each other, that is, which factors are essential for a new connection to be made. The work in question aims to predict the connections in scientific collaboration networks formed by Brazilian Phd’s, in 8 different areas of knowledge. The Lattes Platform is adopted as the data source, currently with 6.9 million registered resumes, representing one of the most relevant and recognized scientific repositories worldwide. From this data set, data from 71,010 doctors were used, who jointly authored 5.8 million scientific collaborations between 1960 and 2019, making this work unprecedented due to its representativeness. In order to enable the analysis and execution of this work, machine learning techniques were used to identify behavior patterns in large data sets. For this, four algorithms are used, namely: Logistic Regression, Random Forests, K Nearest Neighbors, and, Naive Bayes. From the approach used, it is possible to identify different characteristics of the knowledge areas analyzed, and how they influence the behavior of the chosen techniques. The results obtained show an average of 88% of correct answers, considering all areas and all algorithms, where the Random Forests technique presented the best result, with 99 % of correct answers in all analyzed networks. The factors that influence the appearance of scientific collaborations, the attribute Shortest Path stands out, being considered the most influential.
dc.identifier.uri	https://repositorio.cefetmg.br//handle/123456789/1174
dc.language.iso	pt
dc.publisher	Centro Federal de Educação Tecnológica de Minas Gerais
dc.publisher.country	Brasil
dc.publisher.initials	CEFET-MG
dc.publisher.program	Programa de Pós-Graduação em Modelagem Matemática e Computacional
dc.subject	Redes de informação
dc.subject	Comunicação na ciência
dc.subject	Currículos
dc.title	Uma estratégia para a predição de coautorias em dados de publicações científicas
dc.type	Dissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: Uma estratégia para a predição de coautorias em dados de publicações científicas.pdf
Tamanho:: 19.98 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.39 KB
Formato:: Item-specific license agreed to upon submission
Descrição:

Baixar

Coleções

Mestrado em Modelagem Matemática e Computacional