Uma estratégia para a predição de coautorias em dados de publicações científicas

dc.contributor.advisorDias, Thiago Magela Rodrigues
dc.contributor.advisor-coSilva, Alisson Marques da
dc.contributor.advisor-coLatteshttp://lattes.cnpq.br/3856358583630209
dc.contributor.advisorLatteshttp://lattes.cnpq.br/4687858846001290
dc.contributor.authorAffonso, Felipe
dc.contributor.authorLatteshttp://lattes.cnpq.br/1468618041970656
dc.contributor.refereeDias, Thiago Magela Rodrigues
dc.contributor.refereeSilva, Alisson Marques da
dc.contributor.refereeMoita, Gray Farias
dc.contributor.refereeGomes, Jether Oliveira
dc.date.accessioned2025-04-11T14:04:09Z
dc.date.available2025-04-11T14:04:09Z
dc.date.issued2020-11-27
dc.description.abstractAo se publicar um artigo em conjunto com outros autores, um vínculo é formado pela colaboração, o que pode ser caracterizado como uma rede de colaboração científica. Neste contexto, os trabalhos representam as arestas, e os autores representam os nós, formando uma rede. É possível compreender melhor o relacionamento e as características existentes entre os autores ao se utilizar os conceitos da análise de redes sociais. Desta forma, surge a seguinte pergunta: “É possível estimar futuras colaborações científicas a fim de compreender a evolução desta rede?”. Para ser possível responder a esta pergunta, é necessário analisar como dois nós interagem entre si, ou seja, quais fatores são essenciais para que uma nova ligação seja realizada. O trabalho em questão tem como objetivo realizar a predição de ligações em redes de colaboração científica formadas pelos doutores brasileiros, em 8 diferentes áreas do conhecimento. Como fonte de dados é adotada a Plataforma Lattes, atualmente com 6,9 milhões de currículos cadastrados, que representa um dos repositórios científicos mais relevantes e reconhecidos mundialmente. Deste conjunto, foram utilizados dados de 71.010 doutores, que realizaram, em conjunto, a autoria de 5,8 milhões de colaborações científicas no período de 1960 a 2019, tornando este trabalho inédito devido à sua representatividade. De forma a tornar possível a análise e execução do trabalho, técnicas de aprendizado de máquinas foram utilizadas. Estas possuem a capacidade de identificar padrões de comportamento em grandes conjuntos de dados. Para tanto, quatro algoritmos são utilizados: Regressão Logística, Florestas Aleatórias, K Vizinhos Mais Próximos e Naive Bayes. A partir da abordagem utilizada, é possível identificar diferentes características das áreas do conhecimento analisando como estas influenciam o comportamento das técnicas escolhidas. Os resultados obtidos apresentam uma média de 88% de acertos, considerando todas as áreas e todos os algoritmos, onde a técnica Florestas Aleatórias apresentou o melhor resultado, com 99% de acertos em todas as redes analisadas. Avaliando os fatores que influenciam o surgimento de colaborações científicas, o atributo Menor Caminho se destaca, sendo considerado o mais influente.
dc.description.abstractotherWhen publishing an article together with other authors, a link is formed by collaboration, which can be characterized as a network of scientific collaboration. In this context, the works represent the edges, and the authors represent the nodes of the network. By using the concepts of social network analysis, it is possible to better understand the relationship and characteristics that exist between the authors. Therefore, the following question arises: "Is it possible to estimate future scientific collaborations in order to understand the evolution of this network?". To answer this question, it is necessary to analyze how two nodes interact with each other, that is, which factors are essential for a new connection to be made. The work in question aims to predict the connections in scientific collaboration networks formed by Brazilian Phd’s, in 8 different areas of knowledge. The Lattes Platform is adopted as the data source, currently with 6.9 million registered resumes, representing one of the most relevant and recognized scientific repositories worldwide. From this data set, data from 71,010 doctors were used, who jointly authored 5.8 million scientific collaborations between 1960 and 2019, making this work unprecedented due to its representativeness. In order to enable the analysis and execution of this work, machine learning techniques were used to identify behavior patterns in large data sets. For this, four algorithms are used, namely: Logistic Regression, Random Forests, K Nearest Neighbors, and, Naive Bayes. From the approach used, it is possible to identify different characteristics of the knowledge areas analyzed, and how they influence the behavior of the chosen techniques. The results obtained show an average of 88% of correct answers, considering all areas and all algorithms, where the Random Forests technique presented the best result, with 99 % of correct answers in all analyzed networks. The factors that influence the appearance of scientific collaborations, the attribute Shortest Path stands out, being considered the most influential.
dc.identifier.urihttps://repositorio.cefetmg.br//handle/123456789/1174
dc.language.isopt
dc.publisherCentro Federal de Educação Tecnológica de Minas Gerais
dc.publisher.countryBrasil
dc.publisher.initialsCEFET-MG
dc.publisher.programPrograma de Pós-Graduação em Modelagem Matemática e Computacional
dc.subjectRedes de informação
dc.subjectComunicação na ciência
dc.subjectCurrículos
dc.titleUma estratégia para a predição de coautorias em dados de publicações científicas
dc.typeDissertação

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Uma estratégia para a predição de coautorias em dados de publicações científicas.pdf
Tamanho:
19.98 MB
Formato:
Adobe Portable Document Format
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.39 KB
Formato:
Item-specific license agreed to upon submission
Descrição: