Uma estratégia para a predição de coautorias em dados de publicações científicas

Carregando...
Imagem de Miniatura

Data

2020-11-27

Título da Revista

ISSN da Revista

Título de Volume

Editor

Centro Federal de Educação Tecnológica de Minas Gerais

Resumo

Ao se publicar um artigo em conjunto com outros autores, um vínculo é formado pela colaboração, o que pode ser caracterizado como uma rede de colaboração científica. Neste contexto, os trabalhos representam as arestas, e os autores representam os nós, formando uma rede. É possível compreender melhor o relacionamento e as características existentes entre os autores ao se utilizar os conceitos da análise de redes sociais. Desta forma, surge a seguinte pergunta: “É possível estimar futuras colaborações científicas a fim de compreender a evolução desta rede?”. Para ser possível responder a esta pergunta, é necessário analisar como dois nós interagem entre si, ou seja, quais fatores são essenciais para que uma nova ligação seja realizada. O trabalho em questão tem como objetivo realizar a predição de ligações em redes de colaboração científica formadas pelos doutores brasileiros, em 8 diferentes áreas do conhecimento. Como fonte de dados é adotada a Plataforma Lattes, atualmente com 6,9 milhões de currículos cadastrados, que representa um dos repositórios científicos mais relevantes e reconhecidos mundialmente. Deste conjunto, foram utilizados dados de 71.010 doutores, que realizaram, em conjunto, a autoria de 5,8 milhões de colaborações científicas no período de 1960 a 2019, tornando este trabalho inédito devido à sua representatividade. De forma a tornar possível a análise e execução do trabalho, técnicas de aprendizado de máquinas foram utilizadas. Estas possuem a capacidade de identificar padrões de comportamento em grandes conjuntos de dados. Para tanto, quatro algoritmos são utilizados: Regressão Logística, Florestas Aleatórias, K Vizinhos Mais Próximos e Naive Bayes. A partir da abordagem utilizada, é possível identificar diferentes características das áreas do conhecimento analisando como estas influenciam o comportamento das técnicas escolhidas. Os resultados obtidos apresentam uma média de 88% de acertos, considerando todas as áreas e todos os algoritmos, onde a técnica Florestas Aleatórias apresentou o melhor resultado, com 99% de acertos em todas as redes analisadas. Avaliando os fatores que influenciam o surgimento de colaborações científicas, o atributo Menor Caminho se destaca, sendo considerado o mais influente.

Descrição

Palavras-chave

Redes de informação, Comunicação na ciência, Currículos

Citação