Identificação de artigos relacionados e citações na coleção SciELO de revistas eletrônicas através de algoritmo de similaridade de textos por trigramas

No Thumbnail Available
Date
2008
Authors
Tardelli, Adalberto Otranto [UNIFESP]
relationships.isAdvisorOf
Anção, Meide Silva [UNIFESP]
item.page.type-of
Dissertação de mestrado
Journal Title
Journal ISSN
Volume Title
Abstract
Este trabalho identificou os artigos relacionados na coleção de revistas eletrônicas SciELO, baseando-se no título e palavras-chave dos artigos. Também identificou as citações recebidas pelos artigos de SciELO, comparando os dados de cada referência dos artigos de SciELO com o conjunto de artigos da coleção. Foram processados 59.938 artigos publicados nos anos de 1979 a 2006 em SciELO Brasil (base de dados de Março/2006) e 649.012 referências de artigos de revista publicados nesse período. Os artigos foram confrontados entre si e as referências foram comparadas com 346.925 textos derivados de autores, títulos e fonte dos artigos estudados. A comparação dos textos empregou o método Trigram Phrase Matching, publicado pelo projeto Indexing Initiative da National Library of Medicine. Duas aplicações deste trabalho se encontram em operação no portal SciELO: serviço de artigos relacionados e serviço de artigos citados. O primeiro possibilita o browsing de artigos relacionados em SciELO, facilitando a recuperação de informação. O segundo mede o impacto de um artigo na coleção (quantas citações recebeu, quais as revistas e os autores que o citaram) e permite contextualizar as citações recebidas pelo artigo (onde foi citado) em determinadas revistas. No conjunto estudado, 10.905 artigos (18%) foram citados 22.727 vezes; 58% foram citados uma única vez e, respectivamente, 19%, 9%, 5%, 3%, 2% e menos de 1% dos citados foram citados duas, três, quatro, cinco, seis e sete vezes.
This work identified the related articles in the SciELO collection of electronic journals, based on the article titles and keywords. It also identified the citations the articles received in the scope of the SciELO collection, comparing every article reference to the set of articles in the collection. The data included 59,938 articles published from 1979 to 2006 in SciELO Brazil (database of March/2006) and 649,012 references citing journal articles published in this period. The articles were compared to each other and references were compared to 346,925 texts derived from article authors, titles and source. The method Trigram Phrase Matching published by the National Library of Medicine Indexing Initiative was used for text comparison. Two web applications of this work are in regular operation in the SciELO portal: related articles and cited articles services. The first allows browsing related articles in SciELO, facilitating the retrieval of information. The second measures the impact of a given article in the collection (how many citations received, which journals and authors cited it) and maybe contextualize its citations. In the studied data, 10,905 articles (18%) were cited 22,727 times: 58% were cited once; respectively, 19%, 9%, 5%, 3%, 2% and less than 1% were cited two, three, four, five, six and seven times.
Description
Citation
TARDELLI, Adalberto OtrantoIdentificação de artigos relacionados e citações na coleção SciELO de revistas eletrônicas através de algoritmo de similaridade de textos por trigramas. 2008. 145 p. Dissertação (Mestrado em Ciências) - Escola Paulista de Medicina, Universidade Federal de São Paulo, São Paulo, 2008.