Desenvolvimento de um programa em Python para extração automatizada de dados na Biblioteca Cochrane: um estudo descritivo
Data
2023-01-16
Tipo
Trabalho de conclusão de curso
Título da Revista
ISSN da Revista
Título de Volume
Resumo
A Biblioteca Cochrane abriga três bases de dados para pesquisas relacionadas à saúde baseada em evidências e, embora muitos estudos de síntese de evidências façam uso das revisões sistemáticas presentes na biblioteca, a quantidade de revisões utilizadas é limitada devido ao tempo levado na extração manual dos dados. Desse modo, descrevemos no presente estudo o processo de desenvolvimento de um programa na linguagem de programação Python para realizar a extração automatizada de dados nas revisões sistemáticas da Biblioteca Cochrane, de forma a auxiliar encurtar o tempo de desenvolvimento de estudos que usufruam dos dados contidos nas revisões da biblioteca para síntese de evidências. Um protótipo foi feito junto com todas as funções necessárias para a extração de dados, desde o carregamento de uma página de busca até a exportação dos dados extraídos numa planilha estruturada e legível. Após a avaliação inicial do código e testes de desempenho, foi observada uma redução gradual no desempenho à medida que as revisões carregadas eram acumuladas na memória do computador, e a linguagem Python com suas funções de controle de memória provou-se necessária para resolver esse problema. A versão final, em Python, foi capaz de percorrer todas as oito mil revisões na Cochrane Database of Systematic Reviews (CDSR) e exportar todos os dados solicitados a uma planilha, sem afetar o desempenho do computador. Com o sucesso do programa, espera-se que ele ganhe uma interface gráfica no futuro e que os estudos de síntese de evidências possam utilizá-lo para abranger dados em mais revisões em suas análises.
The Cochrane Library maintains three databases for evidence-based health-related research. Although many evidence synthesis studies make use of the systematic reviews provided by the library, the number of reviews actually used is limited due to the time taken to manually extract the data. Thus, the present study aims to describe the process of developing a program using the Python programming language to perform automated data extraction from Cochrane Library’s systematic reviews in order to assist and shorten the time taken to gather and store the data contained in the reviews. A prototype was made along with all the necessary functions for data extraction, from loading a search page to exporting the extracted data in a structured, human-readable spreadsheet. After initial evaluation of the code and testing, a gradual decrease in performance was observed as the loaded revisions were continuously stored in the computer memory, and Python with its memory control functions proved necessary to solve the problem. The final version was able to go through all eight thousand reviews in the Cochrane Database of Systematic Reviews (CSDR) and export all the requested data to a spreadsheet, without affecting the performance of the computer. With the success of the program, we hope to develop a graphical interface in the future, allowing more evidence synthesis studies to use the program in order to extract data from more reviews in their analyses.
The Cochrane Library maintains three databases for evidence-based health-related research. Although many evidence synthesis studies make use of the systematic reviews provided by the library, the number of reviews actually used is limited due to the time taken to manually extract the data. Thus, the present study aims to describe the process of developing a program using the Python programming language to perform automated data extraction from Cochrane Library’s systematic reviews in order to assist and shorten the time taken to gather and store the data contained in the reviews. A prototype was made along with all the necessary functions for data extraction, from loading a search page to exporting the extracted data in a structured, human-readable spreadsheet. After initial evaluation of the code and testing, a gradual decrease in performance was observed as the loaded revisions were continuously stored in the computer memory, and Python with its memory control functions proved necessary to solve the problem. The final version was able to go through all eight thousand reviews in the Cochrane Database of Systematic Reviews (CSDR) and export all the requested data to a spreadsheet, without affecting the performance of the computer. With the success of the program, we hope to develop a graphical interface in the future, allowing more evidence synthesis studies to use the program in order to extract data from more reviews in their analyses.
Descrição
Citação
GOBI, E. L. N. Desenvolvimento de um programa em Python para extração automatizada de dados na Biblioteca Cochrane: um estudo descritivo. 2023. Trabalho de Conclusão de Curso (Tecnólogo em Informática em Saúde) – Escola Paulista de Medicina, Universidade Federal de São Paulo (UNIFESP). São Paulo, 2023.