Analise comparativa de metodos de recuperacao de informacao para categorizacao de conteudos web relacionados a Saúde

Analise comparativa de metodos de recuperacao de informacao para categorizacao de conteudos web relacionados a Saúde

Título alternativo Comparative analysis of information retrieval methods for categorization of health-related web content
Autor Sousa, Fernando Sequeira Autor UNIFESP Google Scholar
Resumo O objetivo deste trabalho foi investigar a aplicacao de metodos de recupe-racao de informacao para categorizar automaticamente paginas web em portugues brasileiro relacionadas a area da Saúde, a partir da comparacao de desempenho dos classificadores Naive Bayes e Journal Descriptor Indexing (JDI). Metodos:No experimento realizado comparamos o desempenho de 2 classificadores de padroes (Nai-ve Bayes e JDI), utilizando 4 metodos diferentes de extracao de atributos para o Naive Bayes e 2 para o JDI. A base de dados utilizada foi composta por paginas web de Saúde em portugues brasileiro divididas em 19 categorias e provenientes do dire-torio web Open Directory Project (ODP). O desempenho dos classificadores foi me-dido pela revocacao, precisao e F2, alem da aplicacao do teste t de Student para verificar diferencas significantes entre cada uma das combinacoes extra-tor/classificador. O desempenho foi medido considerando da primeira a quinta posi-coes dos rankings de relevancia de categorias gerados pelos classificadores. Resul-tados: A extracao de atributos pela contagem de ocorrencia dos termos (to) utilizada com o classificador de padroes Naive Bayes (nb-to) atingiu 0,91 de revocacao, pre-cisao e F2 para a primeira posicao do ranking de relevancia de categorias, enquanto que para a quinta posicao os valores foram de 0,98, 0,20 e 0,54, respectivamente. Estes valores colocam o nb-to como o melhor classificador para a base de dados utilizada, sendo encontrada diferenca estatistica entre este e todos os classificado-res testados. Apesar do melhor desempenho do nb-to, a utilizacao do document-count (dc) com o JDI (jdi-dc) obteve um valor de consenso maior (media de 62,11%) com a classificacao realizada por pessoas. A avaliacao da classificacao automatica frente a opiniao das pessoas tambem mostrou que a multirrotulacao e satisfatoria, uma vez que a media do consenso entre os avaliadores atingiu valores maiores que a probabilidade de escolher uma categoria aleatoriamente (5,26%), para as 5 cate-gorias mais escolhidas (85,62%, 59,90%, 41,29%, 29,45% e 22,78%). Conclusao: Os metodos de recuperacao de informacao baseados no Naive Bayes e no JDI po-dem ser utilizados com sucesso para categorizar conteudo web de Saúde em idioma portugues brasileiro. O classificador nb-to atingiu o melhor desempenho na classifi-cacao, enquanto que o jdi-dc obteve o maior consenso com a opiniao de pessoas
Palavra-chave Armazenamento e Recuperação da Informação
Informática Médica
Serviços de Informação
Informação de Saúde ao Consumidor
Internet
Idioma Português
Data de publicação 2011
Publicado em São Paulo: [s.n.], 2011. 103 p.
Publicador Universidade Federal de São Paulo (UNIFESP)
Extensão 103 p.
Direito de acesso Acesso restrito
Tipo Tese de doutorado
Endereço permanente http://repositorio.unifesp.br/handle/11600/21694

Exibir registro completo




Arquivo

Arquivo Tamanho Formato Visualização

Não existem arquivos associados a este item.

Este item está nas seguintes coleções

Buscar


Navegar

Minha conta