Navegando por Palavras-chave "Aprendizado semissupervisionado;"
Agora exibindo 1 - 1 de 1
Resultados por página
Opções de Ordenação
- ItemAcesso aberto (Open Access)Analysis of label noise in graph-based semi-supervised learning(Universidade Federal de São Paulo, 2020-01-24) Afonso, Bruno Klaus de Aquino [UNIFESP]; Berton, Lilian [UNIFESP]; http://lattes.cnpq.br/9064767888093340; http://lattes.cnpq.br/5069552456805947Com o passar dos anos, o número de dispositivos conectados à Web continua aumentando, cada um deles produzindo dados continuamente. Para construir um modelo preditivo, um enorme volume de dados brutos não é necessariamente suficiente por si só, pois deve ter algum tipo de informação significativa relacionada à saída do modelo. Normalmente, temos que anotar os dados com algum tipo de rótulo, e usá-los para supervisionar um modelo que será capaz de generalizar para dados não vistos. No entanto, o processo de rotulagem pode ser entediante, longo, dispendioso e propenso a erros. Muitas vezes, é o caso de a maioria dos nossos dados não estarem rotulados. O aprendizado semissupervisionado alivia isso ao fazer fortes suposições sobre a relação entre os rótulos e a distribuição dos dados de entrada. Esse paradigma é frequentemente bem-sucedido, mas muitos dos seus algoritmos acabam confiando demais nos poucos rótulos disponíveis. Na vida real, tanto os seres humanos quanto os sistemas automatizados são propensos a erros; portanto, é essencial que nossos algoritmos sejam capazes de trabalhar com rótulos que são poucos e também não confiáveis. De acordo com nossa revisão sistemática, muitas das abordagens existentes que consideram esse cenário específico são métodos baseados em grafos. Como resultado, esse trabalho tem como objetivo realizar uma extensa avaliação empírica dos atuais algoritmos semissupervisionados baseados em grafos, ao mesmo tempo tentando combinar as abordagens mais bem-sucedidas para construir um classificador que seja robusto ao ruído de rótulo. Para fazer isso, comparamos a precisão dos classificadores na ocasião em que variamos a quantidade de dados rotulados e o ruído de rótulos para muitas amostras diferentes. Também foram testados filtros baseados em grafos, avaliando-se métricas como revocação, precisão, especificidade e medida F1. Nossos resultados mostram que, se o conjunto de dados for consistente com nossas suposições, poderemos detectar a maioria das instâncias ruidosas, embora isso se torne mais difícil quando o número de rótulos disponíveis diminui.