Navegando por Palavras-chave "Data Quality"
Agora exibindo 1 - 1 de 1
Resultados por página
Opções de Ordenação
- ItemAcesso aberto (Open Access)Data quality monitoring at scale with automated anomaly detection: a profiling-based framework(Universidade Federal de São Paulo, 2023-02-27) Pereira, Rafael Leinio [UNIFESP]; Berton, Lilian [UNIFESP]; http://lattes.cnpq.br/9064767888093340; http://lattes.cnpq.br/6805465873224981Embora a cultura orientada por dados e abordagens de Inteligência Artificial sejam empregadas em várias organizações, é sabido que ainda existem muitos desafios na criação de uma operação de dados eficiente. Uma das principais barreiras é obter dados de alta qualidade. Embora mais dados tragam mais oportunidades no contexto de produtos analíticos e de aprendizado de máquina, cobrir essa gama crescente de ativos com verificações de qualidade torna-se um problema real de escalabilidade. Então a grande questão é: como criar um serviço de qualidade de dados eficiente que cubra o maior número possível de conjuntos de dados, não exija muito ajuste manual, possa lidar com escalabilidade e com resultados fáceis de interpretar? Esta dissertação explora como construir uma operação de monitoramento de qualidade de dados baseada em perfis com computação de métricas, otimização de modelos, detecção de anomalias e geração de relatórios com alta explicabilidade. Ao empregar as ferramentas mais recentes para processamento de dados e AutoML alinhadas com padrões modernos de plataforma de dados, foi possível desenvolver um framework fácil de usar para capacitar desenvolvedores e usuários de dados a construir essa solução. Os testes foram realizados considerando dois conjuntos de dados reais de e-commerce comparando os resultados com outro framework comum na literatura. Os resultados mostram que nossa proposta foi capaz de alcançar uma precisão muito melhor, mantendo uma pontuação de recall alta, o que é importante para minimizar falsos alertas de anomalia.