Seleção de atributos em problemas de classificação unária
Data
2014-04-24
Tipo
Dissertação de mestrado
Título da Revista
ISSN da Revista
Título de Volume
Resumo
In one-class classification problems all training examples belong to just one class. The absence of counter-examples represents a challenge to traditional Machine Learning and pre-processing techniques. This is the case of various feature selection techniques for labeled data. The selection of the most relevant features from a dataset usually benefits the performance obtained by classification algorithms. Despite the relevance of this issue, few techniques have been proposed for feature selection in one-class classification problems. Moreover, most of the existent techniques have to rely on a specific classification algorithm for feature selection, or aggregation techniques. This paper proposes a new filter feature selection approach for one-class classification. First, five feature selection measures from different paradigms are here adapted to the one-class scenario. Next, the feature rankings produced by these measures are combined using different aggregation strategies. This proposed approach was able to reduce the size of the feature sets while maintaining or even improving the predictive performance obtained by the classifiers in various one-class classification tasks.
Em problemas de classificação unária todos os exemplos de treinamento pertencem a apenas uma classe. A ausência de contraexemplos representa um desafio às técnicas tradicionais de aprendizado de máquina e de pré-processamento de dados. Este é o caso de várias técnicas de seleção de atributos. A seleção dos atributos mais relevantes de um conjunto de dados geralmente beneficia o desempenho obtido pelos algoritmos de classificação. Apesar da relevância do tema, foram propostas poucas técnicas para a seleção de atributos em problemas de classificação unária. Além disso, a maioria das técnicas existentes são abordagens que devem recorrer a um algoritmo de classificação específico para a seleção de atributos, ou técnicas de agregação dos valores dos atributos. Este trabalho propõe uma nova abordagem de seleção de atributos do tipo filtro para a classificação unária. Em primeiro lugar, cinco medidas de avaliação de importância de atributos são adaptadas para o cenário de uma classe. Em seguida, os ranqueamentos de atributos produzidos por estas medidas são combinados usando diferentes estratégias de agregação. A abordagem proposta é capaz de reduzir o tamanho dos conjuntos de atributos mantendo ou mesmo melhorando o desempenho preditivo obtido por Máquinas de Vetores de Suporte (Support Vector Machines) na solução de várias tarefas de classificação unária.
Em problemas de classificação unária todos os exemplos de treinamento pertencem a apenas uma classe. A ausência de contraexemplos representa um desafio às técnicas tradicionais de aprendizado de máquina e de pré-processamento de dados. Este é o caso de várias técnicas de seleção de atributos. A seleção dos atributos mais relevantes de um conjunto de dados geralmente beneficia o desempenho obtido pelos algoritmos de classificação. Apesar da relevância do tema, foram propostas poucas técnicas para a seleção de atributos em problemas de classificação unária. Além disso, a maioria das técnicas existentes são abordagens que devem recorrer a um algoritmo de classificação específico para a seleção de atributos, ou técnicas de agregação dos valores dos atributos. Este trabalho propõe uma nova abordagem de seleção de atributos do tipo filtro para a classificação unária. Em primeiro lugar, cinco medidas de avaliação de importância de atributos são adaptadas para o cenário de uma classe. Em seguida, os ranqueamentos de atributos produzidos por estas medidas são combinados usando diferentes estratégias de agregação. A abordagem proposta é capaz de reduzir o tamanho dos conjuntos de atributos mantendo ou mesmo melhorando o desempenho preditivo obtido por Máquinas de Vetores de Suporte (Support Vector Machines) na solução de várias tarefas de classificação unária.
Descrição
Citação
LORENA, Luiz Henrique Nogueira. Seleção de atributos em problemas de classificação unária. 2014. 62 f. Dissertação (Mestrado) - Instituto de Ciência e Tecnologia, Universidade Federal de São Paulo (UNIFESP), São José dos Campos, 2014.