Um arcabouço para seleção e combinação de classificadores baseado em algoritmos evolutivos
Data
2019-11-29
Tipo
Dissertação de mestrado
Título da Revista
ISSN da Revista
Título de Volume
Resumo
Classification is one of the most studied learning tasks in the area of machine learning and aims to find a hypothesis (model) that best fits and generalizes the behavior of data during the training stage. Once the classification model has been learned, it will assign classes to new examples in the test phase. In the literature, many studies have been carried out to solve classification problems in several knowledge domains (e.g., medicine, biology, safety and remote sensing). As there is not a single classifier that achieves satisfactory results in any application, a good alternative is to adopt information fusion strategies. Among the information fusion strategies are those related to the combination of classifiers or the so-called multiple classifier systems (MCSs). An MCS aims to combine classifiers that have complementary information to each other to improve the results of effectiveness in the target application. In these systems, a very important concept for measuring the degree of agreement/disagreement among classifiers is so-called diversity. Although many authors have adopted diversity in their work, it was noted that its use alone is not sufficient to obtain improvements in the effectiveness of MCSs. An essential factor for the success of these approaches is the combination of diversity and accuracy of the classifiers belonging to the MCS. As there are infinite classifiers in the literature, a challenge lies in the choice of classifiers that will compose the final classification system, thus arising the need to develop new strategies for classifier selection. In this sense, this work proposes the development of a framework for selection and combination of classifiers that uses different optimization techniques based on evolutionary algorithms combining measures of diversity and accuracy of classifiers, selecting a subset of these classifiers based on many other classifiers available and finally, create an MCS to improve the results of effectiveness in the classification task. In the experiments carried out it was possible to analyze the impact of each of the four steps of the CIF-E protocol (Classifiers, Initialization, Fitness of individuals and Evolutionary technique) that make up the proposed framework, totaling 24 different methods implemented and tested. In addition, a comparative analysis between the best methods proposed in this work and the methods in the literature was performed. Finally, the experiments show that the method based on Univariate Marginal Distribution Algorithm (UMDA) can be better than the seven state-of-the-art literature methods in eleven of the nineteen UCI datasets tested in this work.
Classificação é uma das tarefas de aprendizagem mais estudada na área de aprendizado de máquina e tem como objetivo a busca por uma hipótese (modelo) que melhor se ajuste e generalize o comportamento dos dados durante a etapa de treinamento. Uma vez aprendido o modelo de classificação, este atribuirá classes a novos exemplos na etapa de teste. Na literatura, muitas pesquisas têm sido realizadas para resolver problemas de classificação em diversos domínios de conhecimento (e.g., medicina, biologia, segurança e sensoriamento remoto). Como não existe um único classificador que consegue resultados satisfatórios em qualquer aplicação, uma boa alternativa é adotar estratégias de fusão de informação. Dentre as estratégias de fusão de informação estão aquelas relacionadas à combinação de classificadores ou os chamados sistemas de múltiplos classificadores (SMCs). Um SMC visa combinar classificadores que tenham informações complementares entre si para melhorar os resultados de eficácia na aplicação alvo. Nestes sistemas, um conceito muito importante para mensurar o grau de concordância/discordância entre os classificadores é a chamada diversidade. Apesar de muitos autores adotarem diversidade em seus trabalhos, notou-se que apenas a sua utilização não é suficiente para a obtenção de melhorias de eficácia dos SMCs. Um fator essencial para o sucesso dessas abordagens é a combinação de diversidade e acurácia dos classificadores pertencentes ao SMC. Como existem infinitos classificadores na literatura, um desafio está na escolha dos classificadores que irão compor o sistema de classificação final, surgindo então a necessidade do desenvolvimento de novas estratégias de seleção de classificadores. Neste sentido, este trabalho propõe o desenvolvimento de um arcabouço de sele- ção e combinação de classificadores que utiliza de diferentes técnicas de otimização baseadas em algoritmos evolutivos combinando medidas de diversidade e acurácia de classificadores, selecionando um subconjunto desses classificadores base dentre muitos outros classificadores disponíveis e por fim, criar um SMC para melhorar os resultados de eficácia na tarefa de classificação. Nos experimentos realizados foi possível analisar o impacto de cada um dos quatro passos do protocolo CIF-E (Classificadores, Inicialização, Função de aptidão dos indivíduos e Técnica Evolutiva) que compõe o arcabouço proposto, totalizando 24 diferentes métodos implementados e testados. Além disso, uma análise comparativa entre os melhores métodos propostos neste trabalho e os métodos da literatura foi realizada. Finalmente, os experimentos mostram que o método proposto baseado em Univariate Marginal Distribution Algorithm (UMDA) consegue ser melhor que os sete métodos estado-da-arte da literatura em onze das dezenove bases de dados UCI testadas neste trabalho.
Classificação é uma das tarefas de aprendizagem mais estudada na área de aprendizado de máquina e tem como objetivo a busca por uma hipótese (modelo) que melhor se ajuste e generalize o comportamento dos dados durante a etapa de treinamento. Uma vez aprendido o modelo de classificação, este atribuirá classes a novos exemplos na etapa de teste. Na literatura, muitas pesquisas têm sido realizadas para resolver problemas de classificação em diversos domínios de conhecimento (e.g., medicina, biologia, segurança e sensoriamento remoto). Como não existe um único classificador que consegue resultados satisfatórios em qualquer aplicação, uma boa alternativa é adotar estratégias de fusão de informação. Dentre as estratégias de fusão de informação estão aquelas relacionadas à combinação de classificadores ou os chamados sistemas de múltiplos classificadores (SMCs). Um SMC visa combinar classificadores que tenham informações complementares entre si para melhorar os resultados de eficácia na aplicação alvo. Nestes sistemas, um conceito muito importante para mensurar o grau de concordância/discordância entre os classificadores é a chamada diversidade. Apesar de muitos autores adotarem diversidade em seus trabalhos, notou-se que apenas a sua utilização não é suficiente para a obtenção de melhorias de eficácia dos SMCs. Um fator essencial para o sucesso dessas abordagens é a combinação de diversidade e acurácia dos classificadores pertencentes ao SMC. Como existem infinitos classificadores na literatura, um desafio está na escolha dos classificadores que irão compor o sistema de classificação final, surgindo então a necessidade do desenvolvimento de novas estratégias de seleção de classificadores. Neste sentido, este trabalho propõe o desenvolvimento de um arcabouço de sele- ção e combinação de classificadores que utiliza de diferentes técnicas de otimização baseadas em algoritmos evolutivos combinando medidas de diversidade e acurácia de classificadores, selecionando um subconjunto desses classificadores base dentre muitos outros classificadores disponíveis e por fim, criar um SMC para melhorar os resultados de eficácia na tarefa de classificação. Nos experimentos realizados foi possível analisar o impacto de cada um dos quatro passos do protocolo CIF-E (Classificadores, Inicialização, Função de aptidão dos indivíduos e Técnica Evolutiva) que compõe o arcabouço proposto, totalizando 24 diferentes métodos implementados e testados. Além disso, uma análise comparativa entre os melhores métodos propostos neste trabalho e os métodos da literatura foi realizada. Finalmente, os experimentos mostram que o método proposto baseado em Univariate Marginal Distribution Algorithm (UMDA) consegue ser melhor que os sete métodos estado-da-arte da literatura em onze das dezenove bases de dados UCI testadas neste trabalho.