PPG - Pesquisa Operacional
URI Permanente para esta coleção
Navegar
Submissões Recentes
- ItemAcesso aberto (Open Access)Machine learning for healthcare: a data-centric approach(Universidade Federal de São Paulo, 2024-06-25) Valeriano, Maria Gabriela [UNIFESP]; Lorena, Ana Carolina; Kiffer, Carlos Roberto Veiga [UNIFESP]; http://lattes.cnpq.br/7021893874375037; http://lattes.cnpq.br/3451628262694747; http://lattes.cnpq.br/7462488231975857Machine learning models have the potential to revolutionize the healthcare sector by leveraging continuously collected data in health systems. Traditionally, these models are trained on large datasets, with performance improvements achieved through robust models and hyperparameter tuning. In this work, we propose a data-centric approach focusing on improving the data itself. Throughout this research, a set of health-related databases was created. These databases originate from four distinct sources, encompassing the prediction of severe cases of COVID-19 and dengue, as well as the authorization of specialized care in the public health system in Brazil. The datasets created cover seven predictive tasks, each with separate training and testing data. All problems were designed as binary classification tasks and adopted tabular data. The datasets were initially characterized in relation to their hardness profiles, using a specific hardness measure proposed in previous works. This measure considers the probability of an instance being misclassified by different machine learning algorithms. Our analysis considered seven classifiers with distinct biases: Gradient Boosting, Random Forest, Logistic Regression, Multilayer Perceptron, Support Vector Classifier (with linear and RBF kernels), and Bagging. The models were evaluated using a set of metrics, area under the ROC curve and per-class recall and precision, to provide a holistic consideration of model performance. We proposed a new approach to generate post-hoc explanations for machine learning models. In this approach, we identified instances where the models are most likely to fail, offering data-centric explanations for such failures. The patterns found explain the model errors, resulting in greater confidence in the predictions made. Additionally, we present a case study where instance hardness analysis was adopted to improve the design of a prediction problem in collaboration with the data specialist. Our work demonstrated that through this approach, it was possible to improve data quality and, ultimately, model performance. Finally, we propose a generalized approach to enhance model performance when access to data experts is not possible. A two-step strategy was adopted: first, cleaning the training data based on instance difficulty values, and then introducing a reject option when the models did not offer high-confidence predictions for test instances. The results show that it is possible to improve model performance at the cost of rejecting instances from the test set.
- ItemAcesso aberto (Open Access)Hybrid model for selecting investment assets using the TODIM-θ method and Modern Portfolio Theory(Universidade Federal de São Paulo, 2024-07-02) Puppo, Bruna Dutra [UNIFESP]; Sbruzzi, Elton Felipe; Rangel, Luís Alberto Duncan; Leles, Michel Carlos Rodrigues; http://lattes.cnpq.br/9098047398813476; http://lattes.cnpq.br/5512914843540140; http://lattes.cnpq.br/0026358605322965; http://lattes.cnpq.br/9143172111876212This study presents the development of a hybrid model for the selection and optimization of investment portfolios, taking into account different investor profiles. The model employs the TODIM-θ method, a multi-criteria decision tool based on Prospect Theory and Modern Portfolio Theory, for optimization. The hybrid model was tested with real data from the stocks that make up the S&P 500 index between 2018 and 2022. It proved to be effective in handling large volumes of data and considering multiple alternatives and criteria, which makes it especially suitable for the selection of investments. The hybrid model represents a significant advance in the integration of the concepts of behavioral finance and optimization. By skillfully combining elements from both domains, the model builds portfolios that not only align with investor expectations but also achieve optimal results by adjusting their intrinsic values. Furthermore, the model can work quickly and efficiently, presenting results in a few minutes, without requiring high computational capacity. This demonstrates its practicality and applicability in the real world of investments.
- ItemAcesso aberto (Open Access)Semantic description and internal validation of clusters for applications in categorical data sets(Universidade Federal de São Paulo, 2024-06-19) Aquino, Roberto Douglas Guimarães de [UNIFESP]; Curtis, Vitor Venceslau; Verri, Filipe Alves Neto; http://lattes.cnpq.br/0145582312635382; http://lattes.cnpq.br/1785341067396776; http://lattes.cnpq.br/2373005809061037In clustering problems whose objective is not based specifically on spatial proximity but rather on feature patterns, traditional cluster validation indices may not be appropriate. This work proposes a tool that performs the description of clusters and can be used as an internal validation index to suggest the most appropriate number of clusters for applications in categorical data sets. To evaluate our index, we also propose a categorical synthetic data generator specifically designed for this application. We tested synthetic and real data sets with different configurations to evaluate the performance of the proposed index in comparison with well-known indexes in the literature. Thus, we demonstrate that the index has great potential to describe clusters and discover the number of most suitable clusters. The synthetic data generator is capable of producing relevant data sets for the internal validation process.
- ItemAcesso aberto (Open Access)Comparação entre diferentes abordagens de previsão de séries temporais: um estudo do consumo produtivo no setor aeronáutico brasileiro(Universidade Federal de São Paulo, 2024-03-25) Camargo, Antônio Augusto Rodrigues de [UNIFESP]; Oliveira, Mauri Aparecido de; http://lattes.cnpq.br/4663153865292835; https://lattes.cnpq.br/0952963587032267O setor aeronáutico representa uma parte essencial do cenário industrial brasileiro, desempenhando um papel crucial no desenvolvimento de novas tecnologias e práticas de produção, com aplicabilidade em diversas indústrias. Nesse contexto, a busca por estudos e a implementação de melhorias nos sistemas existentes são de grande valia. Uma área com grande potencial para aprimoramento é o planejamento de produção, especialmente onde técnicas de previsão são aplicadas dentro da cadeia de suprimentos. Este estudo tem como objetivo principal a comparação entre diversas abordagens em previsão de séries temporais, englobando métodos estatísticos clássicos, redes neurais e uma abordagem híbrida. Para avaliar a eficácia desses modelos, serão aplicadas diferentes métricas de avaliação, incluindo sMAPE, Índice de Desigualdade de Theil, RMSE, e a Regra Dowdall. O cenário de aplicação consiste em séries temporais reais, que representam o consumo de materiais do segmento de hardware elétrico, utilizados na linha de produção de uma fabricante brasileira de aeronaves. Esse estudo visa contribuir para o aprimoramento da aplicação de métodos de previsão de séries temporais em um contexto real.
- ItemAcesso aberto (Open Access)A conceptual framework combining visual text mining and causal mapping to support decision process: a case study in the education system in Brazil(Universidade Federal de São Paulo, 2023-12-18) Abuabara, Leila [UNIFESP]; Belderrain, Mischel Carmen Neyra; Paucar-Caceres, Alberto; https://www.mmu.ac.uk/staff/profile/professor-alberto-paucar-caceres; http://lattes.cnpq.br/3574552458175171; http://lattes.cnpq.br/7258305004561002A Pesquisa Operacional (PO) é uma área de conhecimento multidisciplinar que se desenvolve ao apoiar situações complexas do mundo real. Por esta razão, ela evolui com o movimento do mundo e suas questões. Nas últimas quatro décadas, a PO tradicional (PO Hard) alcançou diversas áreas que a complementaram. Uma dessas áreas é a ciência de dados, já que cada vez mais instituições e organizações estão disponibilizando grande volume de dados e informações ao mesmo tempo que contamos com ferramentas analíticas cada vez mais poderosas. No outro extremo, temos a PO Soft, também denominada Métodos de Estruturação de Problemas (PSM), um conjunto de metodologias sistêmicas e predominantemente qualitativas que lidam com as complexidades dos chamados problemas ‘confusos’ que são tão abundantes no mundo contemporâneo com muitas partes interessadas, objetivos conflitantes e interesses diversos. Conectar estas duas áreas (ciência de dados e PSM) metodologicamente e em uma aplicação real é uma contribuição relevante para a PO. Esta pesquisa tem dois objetivos. O primeiro é propor e discutir uma estrutura metodológica conceitual que combina essas duas abordagens, neste caso, a mineração de texto e o mapeamento causal para dados de mídia. O segundo é aplicar esta abordagem em um estudo de caso real e de interesse social. Neste sentido, utilizamos entrevistas públicas com especialistas da área de educação no contexto do mau desempenho dos estudantes brasileiros no Programa Internacional de Avaliação de Estudantes (PISA) em 2018. Além de provocar o debate sobre o valor desta combinação multimetodológica que pode ser útil em diversos contextos, a aplicação destacou os principais temas de atuação dentro da educação brasileira que merecem atenção em políticas educacionais. Dentre elas, os benefícios e o prazer da leitura; o engajamento das famílias desde muito cedo; as práticas pedagógicas baseadas em uma aprendizagem com significado em um ambiente contemporâneo e tecnológico; os mecanismos educacionais que focam na formação de um cidadão pleno, incluindo uma formação profissional e assim contribuindo para o desenvolvimento social e econômico do país. Finalmente, esperamos que os resultados desta pesquisa possam ser considerados em planos de governos futuros.