Navegando por Palavras-chave "Machine learning"
Agora exibindo 1 - 20 de 24
Resultados por página
Opções de Ordenação
- ItemAcesso aberto (Open Access)Análise via aprendizado de máquina do controle de reações químicas(Universidade Federal de São Paulo, 2023-05-23) Oliveira, Julia dos Santos [UNIFESP]; Mesquita, Maximilian Serguei [UNIFESP]; Aguilar, Andrea Maria; http://lattes.cnpq.br/1309035538142217A Inteligência Artificial (IA) e o aprendizado de máquina (Machine Learning, ML) cresceram em popularidade em vários setores. Corporações, universidades, governos e grupos de pesquisa perceberam o verdadeiro potencial de várias aplicações de IA e ML para automatizar vários processos e aumentar as capacidades de previsão. O potencial da IA e ML é um divisor de águas notável em vários setores industriais, e, neste contexto, é de extrema importância introduzir a automatização do controle do processamento químico nos processos de automatização. Considerando essa demanda, este projeto objetivou criar um algoritmo de aprendizado de máquina capaz de prever resultados e rendimento de reações aldólicas. O desenvolvimento foi feito usando o Python, linguagem de programação de código aberto gratuita, que se destaca por ser de fácil compreensão, acessível e possuir uma comunidade online com armazenamento de dados de problemas apresentados cotidianamente e suas resoluções já desenvolvidas. Além do banco de dados United States Patent and Trademark Office (USPTO), serão utilizados, para comparar com os resultados gerados pelo Machine Learning, artigos científicos do Portal CAPES e SciFinder e assim, futuramente, implementar uma estratégia automatizada que facilite a rotina laboratorial e traga visibilidade para o estudo de Machine Learning e linguagem Python dentro do campus Diadema, da Universidade Federal de São Paulo - UNIFESP. Foi possível recriar um modelo de predição de reações químicas com 89% de assertividade e elaborar um modelo próprio de predição de rendimento de reações aldólicas com mais de 80% de assertividade.
- ItemAcesso aberto (Open Access)Aplicação de machine learning para dados de Covid-19(Universidade Federal de São Paulo, 2022-02-09) Lima, Gabriel de Souza [UNIFESP]; Lucas, Edimilson Costa [UNIFESP]; http://lattes.cnpq.br/1874057539542352Este trabalho apresenta três técnicas de Machine Learning, sendo: XGBoost, LightGBM e Regressão Logística para predizer o óbito de uma pessoa por COVID-19 no estado de São Paulo, além disso foi feita a comparação entre os modelos apontando as vantagens e desvantagens de utilizar as diferentes metodologias. As bases de dados foram extraídas do datalake público de casos e óbitos do Estado de São Paulo, acrescentando variáveis como renda, percentual de vacinação e população. Os modelos foram avaliados pelas métricas de curva (AUC) ROC, percentual de falso positivos e acurácia dos modelos, ou seja, quanto o modelo acertou nas previsões de óbito, todos os modelos apresentaram índices satisfatórios, como a curva ROC acima de 95% e a acurácia acima de 90%. O modelo de LightGBM apresentou melhores resultados contra os demais modelos.
- ItemAcesso aberto (Open Access)Aplicação do modelo encoder decoder LSTM para previsão de geração fotovoltaica(Universidade Federal de São Paulo, 2024-12-16) Arruda, Fernando Vasconde de [UNIFESP]; Martins, Fernando Ramos [UNIFESP]; Almeida, Marcelo Pinho; http://lattes.cnpq.br/2541127699182124; http://lattes.cnpq.br/9012359647335296; http://lattes.cnpq.br/4695805938100040; Universidade Federal de São Paulo (UNIFESP)Um dos pilares para o desenvolvimento tecnológico da sociedade moderna é a energia elétrica, cujo consumo vem crescendo com os avanços tecnológicos. Grande parte da geração de eletricidade provém de combustíveis fósseis; contudo, as fontes renováveis têm ganho destaque devido aos pactos globais que visam à redução da emissão de gases de efeito estufa com o objetivo de controlar o aumento da temperatura do planeta. O recurso solar é uma alternativa importante para essa transição energética, mas ainda existem desafios tecnológicos que precisam ser superados para ampliar sua utilização. A intermitência da geração fotovoltaica, associada às condições meteorológicas, é um dos principais desafios. Este trabalho aplicou uma metodologia de previsão de geração fotovoltaica para um horizonte de 1 a 3 horas baseada em redes neurais utilizando uma arquitetura conhecida como Encoder-Decoder Long Short-Term Memory (EDLSTM). Esse modelo é altamente eficiente para problemas conhecidos como seq2seq, onde uma sequência de dados é usada como entrada e outra sequência é gerada como saída. O funcionamento do modelo envolve dois componentes: o encoder, que comprime a sequência de entrada em um vetor de comprimento fixo, e o decoder, que descomprime esse vetor para obter a sequência de previsão. Para o treinamento, foram utilizados dados meteorológicos e a série histórica da potência do gerador fotovoltaico localizado na Universidade de São Paulo. A série histórica abrange o período de 2018 a 2022, sendo que os dados de 2018 a 2021 foram usados para treinamento e validação, enquanto os dados de 2022 foram reservados para testes. Foram considerados quatro grupos de atributos de entrada, sendo dois com variáveis atmosféricas e dois com a série histórica de potência. O algoritmo de Grid Search foi implementado para identificar os melhores hiperparâmetros para a topologia das redes. A avaliação do modelo foi realizada utilizando a Raiz do Erro Quadrático Médio (RMSE), o Erro Médio de Viés (MBE) e o Erro Absoluto Médio (MAE), normalizados tanto pela potência nominal do gerador quanto pela média da geração observada (pRMSE, pMBE e pMAE). Além disso, foi utilizado o Skill Score (SS), que compara o desempenho do modelo estudado com um modelo de persistência baseado no índice de claridade de céu claro. Os modelos que utilizaram os atributos de potência como entrada para o treinamento do modelo obtiveram melhor desempenho, com destaque para os modelos EDLSTM P, que apresentou índices de Skill Score variando entre 14,42% e 47,95%, e o EDLSTM PAZ, com índices variando entre 15,16% e 48,67%. Esses dois modelos apresentaram valores positivos de Skill Score em condições de céu claro, nublado e parcialmente nublado, para os três horizontes de previsão.
- ItemAcesso aberto (Open Access)Uma Aplicação Web para a predição de qualidade de código de funções(Universidade Federal de São Paulo, 2021-08-10) Vieira, Felipe Lima Cunha [UNIFESP]; Lemos, Otavio Augusto Lazzarini [UNIFESP]; http://lattes.cnpq.br/8869840348353359Recentemente pesquisadores implementaram uma ferramenta nomeada como rea- per, que possibilita os usuários selecionar projetos que possuem indícios de que são proje- tos sólidos, segundo dimensões de engenharia de software. No trabalho em questão, foram utilizados dois métodos de classificação, o random forest e um classificador baseado em pontuação, o trabalho classifica o projeto, e não trechos de código individuais. Em seguida, outra pesquisa investigou se algoritmos de Machine Learning (ML) são capazes de identificar diferenças entre códigos. Assim sendo, classificar se determinado trecho de código segue ou não boas práticas. Os resultados indicam a existência de padrões que distinguem trechos de códigos engineered (funções que seguem boas práticas) e non- engineered (funções que não seguem boas práticas). A pesquisa citada anteriormente apresentou bons resultados na classificação de códigos de funções, porém o processo para classificar o código possui etapas manuais e não possui uma interface que possibilita o usuário realizar a classificação do seu código. Portanto, para este trabalho é proposto um complemento às pesquisas realizadas, implementando uma ferramenta que permite o usuário usufruir do modelo de classificação de forma fácil, automatizada e através de interfaces web. A aplicação recebe um trecho de código, em seguida retorna sua classificação (segue ou não boas práticas), retorna também o valor das métricas de software que foram analisadas.
- ItemAcesso aberto (Open Access)Aprendizado de máquina no controle de qualidade na indústria farmacêutica e alimentícia(Universidade Federal de São Paulo, 2019-11-12) Lima, Felipe da Silva [UNIFESP]; Lopes, Patricia Santos [UNIFESP]; http://lattes.cnpq.br/7939687315116927O Controle de Qualidade é responsável pelas atividades referentes à amostragem, às especificações e aos ensaios de produtos acabados e de matérias primas, tendo vital importância nas indústrias farmacêuticas e alimentícias por estas lidarem diretamente com a saúde dos consumidores finais. Aprendizado de máquina é um subcampo de estudo da área de Inteligência Artificial que lida com agentes/algoritmos que podem melhorar o seu comportamento ou desempenho através dos estudos de suas próprias experiências prévias. Trabalhos recentes visam juntar os dois conceitos, apresentando novas técnicas e metodologias para melhorar em diversos aspectos o controle de qualidade nas indústrias farmacêuticas e alimentícias. Foram realizadas buscas de artigos nas bases de dados Scopus e Web of Science, utilizando os descritores quality control, machine learning, pharmaceutical, food e bacterial sendo identificados 717 estudos, dos quais foram incluídos 16 artigos completos. Desses estudos, 10 focam em análise de medicamentos e matérias primas e 6 focam em análises de alimentos. A literatura abrange diversas técnicas analíticas com diversos algoritmos de aprendizado, sendo os mais vistos a Espectroscopia Raman e FT-IR usando principalmente os algoritmos de Support Vector Machine e Redes Neurais Artificiais. Apesar de apresentarem bons dados estatísticos e baixo custo de aplicação, é de senso comum dos autores que ainda precisam ser feitos estudos mais aprofundados para tornar esses métodos realmente úteis e viáveis.
- ItemAcesso aberto (Open Access)Aprendizado de máquina no controle de qualidade nas indústrias farmacêuticas e alimentícias(Universidade Federal de São Paulo, 2019) Lima, Felipe da Silva [UNIFESP]; Lopes, Patricia Santos [UNIFESP]; http://lattes.cnpq.br/7939687315116927Quality Control is the department responsible for the activities such as sampling, specifications and test the final products and raw material, having a vital importance at the pharmaceutical and food industries, which deal directly with the health of the final customers. Machine learning is a subfield of studies in the Artificial Intelligence field, which works with agents/algorithms that can improve their behavior or performance by studying their own previous experiences. Recent studies aim at place together both concepts, presenting us new techniques and methodologies to improve the quality control in the pharmaceutical and food industries. It was searched articles at the Scopus and Web of Science databases, using the descriptors quality control, machine learning, pharmaceutical, food and bacterial resulting in 717 articles, which 16 have been fully included in this work. Of these articles, 10 focus on drugs and raw material analysis, and 6 focus on food analysis. The literature covers several analytical techniques associated with several learning algorithms, which the most seen are Raman Spectroscopy and FT-IR using the Support Vector Machine and Artificial Neural Network algorithms. Despite of showing good statistic data and low cost application, the authors agree that still need more in-depth studies to render these methods really useful and viable.
- ItemSomente MetadadadosAutomatic feature engineering for regression models with machine learning: An evolutionary computation and statistics hybrid(Elsevier Science Inc, 2018) de Melo, Vinicius Veloso [UNIFESP]; Banzhaf, WolfgangSymbolic Regression (SR) is a well-studied task in Evolutionary Computation (EC), where adequate free-form mathematical models must be automatically discovered from observed data. Statisticians, engineers, and general data scientists still prefer traditional regression methods over EC methods because of the solid mathematical foundations, the interpretability of the models, and the lack of randomness, even though such deterministic methods tend to provide lower quality prediction than stochastic EC methods. On the other hand, while EC solutions can be big and uninterpretable, they can be created with less bias, finding high-quality solutions that would be avoided by human researchers. Another interesting possibility is using EC methods to perform automatic feature engineering for a deterministic regression method instead of evolving a single model
- ItemAcesso aberto (Open Access)Desenvolvimento de aplicativo para granulometria em campo(Universidade Federal de São Paulo, 2023-12-08) Kashiba, Enzo de Moura [UNIFESP]; Mendes, Vinícius Ribau [UNIFESP]; Pereira, André Luiz Vizine [UNIFESP]; http://lattes.cnpq.br/5977522212667911; http://lattes.cnpq.br/5430672600389568; Universidade Federal de São Paulo (UNIFESP)Este trabalho descreve o processo, observações e dificuldades encontradas na tentativa de desenvolvimento de um aplicativo para aparelho móvel capaz de realizar análises granulométricas sem a necessidade de voltar ao laboratório, apenas necessitando a posse de um microscópio digital e aparelho celular. O processo de desenvolvimento contou com Python e Jupyter Notebook como principais plataformas, e também técnicas de Deep Learning e OBIA (Object based image analysis), em conjunto de uma base de imagens de amostras de sedimento para criar um sistema de diferentes máscaras para assim instruir o software de aprendizado profundo a segmentar os diferentes grãos presentes em uma amostra, para assim reconhecer características do grão mesmo enquanto em campo, assim facilitando o processo de pesquisa.
- ItemAcesso aberto (Open Access)Desenvolvimento de um modelo de machine learning para predição do aumento de temperatura e diminuição do índice pluviométrico no Estado de São Paulo em função do desmatamento da Amazônia.(Universidade Federal de São Paulo, 2023-06-28) Carneiro, Guilherme Melo [UNIFESP]; Leite, João Lucas Caetano Corrêa [UNIFESP]; Hanisch, Werner Siegfried [UNIFESP]; https://lattes.cnpq.br/8938747949184483Com o passar dos anos, o desmatamento da Floresta Amazônica tornou-se um ponto crítico e de extrema preocupação não só em âmbito local, mas também regional e global devido aos impactos que este gera sobre o meio ambiente a curto, médio e a longo prazo. O aumento da temperatura, da emissão dos gases de efeito estufa e a diminuição dos índices pluviométricos são só algumas das consequências exercidas sobre as regiões que sofrem as complicações provenientes do desmatamento. Por conta disso, cientistas vêm buscando alternativas para não só conseguirem mapear os impactos gerados, mas também prever como estes se comportarão no futuro com base no histórico do desmatamento que foi registrado ao longo dos anos, fazendo-se assim possível traçar planos de ação para poder mitigar não só os impactos, mas o desmatamento da Amazônia em si. Para colocar estes planos em prática, a versatilidade e assertividade fornecida pela tecnologia por meio de métodos de IA (Inteligência Artificial) se mostra cada vez mais fundamental para se resolver questões complexas como as apresentadas no âmbito ambiental. Fazendo o uso das bases de dados com um compilado de variáveis como precipitação média, variação de temperatura, direção do vento e desmatamento acumulado, por exemplo, fornecidas por instituições como a PRODES (Projeto de Estimativa ao Desflorestamento Bruto da Amazônia), INPE (Instituto de Pesquisas Espaciais) e INMET (Instituto Nacional de Meteorologia), um modelo de Machine Learning (Aprendizado de Máquina) foi aplicado a fim de se estabelecer uma predição das variações dos índices pluviométricos e temperatura de São Paulo relacionando-os com o desmatamento da Amazônia. Após aplicação do método de Random Forest foi possível confirmar a correlação do desmatamento da Floresta Amazônica com variação da amplitude térmica e pluviosidade total no estado de São Paulo. Entretanto, para se obter uma predição mais assertiva, se mostrou necessário considerar mais variáveis além do desmatamento da Amazônia, como por exemplo a evapotranspiração do piche e a direção do vento, que apresentaram grande correlação com as mudanças climáticas em São Paulo.
- ItemAcesso aberto (Open Access)Estratégia pairs trading com a aplicação de redes neurais recorrentes do tipo LSTM no mercado acionário brasileiro(Universidade Federal de São Paulo, 2022-02-08) Soares, Pedro Henrique Siqueira [UNIFESP]; Lucas, Edimilson Costa [UNIFESP]; http://lattes.cnpq.br/1874057539542352; http://lattes.cnpq.br/9158985907881879Este trabalho tem como objetivo analisar se o uso da rede neural Long Short-Term Memory (LSTM) como ferramenta de previsão de séries temporais pode otimizar uma estratégia pairs trading por cointegração no mercado acionário brasileiro. As estratégias pairs trading são estratégias de arbitragem estatística que buscam obter retornos através da precificação relativa entre dois ativos. Desse modo, busca-se verificar a existência de uma relação histórica entre dois ativos e, a partir de algum desvio do padrão observado, inicia-se a estratégia apostando no retorno ao padrão histórico. As análises foram realizadas com uma base de dados composta por 56 ativos entre um período de janeiro de 2010 e dezembro de 2019. Com este trabalho, busca-se contribuir para a literatura utilizando novas ferramentas e testando novas abordagens para as estratégias pairs trading.
- ItemAcesso aberto (Open Access)Estudo de segmentação e movimentação de nuvens utilizando imageadores do céu em Natal-RN, costa do nordeste do Brasil(Universidade Federal de São Paulo, 2024-05-17) Pires, Wendy Mary da Silveira [UNIFESP]; Martins, Fernando Ramos [UNIFESP]; http://lattes.cnpq.br/9012359647335296; https://lattes.cnpq.br/4862701131287048; Universidade Federal de São Paulo (UNIFESP)O Sol é a principal fonte de energia para os processos físicos, químicos e biológicos que acontecem em nosso planeta. Com o desenvolvimento tecnológico e o aumento da demanda por energia, as fontes renováveis de energia, incluindo a energia solar, são uma alternativa viável sob o ponto de vista técnico, econômico e ambiental. No entanto, devido às flutuações diárias da radiação solar incidente na superfície, é difícil modelar e simular a produção de energia solar, principalmente em uma região equato-rial considerando o conjunto de fenômenos meteorológicos que atuam e podem con-tribuir para os processos radiativos na atmosfera. A nebulosidade é o principal fator modulador da disponibilidade do recurso solar na superfície dada a sua variabilidade temporal e espacial, de modo que a previsão da cobertura futura de nuvens é uma informação fundamental para simulação e operação dos sistemas fotovoltaicos. Este estudo buscou analisar o movimento de nuvens em imagens coletadas em Natal-RN, cidade costeira localizada na região equatorial do Nordeste do Brasil (NEB). As ima-gens do céu foram coletadas por imageador all-sky com lente olho de peixe (fisheye) em operação na estação solarimétrica integrante da rede SONDA (INPE). O método de calibração das imagens foi desenvolvido com base na percurso solar com o intuito de localizar a posição das nuvens em relação à posição de operação do imageador. Dois algoritmos de classificação de pixels com relação a presença de nebulosidade foram desenvolvidos, um com base na razão vermelho-azul (RBR) em cada pixel e o outro algoritmo utiliza uma biblioteca de céu claro para minimizar o impacto da pre-sença do Sol não ocluso por nuvens nas imagens coletadas. O método de Farnebäck foi implementado para simular o fluxo óptico das nuvens e estimar a posição futura do campo de nuvens para três horizontes de previsão. Os resultados tornam evidentes o desafio da modelagem de movimento de nuvens na costa equatorial NEB em razão das características climáticas regionais: ventos constantes e processos de formação/-dissipação de nuvens em escalas de tempo muito reduzidas. As métricas adotadas para avaliação das previsões realizadas foram RMSE, Viés e MAE. A previsão por persistência foi adotada como referência para comparação com a modelagem de fluxo ótico. Os resultados mostram que para horizontes de 1 minuto, a modelagem de Far-nebäck apresentou desvios do RMSE abaixo de 50%. Em contrapartida os resultados para 10 minutos foram inferiores ao observado em 5 minutos, com um RMSE má-ximo de 55%. Diante disso, a previsão para intervalos de 5 minutos foram as que apresentaram maiores problemas, tendo em vista, as mudanças rápidas das nebulosi-dades sobre as lentes da câmera. Em contrapartida, nos intervalos de 1 e 10 minutos Farnebäck apresentou resultados satisfatórios. As previsões de Farnebäck mostram pequena vantagem em relação ao método de persistência uma vez que os desvios de RMSE foram similares em ambos os métodos, mas valores de viés são reduzidos em condições meteorológicas específicas.
- ItemSomente MetadadadosEvolutionary model trees for handling continuous classes in machine learning(Elsevier B.V., 2011-03-01) Barros, Rodrigo C.; Ruiz, Duncan D.; Basgalupp, Marcio P. [UNIFESP]; Universidade de São Paulo (USP); Pontificia Univ Catolica Rio Grande do Sul; Universidade Federal de São Paulo (UNIFESP)Model trees are a particular case of decision trees employed to solve regression problems. They have the advantage of presenting an interpretable output, helping the end-user to get more confidence in the prediction and providing the basis for the end-user to have new insight about the data, confirming or rejecting hypotheses previously formed. Moreover, model trees present an acceptable level of predictive performance in comparison to most techniques used for solving regression problems. Since generating the optimal model tree is an NP-Complete problem, traditional model tree induction algorithms make use of a greedy top-down divide-and-conquer strategy, which may not converge to the global optimal solution. in this paper, we propose a novel algorithm based on the use of the evolutionary algorithms paradigm as an alternate heuristic to generate model trees in order to improve the convergence to globally near-optimal solutions. We call our new approach evolutionary model tree induction (E-Motion). We test its predictive performance using public UCI data sets, and we compare the results to traditional greedy regression/model trees induction algorithms, as well as to other evolutionary approaches. Results show that our method presents a good trade-off between predictive performance and model comprehensibility, which may be crucial in many machine learning applications. (C) 2010 Elsevier Inc. All rights reserved.
- ItemSomente MetadadadosEvolving decision trees with beam search-based initialization and lexicographic multi-objective evaluation(Elsevier B.V., 2014-02-10) Basgalupp, Marcio P. [UNIFESP]; Barros, Rodrigo C.; Carvalho, Andre C. P. L. F. de; Freitas, Alex A.; Universidade Federal de São Paulo (UNIFESP); Universidade de São Paulo (USP); Univ KentDecision tree induction algorithms represent one of the most popular techniques for dealing with classification problems. However, traditional decision-tree induction algorithms implement a greedy approach for node splitting that is inherently susceptible to local optima convergence. Evolutionary algorithms can avoid the problems associated with a greedy search and have been successfully employed to the induction of decision trees. Previously, we proposed a lexicographic multi-objective genetic algorithm for decision-tree induction, named LEGAL-Tree. in this work, we propose extending this approach substantially, particularly w.r.t. two important evolutionary aspects: the initialization of the population and the fitness function. We carry out a comprehensive set of experiments to validate our extended algorithm. the experimental results suggest that it is able to outperform both traditional algorithms for decision-tree induction and another evolutionary algorithm in a variety of application domains. (C) 2013 Elsevier Inc. All rights reserved.
- ItemSomente MetadadadosInvestigating brain structural patterns in first episode psychosis and schizophrenia using MRI and a machine learning approach(Elsevier Ireland Ltd, 2018) Moura, Adriana Miyazaki de; Pinaya, Walter Hugo Lopez; Gadelha, Ary [UNIFESP]; Zugman, Andre [UNIFESP]; Noto, Cristiano [UNIFESP]; Cordeiro, Quirino [UNIFESP]; Belangero, Sintia Iole [UNIFESP]; Jackowski, Andrea Parolin [UNIFESP]; Bressan, Rodrigo Affonseca [UNIFESP]; Sato, Joao Ricardo [UNIFESP]In this study, we employed the Maximum Uncertainty Linear Discriminant Analysis (MLDA) to investigate whether the structural brain patterns in first episode psychosis (FEP) patients would be more similar to patients with chronic schizophrenia (SCZ) or healthy controls (HC), from a schizophrenia model perspective. Brain regions volumetric data were estimated by using MRI images of SCZ and FEP patients and HC. First, we evaluated the MLDA performance in discriminating SCZ from controls, which provided a score based on a model for changes in brain structure in SCZ. In the following, we compared the volumetric patterns of FEP patients with patterns of SCZ and healthy controls using these scores. The FEP group had a score distribution more similar to patients with schizophrenia (p-value = .461
- ItemAcesso aberto (Open Access)Machine learning accurately identify free-living marine nematodes species(Universidade Federal de São Paulo, 2022-12-16) Brito de Jesus, Simone [UNIFESP]; Gallucci, Fabiane [UNIFESP]; Vieira, Danilo Cândido; http://lattes.cnpq.br/9811824241582252; http://lattes.cnpq.br/8179208642568772; https://lattes.cnpq.br/8964704292736887; Universidade Federal de São Paulo (UNIFESP)A taxonomia é a base da maioria dos estudos de biodiversidade. No entanto, a identificação de espécies ainda é um desafio, especialmente para pequenos metazoários. Este estudo tem como objetivo analisar o desempenho de algoritmos de aprendizado de máquina na identificação de espécies de Nematoda marinhos de vida livre. Foram consideradas 46 espécies pertencentes ao gênero Acantholaimus e 58 espécies pertencentes do gênero Sabatieria. Para ambos os gêneros, foram considerados caracteres morfométricos e de presença/ausência. A abordagem atual comparou o resultado dos algoritmos K-nearest neighbor (KNN), Support Vector Machine (SVM), Random Forest (RF) e Gradient Boosting (GB). Para ambos os gêneros, RF foi o mais preciso em classificar os espécimes nas espécies corretas (94%), enquanto KNN apresentou o pior desempenho (17%). Após o conjunto o RF e SVM, a acurácia aumentou para 99,7% para Sabatieria e 100% para Acantholaimus. Esses resultados mostraram que, na presença de uma tabela morfométrica, a identificação de Nematoda marinhos de vida livre pode ser totalmente automatizada, otimizando a biodiversidade e os estudos ecológicos, bem como tornando a identificação de espécies mais acessível para não taxonomistas.
- ItemAcesso aberto (Open Access)Machine learning for healthcare: a data-centric approach(Universidade Federal de São Paulo, 2024-06-25) Valeriano, Maria Gabriela [UNIFESP]; Lorena, Ana Carolina; Kiffer, Carlos Roberto Veiga [UNIFESP]; http://lattes.cnpq.br/7021893874375037; http://lattes.cnpq.br/3451628262694747; http://lattes.cnpq.br/7462488231975857Machine learning models have the potential to revolutionize the healthcare sector by leveraging continuously collected data in health systems. Traditionally, these models are trained on large datasets, with performance improvements achieved through robust models and hyperparameter tuning. In this work, we propose a data-centric approach focusing on improving the data itself. Throughout this research, a set of health-related databases was created. These databases originate from four distinct sources, encompassing the prediction of severe cases of COVID-19 and dengue, as well as the authorization of specialized care in the public health system in Brazil. The datasets created cover seven predictive tasks, each with separate training and testing data. All problems were designed as binary classification tasks and adopted tabular data. The datasets were initially characterized in relation to their hardness profiles, using a specific hardness measure proposed in previous works. This measure considers the probability of an instance being misclassified by different machine learning algorithms. Our analysis considered seven classifiers with distinct biases: Gradient Boosting, Random Forest, Logistic Regression, Multilayer Perceptron, Support Vector Classifier (with linear and RBF kernels), and Bagging. The models were evaluated using a set of metrics, area under the ROC curve and per-class recall and precision, to provide a holistic consideration of model performance. We proposed a new approach to generate post-hoc explanations for machine learning models. In this approach, we identified instances where the models are most likely to fail, offering data-centric explanations for such failures. The patterns found explain the model errors, resulting in greater confidence in the predictions made. Additionally, we present a case study where instance hardness analysis was adopted to improve the design of a prediction problem in collaboration with the data specialist. Our work demonstrated that through this approach, it was possible to improve data quality and, ultimately, model performance. Finally, we propose a generalized approach to enhance model performance when access to data experts is not possible. A two-step strategy was adopted: first, cleaning the training data based on instance difficulty values, and then introducing a reject option when the models did not offer high-confidence predictions for test instances. The results show that it is possible to improve model performance at the cost of rejecting instances from the test set.
- ItemAcesso aberto (Open Access)Meta-analysis of clustering problem instances and techniques in machine learning(Universidade Federal de São Paulo, 2022-02-11) Fernandes, Luiz Henrique dos Santos [UNIFESP]; Lorena, Ana Carolina; http://lattes.cnpq.br/3451628262694747; http://lattes.cnpq.br/8629213307451924A seleção do algoritmo mais efetivo a ser aplicado em determinada instância, baseado nas características desta, é um problema que vem sendo estudado na área de meta-aprendizado. Nesta abordagem, o propósito é estabelecer uma relação entre os atributos dos problemas e o desempenho de um conjunto de algoritmos que podem ser utilizados para resolvê-los. Meta-aprendizado vem sendo empregado em diversos problemas de Aprendizado de Máquina, como classificação, regressão, otimização e agrupamento de dados, por exemplo. Agrupamento de dados, ou data clustering, é um problema exigido em várias aplicações, desde segmentação de mercado até análise de dados baseados no genoma. No entanto, a definição de um agrupamento, ou cluster, não é única. Existem vários algoritmos com diferentes vieses que encontram diferentes tipos de estruturas nos dados. Por exemplo, pode-se maximizar a separabilidade do clusters ou encontrar regiões densas no espaço para definição dos clusters. A finalidade da presente pesquisa é avaliar objetivamente o desempenho de algoritmos de agrupamento em Aprendizado de Máquina e analisar o impacto da escolha de instâncias de teste por meio de uma abordagem baseada em um framework de espaço de instâncias que foi aplicado com sucesso em problemas de classificação e regressão. Durante o estudo, foram abordados diversos aspectos interessantes do problema de agrupamento que possibilitam a exploração das propriedades e limitações das instâncias de teste. Foi proposta, também, uma metodologia para geração de novas instâncias de teste para problemas de agrupamento, no intuito de preencher e diversificar o espaço de instâncias. Com isso, pôde-se analisar e compreender as relações das instâncias com o desempenho dos diversos algoritmos de agrupamento de dados disponíveis atualmente, de forma a revelar as forças e fraquezas dos algoritmos em relação ao grau de dificuldade inerente às variadas instâncias do problema de agrupamento de dados.
- ItemAcesso aberto (Open Access)Modelo de aprendizado de máquina para predição de Diabetes tipo 2 por meio de variáveis de fácil acesso(Universidade Federal de São Paulo, 2023-03-10) Silva, Leonardo Fernandes [UNIFESP]; Caranti, Danielle Arisa [UNIFESP]; http://lattes.cnpq.br/4760019839583649; http://lattes.cnpq.br/7376085574661825; Universidade Federal de São Paulo (UNIFESP)Objetivo: Validar um modelo preditivo de diabetes do tipo 2 utilizando aprendizagem de máquina através de variáveis de fácil acesso e comparar os resultados dos bancos de dados VIGITEL e NHANES para validação da metodologia. Métodos: Após a seleção dos bancos de dados VIGITEL (2015) e NHANES (2014,15,16,17), foi aplicado critérios de inclusão e exclusão, aqueles que foram diagnosticados acima dos 30 anos e dados não faltantes, em cima dos indivíduos finais foi utilizado o método de balanceamento SMOTE para melhor aplicação dos algoritmos. Uma vez balanceado, foram aplicados os algoritmos “árvore de decisão”, “Floresta Aleatória” e “floresta de isolamento”. Resultados: O modelo de predição de diabetes tipo 2 apresentou melhor desempenho em todas as métricas em comparação com as outras duas doenças crônicas (dislipidemia e hipertensão arterial) no conjunto de dados do NHANES. No VIGITEL, o diabetes teve melhor desempenho em sensibilidade (73,25%) em comparação com as outras duas doenças, a hipertensão também teve alto desempenho em especificidade e acurácia (79,51% e 73,63%). Entre os dois conjuntos de dados, o NHANES teve melhor desempenho em todas as métricas em diabetes e hipertensão. Conclusões: O presente estudo apresentou evidências para a criação de um modelo preditivo através da utilização de aprendizagem de máquina para auxiliar no diagnóstico precoce de doenças crônicas através de variáveis de fácil acesso.
- ItemAcesso aberto (Open Access)Predição de trocas de carbono entre a biosfera e a atmosfera na FLONA-Tapajós a partir de variáveis ambientais(Universidade Federal de São Paulo, 2022-11-25) Bauer, Lucas de Oliveira [UNIFESP]; Rizzo, Luciana Varanda [UNIFESP]; Corrêa, Pedro Luiz Pizzigatti; http://lattes.cnpq.br/3640608958277159; http://lattes.cnpq.br/5924114866857244; https://lattes.cnpq.br/9092857659970079A floresta Amazônica desempenha um papel importante no balanço de carbono terrestre, atuando como um sumidouro de carbono através da atividade fotossintética, e, ao mesmo tempo, como fonte de carbono por meio das emissões por queimadas, áreas alagadas e processos metabólicos terrestres. As trocas de CO2 entre a floresta e a atmosfera podem ser estimadas a partir de observações diretas na superfície, pela técnica de covariância de vórtices turbulentos. Porém, tais observações possuem uma representatividade espacial pequena, que não pode ser extrapolada para toda a Amazônia devido à heterogeneidade do balanço de carbono na floresta. O uso de estratégias de Ciência dos Dados pode ser uma alternativa para ampliar a escala espacial das estimativas de balanço de carbono, desde que sejam conhecidas as relações entre os fluxos de CO2 e variáveis ambientais, que muitas vezes são relações não-lineares. Este trabalho tem como objetivo construir modelos de aprendizagem de máquina para prever as seguintes métricas de balanço de CO2: troca líquida de CO2 (NEE entre a floresta e a atmosfera), produtividade primária bruta (GPP) e respiração (Re). Para isso, foram utilizados dados diários de fluxos turbulentos e de variáveis ambientais monitoradas entre 2002 e 2005 na Floresta Nacional dos Tapajós (FLONA-Tapajós), na Amazônia. Como preditores, foram consideradas variáveis meteorológicas de superfície, fluxos de calor sensível e latente, espessura óptica de aerossóis e índice de área foliar. Foram desenvolvidos modelos de regressão por Random Forest (RF) e Redes Neurais Artificiais (RNA). Também foram construídos modelos para a classificação de cenários de fonte de carbono, sumidouro e condição neutra. Os modelos de regressão tiveram coeficientes de determinação (R2) entre 0,33 e 0,65 para os modelos de RF, e entre 0,44 e 0,58 para os modelos de RNA. O modelo de regressão de NEE por RNA reproduziu corretamente o comportamento sazonal e os valores extremos. Apesar da variável GPP ter alcançado os maiores valores de R2, ambos modelos de RF e RNA falharam na previsão dos valores extremos dessa variável. A acurácia dos modelos de classificação variou entre 61% e 70%, sendo que o método de RF apresentou melhor desempenho. Dentre as variáveis preditoras, aquelas que apresentaram maior relevância nos modelos construídos incluem: radiação incidente no topo da atmosfera, fluxos de calor, índice de área foliar e temperatura. Os resultados obtidos sugerem a viabilidade de predição de fluxos de carbono na Amazônia a partir de variáveis ambientais, constituindo o primeiro passo para a extrapolação de observações de fluxo locais para a escala regional. Já os modelos de classificação permitiram identificar as condições ambientais que favorecem a ocorrência de diferentes cenários de balanço de carbono e produtividade primária.
- ItemAcesso aberto (Open Access)Predição e caracterização de vórtices propagantes para oeste no Atlântico Sul através de aprendizagem de máquina(Universidade Federal de São Paulo, 2023-12-08) Tavares, Victória Marchetto [UNIFESP]; Watanabe, Wandrey de Bortoli [UNIFESP]; Pereira, André Luiz Vizine [UNIFESP]; http://lattes.cnpq.br/5977522212667911; http://lattes.cnpq.br/6241297377328814; http://lattes.cnpq.br/5240104154483014; Universidade Federal de São Paulo (UNIFESP)Os vórtices oceânicos de mesoescala são estruturas presentes em toda extensão oceânica, definidos por padrões espiralados com escala superior à do raio de deformação de Rossby. A identificação e caracterização dessas estruturas torna-se primordial devido o transporte de propriedades biológicas e físicas da água, exercendo influência marcante na dinâmica marinha e, em uma escala climatológica mais ampla, na absorção atmosférica de carbono. Além disso, tais vórtices interagem significativamente com a atmosfera superior através de trocas de calor no sistema oceano-atmosfera. Em razão da importância física, bioquímica e atmosférica dos vórtices, este trabalho tem como objetivo estimar a velocidade de deslocamento das feições observadas em dados altímetros e prever sua propagação através de métodos de aprendizado de máquinas. Neste estudo metodológico, foram adquiridos dados de multi-satélites referentes à anomalia da altura da superfície do mar e propriedades derivadas para o Atlântico Sul Subtropical, fornecidos pelo Copernicus Marine Services. Com isso, empregou-se o algoritmo de Farnebäck, do pacote OpenCV, para a determinação do fluxo óptico, permitindo a identificação dos vetores de deslocamento e a previsão da presença de anomalias que caracterizam vórtices, bem como a estimativa da direção e velocidade de propagação dessas estruturas. Este algoritmo foi aplicado em uma série temporal de 04 anos, com um intervalo temporal de sete dias, para melhor estimar a propagação. Como resultado, foram produzidas predições que representam a evolução temporal das feições. Ao comparar tais predições com as imagens originais adquiridas por satélites para os mesmos tempos, observou-se índices de similaridade estrutural entre 0,87 e 0,94 e semelhança média absoluta entre 69,8% e 96,33%. A velocidade de propagação das feições também foi comparada com os dados de velocidade geostrófica, o que permitiu gerar estimativas sobre a linearidade dos vórtices que se movem para oeste na região subtropical do Atlântico Sul