Navegando por Palavras-chave "Machine Learning"
Agora exibindo 1 - 19 de 19
Resultados por página
Opções de Ordenação
- ItemAcesso aberto (Open Access)Analisador virtual para inferência de enxofre total em gás liquefeito de petróleo de um craqueamento catalítica fluido, utilizando redes neurais e análise de componentes principais(Universidade Federal de São Paulo, 2023-12-09) Machado, Rafael Vasconcelos Costa [UNIFESP]; Moraes, Matheus Cardoso [UNIFESP]; http://lattes.cnpq.br/1854451408004051Introdução: Estima-se que em 2019 cerca de 6,7 milhões de mortes estão relacionadas com poluição atmosférica, ocasionada em grande por compostos de enxofre. Apresenta-se então o desafio de produzir combustíveis com reduzido teor de contaminantes, de modo a diminuir as emissões. Analisadores em linha são a primeira opção para análise contínua de parâmetros. No entanto, deve-se considerar a confiabilidade obtida devido às condições rígidas submetidas aos equipamentos e os custos em sua implementação. Analisadores virtuais aparecem como uma alternativa devido ao instrumental e dados necessários já estarem disponíveis. Neste trabalho apresenta-se um modelo para predizer o enxofre total no GLP oriundo de uma unidade de craqueamento catalítico fluido (FCC). Método: o modelo é baseado em redes neurais artificiais (RNA), auxiliado por análise de componentes principais (PCA). Ele é dividido em seis blocos: Pré-processamento - exclusão de dados inconsistentes e outliers, melhorando o conjunto de dados; Normalização - colocando dados na mesma escala, contribuindo com a PCA e o modelo a performarem melhor; Divisão de dados - separados em treinamento, validação e teste, reduzindo chance de overfitting; Redução de dimensionalidade - foi utilizada a PCA, removendo ruídos e tornando o conjunto de dados mais enxuto; Seleção de modelo - selecionou-se a MLP devido a configuração dos dados disponíveis; Otimização de rede - efetuada com RandomizedSearchCV, de modo a reduzir o tempo computacional. Resultados: a média para Erro Absoluto Médio (MAE) e Erro Absoluto Percentual Médio (MAPE) em um K-Fold, k = 10, foi 6,46 mg/Kg e 39,8%, respectivamente. Conclusão: os resultados alcançados permitem verificar que o modelo é uma promissora ferramenta para inferência do enxofre total e possui potencial para apoiar tomadas de decisões. No entanto, é necessário a melhora de sua performance para aumentar sua credibilidade.
- ItemAcesso aberto (Open Access)Analysis of natural disasters in data from news(Universidade Federal de São Paulo, 2024-11-25) Garcia, Klaifer [UNIFESP]; Berton, Lilian [UNIFESP]; http://lattes.cnpq.br/9064767888093340; http://lattes.cnpq.br/0896350174589757Natural disasters have been occurring with increasing frequency as a result of human activity on the environment, causing significant damage to society. Minimizing these losses depends on the development of protection policies, which need to be supported by accurate information about the events. However, collecting information on disasters presents several challenges, such as insufficient manpower to document every detail of the event and the unpredictability of the events, making it difficult to capture the initial moments after a disaster. In light of these challenges, this work developed methodologies to utilize news data as an alternative source of information on disasters. Specifically, techniques for document filtering, event detection, and automatic summarization were proposed and optimized to achieve better results in this domain, with a particular focus on improving applications in Portuguese, as there is a shortage of research in this language. The main contributions of this work are: 1) a complete framework for building knowledge bases from news articles, 2) new Portuguese datasets for several Natural Language Processing (NLP) tasks, 3) a novel method to produce more accurate summaries based on siamese networks, 4) an evaluation of the latest text classification techniques for application in Portuguese, and 5) a systematic literature review on event detection in news. This work provides contributions to various NLP tasks, with a special emphasis on addressing and developing solutions for the Portuguese language.
- ItemSomente MetadadadosAprendizado De Máquina Aplicado À Odometria Visual Para Estimação De Posição De Veículos Aéreos Não Tripulados(Universidade Federal de São Paulo (UNIFESP), 2018-07-31) Roos, Daniel Rodrigues [UNIFESP]; Lorena, Ana Carolina [UNIFESP]; Universidade Federal de São Paulo (UNIFESP)To Perform The Autonomous Navigation, The System Of An Unmanned Aerial Vehicle (Uav), Also Known As Drone, Needs, Among Other Things, To Know The Position Of The Aircraft. Such Information Is Commonly Obtained By The Use Of A Global Positioning System (Gps) Along With An Inertial Navigation System (Ins). Although Widely Used For This Pur Pose, There Are Many Situations Where The Gps Signal May Not Be Available For Several Reasons, Affecting The Aircraft Navigation System. Computer Vision Techniques, Such As Visual Odometry (Vo), May Serve As An Alter Native Or Complement To Navigation Systems Which Uses Gps And Ins. Vo Allows To Estimate The Displacement And Direction Of The Uav Movement By Extracting Information From A Sequence Of Images Obtained During Flight By Onboard Cameras. Local Feature Detection And Description Algorithms Can Be Applied To Subsequent Images To Find Matching Points, Which Are Used To Estimate Camera Motion. However, During The Flight Of The Uav, Differences In Flight Scene And Flight
- ItemAcesso aberto (Open Access)Classificação de tumores de glândula salivar usando aprendizado de máquina: uma comparação entre quatro classificadores(Universidade Federal de São Paulo, 2024-09-13) Tassinari, Luís Arthur de Melo [UNIFESP]; Moraes, Matheus Cardoso [UNIFESP]; Araújo, Anna Luiza Damaceno; http://lattes.cnpq.br/0633932030080115; http://lattes.cnpq.br/1854451408004051Tumores de glândula salivar são raros e complexos, representando 3 a 10% dos tumores de cabeça e pescoço, dificultando a distinção entre malignos e benignos. Utilizou-se quatro modelos de Machine Learning (Multilayer Perceptron, Support Vector Machine, Random Forest e XGBoost) para classificar tumores salivares usando dados de 100 pacientes. Os hiperparâmetros foram otimizados via Grid Search e utilizou-se Stratified K-Folds para separar os dados. Dados incluíam idade, sexo, localização e sintomas. Avaliou-se o desempenho com acurácia, sensibilidade e especificidade. XGBoost e Multilayer Perceptron tiveram 81% de acurácia, Support Vector Machine 80%, e Random Forest 79%. Todos tiveram alta especificidade (>90%). Machine Learning é viável para diagnóstico de tumores salivares, com alta especificidade, mas sensibilidade baixa devido à distribuição desigual das subclasses malignas. XGBoost foi o mais robusto, com baixo custo computacional.
- ItemSomente MetadadadosConstrução de algoritmos de Machine Learning na Radiologia(Universidade Federal de São Paulo (UNIFESP), 2020-09-17) Kitamura, Felipe Campos [UNIFESP]; Abdala, Nitamar [UNIFESP]; Universidade Federal de São PauloRecent research in artificial intelligence has shown great potential to change radiology as we know it today. The tools to aid the radiological diagnosis can bring numerous benefits to the patients, radiologists and referring physicians. Despite the high expectations for this technology, the path to the creation of clinically useful and safe tools is a huge challenge that involves several aspects. In this work, we will address ethical, regulatory, technical and cultural considerations that need to be addressed to expand the scope of artificial intelligence algorithms in practice. Next, we present 7 projects developed by our group that address some of the challenges in the area: (1) the lack of reproducibility when reading exams, (2) the creation of optimized algorithms for each clinical problem, (3) the limitation to access large volumes of quality annotated data, (4) the lack of reproducibility of artificial intelligence researches, (5) the difficulty of integrating algorithms in medical practice, (6) errors in the registration of exams types and (7) the risk of exposure of sensitive patient information.
- ItemSomente MetadadadosDesambiguação de sentidos de palavras por meio de aprendizado semissupervisionado e word embeddings(Universidade Federal de São Paulo (UNIFESP), 2020-01-27) Sousa, Samuel Bruno Da Silva [UNIFESP]; Berton, Lilian [UNIFESP]; Universidade Federal de São PauloWords naturally present more than one meaning and ambiguity is a recurrent feature in natural languages. Consequently, the task of Word Sense Disambiguation (WSD) aims at defining which word sense is the most adequate in a given context by using computers. WSD is one of the main problems in the field of Natural Language Processing (NLP) since many other tasks, such as Machine Translation and Information Retrieval, may have their results enhanced by accurate disambiguation systems. To solve this problem, several Machine Learning (ML) approaches have been used, such as unsupervised, supervised, and semi-supervised learning. However, the lack of labeled data to train supervised algorithms made models which combine labeled and unlabeled data in the learning process appear as a potential solution. Additionally, a comparative study of semi-supervised learning (SSL) approaches for WSD was not done before, as well as the combined employment of SSL algorithms with efficient word representations known as word embeddings, which became popular in the literature of NLP. Hence, the main goal of this work concerns the investigation of the performance of several semi-supervised algorithms applied to the problem of WSD, using word embeddings as features. To do so, four graph-based SSL algorithms were compared to each other on the main benchmark datasets for WSD. In order to check the word embeddings influence on the final results of the algorithms, six different setups for the Word2Vec model were trained and employed. The experimental results show that SSL models present competitive performances against supervised approaches, reaching over 80% of F1 score when only 25% of labeled data are input. Furthermore, these algorithms have the advantage of avoiding a new training step to classify new words.
- ItemAcesso aberto (Open Access)Desenvolvimento e implementação do prontuário eletrônico do paciente no Hospital São Paulo, hospital universitário da Unifesp(Universidade Federal de São Paulo (UNIFESP), 2020) Vieira, Edvaldo Gomes [UNIFESP]; Salvador, Maria Elisabete [UNIFESP]; Universidade Federal de São PauloA implantação do Prontuário Eletrônico do Paciente em serviços de saúde hospitalar é essencial para a gestão do cuidado e apoiar a tomada de decisão dos profissionais da área de saúde. Outrossim, mantê-lo atualizado é fundamental, por questões legais e clínicas. Objetivos: desenvolver e implantar o Prontuário Eletrônico do Paciente no Hospital São Paulo. Métodos: trata-se de um estudo tecnológico descritivo de abordagem quantitativa, ocorrido entre junho de 2017 a outubro de 2020. Por meio do banco de dados do Prontuário, realizou-se análise de navegabilidade por parte da equipe de saúde da referida instituição, a fim de obter dados relacionados ao acesso e uso. Metodologia de algoritmos e aprendizado de máquina representaram abordagens tecnológicas necessárias para compreender o cenário diário do Prontuário. Assim, as etapas metodológicas compreenderam: 1. Análise dos temas correlatos referente ao trabalho do profissional de saúde em prontuários. 2. Implantação do Prontuário na instituição supracitada. 3. Estudo da aplicação de Ciência de Dados a partir dos dados do Prontuário. 4. Aplicação de algoritmos de aprendizado de máquina. 5. Criação de proposta para nova arquitetura de trabalho do Prontuário. Resultados: as análises periódicas da utilização do Prontuário favoreceram estudo dos dados gerados promovendo discussão significativa para e equipe de saúde e desenvolvedores como nova forma de trabalhar com os dados do paciente. Foi possível avaliar a quantidade substancial de dados produzido pelo Prontuário e, com base nos resultados, analisar o quanto a utilização do Prontuário é vantajosa para a instituição. Também foi possível observar que a sua utilização promoveu melhorias relevantes para o processo de trabalho dos profissionais de saúde do hospital. Conclusão: o Prontuário tornou-se indispensável no atendimento ao paciente, gerando quantidade expressiva de dados para estudos e análises da gestão do cuidado. No período de produção desse estudo, o Prontuário foi desenvolvido, implantado e disponibilizado no hospital, obtendo-se análises dos processos como identificação das necessidades e recursos desenvolvidos.
- ItemAcesso aberto (Open Access)Early Warning System para eventos de distress em instituições bancárias brasileiras utilizando XGBoost(Universidade Federal de São Paulo, 2023-12-15) Oliveira, Vitoria Mendes de [UNIFESP]; Santos, Emerson Gomes dos [UNIFESP]; http://lattes.cnpq.br/6587229762373764O objetivo deste trabalho consiste em desenvolver um modelo eficaz de Early Warning System (EWS) para a identificação antecipada de eventos de distress financeiro em instituições bancárias brasileiras, utilizando o algoritmo de machine learning XGBoost. Nesse contexto, foram utilizadas variáveis microeconômicas (individuais dos bancos) e macroeconômicas com o objetivo de identificar padrões que precedem eventos de dificuldades financeiras em instituições bancárias brasileiras em diferentes janelas temporais. Para lidar com o desbalanceamento das classes em eventos raros, foi utilizado o algoritmo SMOTE para equilibrar as classes e para a otimização dos hiperparâmetros do XGBoost foi utilizado o algoritmo Grid Search, que busca identificar o conjunto ideal de hiperparâmetros. A avaliação de desempenho do modelo é realizada com métricas reconhecidas, como a área sob a curva ROC (AUC), acurácia e sensibilidade, proporcionando uma visão abrangente da capacidade preditiva dos modelos. O modelo com janela de previsão de 12 meses destacou-se em termos de AUC e acurácia. Por outro lado, o modelo com horizonte temporal de 24 meses apresentou melhorias significativas em precisão e sensibilidade. Dessa forma, o modelo mais adequado dependerá das necessidades específicas das autoridades, demonstrando a flexibilidade do método proposto para se adaptar a diferentes contextos e horizontes temporais.
- ItemSomente MetadadadosEvolução Gramatical Para Construção Automática De Funções De Similaridade No Contexto De Aprendizado Semissupervisionado(Universidade Federal de São Paulo (UNIFESP), 2017-07-25) Miquilini, Patricia [UNIFESP]; Basgalupp, Marcio Porto [UNIFESP]; Universidade Federal de São Paulo (UNIFESP)In the context of machine learning, representing a dataset with graphs have been studied in the literature, especially in the field of semi-supervised learning. The principal feature of the techniques based on graphs (networks) is the way data is represented, in which network vertices represent the data and the edges represent the distances (relations) between the examples. In the context of building graphs for representing semi-supervised machine learning problems, different distance (or similarity) functions are used, such as Euclidean, Manhattan, among others. Distance functions can be considered as a metric when they meet the prop erties: non-negativity, coincidence, symmetry and subadditivity. Distance Metric Learning is an area that is designed to automatically build custom distance metrics for sp ecific problems. S tudies rep ort that satisfying metric properties is desirable, but it is not critical. One of the sub-areas of evolutionary algorithms, the Grammatical Evolution (GE) has emerged as a proper technique to develop mathematical functions. An automatically evolved function can not only produce the same solution developed by a human to solve a particular problem, but is also able to produce something entirely new and possibly better. In this context, this project proposes to use Grammatical Evolution to automatically evolve functions to be used in graph construction to represent datasets in the semi-supervised learning context. The algorithm develop ed is named GEAD (Grammatical Evolution for Automatically Design Dissimilarity functions for graph-based semi-supervised learning). Experiments were performed on 100 datasets and for performance analysis, the performance of the algorithm was compared with the performance of literature functions (Euclidiana, Manhattan and Chebyshev). The results shows that the algorithm developed can be an efficient alternative for the construction of distance functions, due to the excellent performance in relation to the functions of the literature.
- ItemSomente MetadadadosExplorando informação temporal em aprendizado profundo: reconhecimento de ações em vídeos(Universidade Federal de São Paulo (UNIFESP), 2019-08-09) Santos, Samuel Felipe Dos [UNIFESP]; Almeida Junior, Jurandy Gomes De [UNIFESP]; Universidade Federal de São Paulo (UNIFESP)The human action recognition in videos has been a very prominent task in recent years for being challenging and having applications in a wide range of areas, such as surveillance, robotics, health, video search, human-computer interaction, among others. Recently, many works have used deep learning to deal with several problems in computer vision, such as classification, retrieval, segmentation, and pattern recognition in videos. However, one of the main limitations faced by these works is their lack of capacity to learn temporal dynamics due to the large amount of data present in a video, which generates a high computational cost since it is necessary to process a huge amount of data to train a model. Although videos contain a lot of information, they also have a lot of redundancy, which makes it difficult to extract relevant information. To overcome these problems, this work propose a Compressed Video Convolutional 3D network (CV-C3D), which explores information from compressed video, avoiding the high computational cost for fully decoding the video stream. The speed up in data computation enables our network to use 3D convolutions for capturing the temporal context efficiently. The results obtained with the proposed method were evaluated in two public datasets for human action recognition, UCF-101 and HMDB- 51, where our network presented the lowest computational complexity among all the compared methods and maintained comparable performance.
- ItemAcesso aberto (Open Access)Machine Learning para análise preditiva no processo de Fusões e Aquisições de empresas no Brasil(Universidade Federal de São Paulo, 2021-02-25) Augusto, Henrique Yamaguti [UNIFESP]; Lucas, Edimilson Costa [UNIFESP]; http://lattes.cnpq.br/1874057539542352Este estudo objetiva à utilização de algoritmos de machine learning para análises preditivas em Fusões e Aquisições. Para isso, foi realizada uma aplicação com base em dados de todas as transações classificadas como F&A registradas no mercado brasileiro entre 2000 e 2016, base essa disponibilizada pela Thomson Reuters SDC (n = 6.697). Foi-se aplicado nesse estudo 4 modelos de machine learning diferentes: regressão logística com e sem penalização, redes neurais, e random forest. Dentre todos os modelos, o melhor avaliado foi aquele que nos testes apresentou área abaixo da curva (AUC) ROC mais próxima de 1. Todos os modelos apresentaram AUC ROC por volta de 0,70. Assim, apesar de cada um dos modelos apresentarem características próprias, os resultados encontrados possuem certa semelhança, mesmo assim, ao final do estudo constou-se que redes neurais é o modelo com melhor capacidade de predição para esse estudo.
- ItemAcesso aberto (Open Access)Modelagem preditiva do preço de aluguel de apartamentos por bairros na cidade de São Paulo(Universidade Federal de São Paulo, 2021-08-12) Ratcow Junior, Gerson [UNIFESP]; Lucas, Edimilson Costa [UNIFESP]; http://lattes.cnpq.br/1874057539542352; http://lattes.cnpq.br/1561103927834055Este estudo tem como objetivo a aplicação de Machine Learning para realizar uma modelagem preditiva dos preços de aluguel de apartamentos mapeados na cidade de São Paulo, a fim de que seja identificado as variáveis que mais impactam o preço de aluguel. Para realizar a análise foi utilizada uma base de dados de anúncios de imóveis para alugar na cidade de São Paulo em abril de 2019. O método de modelagem foi testado em três algoritmos, são eles: Random Forest Regression, XGBoost e Suport Vector Regression. Apesar dos resultados positivos obtidos em todos os algoritmos, foi constatado que o algoritmo XGBoost apresentou melhor acurácia na modelagem do presente estudo. Os resultados da modelagem indicam que as variáveis mais relevantes na composição do preço de aluguel dos apartamentos da cidade de São Paulo são: tamanho do apartamento, localização e área de lazer com piscina.
- ItemAcesso aberto (Open Access)Preprocessing cardiac magnetic resonance images – a new model and its impact to improve deep learning performance for segmenting the myocardium(Universidade Federal de São Paulo, 2024-09-13) Camargo, Sophia Silvestre [UNIFESP]; Figueiredo, Elder; Coelho, Regina Célia [UNIFESP]; http://lattes.cnpq.br/2162574207370950; http://lattes.cnpq.br/5322003519160429; http://lattes.cnpq.br/5177801889966373Magnetic resonance imaging is commonly used in the diagnosis of heart diseases, like Myocardial Infarction, which is currently the biggest cause of death in Brazil. Deep learning models are being used in order to help with the diag- nosis through segmentation of the myocardium, but it requires large datasets for effective training and performance testing. We can use public databases for this purpose; however, these databases may not always provide images refined enough to be suitable training data for deep learning without proper prepro- cessing. This paper outlines an image preprocessing methodol- ogy developed to improve the efficacy of training and segmen- tation performed by a 3D U-Net deep learning to improve seg- mentation results, showing the importance of carrying out ad- equate preprocessing before segmentation. The developed tool has two main objectives. The first involves enhancing the qual- ity of the source image by adjusting contrast, brightness, and equalizing gradients. The second task involves identifying the region of interest containing the myocardium. Once this region is identified, the image undergoes cropping to reduce dimen- sions while retaining essential information. The final result of these tasks yields more uniform images with improved qualities, deemed suitable for both training and testing myocardium seg- mentation using the U-Net 3D. Finally, we compare the segmen- tation results using 3D U-Net in the treated images using the proposed methodology and without treatment. We used three different databases in this test, and the results presented an av- erage improvement of 14% in the preprocessed images segmen- tation.
- ItemAcesso aberto (Open Access)Reconhecimento automático de padrões em dislexia: uma abordagem baseada em funções visuais da leitura e aprendizado de máquina(Universidade Federal de São Paulo (UNIFESP), 2019-12-16) Silva Junior, Antonio Carlos Da [UNIFESP]; Mancini, Felipe [UNIFESP]; Schor, Paulo [UNIFESP]; Gonçalves, Emanuela Cristina Ramos [UNIFESP]; http://lattes.cnpq.br/3542867700396961; http://lattes.cnpq.br/8425496220946395; http://lattes.cnpq.br/4433119488921195; http://lattes.cnpq.br/1464083566861583; Universidade Federal de São Paulo (UNIFESP)INTRODUCTION: Developmental dyslexia is a neurological disorder that affects reading ability, that when left untreated can lead to learning problems and negatively affecting vocabulary increase. The diagnosis of dyslexia is complex and made by exclusion. Some studies evaluated eye movement data in conjunction with machine learning (ML) techniques to classify dyslexia. Another study raises the hypothesis of visual reading function patterns (VRF) for dyslexic differentiation. The study of VRF in combination of ML techniques has not been explored. GENERAL OBJECTIVE: To apply ML techniques to explore and assist the diagnosis of dyslexics from VRF. SPECIFIC OBJECTIVES: To explore dyslexic and non-dyslexic VRF data with feature extraction and to classify dyslexic and non-dyslexic using ML. MATERIAL AND METHODS: This dissertation has two steps: a quantitative and exploratory and a quantitative and correlational. The first step explored two dyslexic VRF datasets, one of 1-line (1L) text readings and the other of 3-line (3L) text readings. The self-organizing map algorithm was applied to each base to separate them into clusters that were then sent to a decision tree to extract the rules characterize each of the groups. The second step used data from 3L readings. The outliers was selected by a specialist. With the remaining data, the SMOTE algorithm was applied. Then a feature selection technique was applied having the best area under the ROC curve (AUC) as target for each of the five selected algorithms. They were compared by AUC and accuracy. All were also compared by their calibration curve. RESULTS: In the first step, the 1L base evaluation resulted in a clustering of 1 cluster of controls and 3 of dyslexics. Only dyslexics obtained Maximum reading speed MRS <140.72 ppm, while in the 3L evaluation, 3 dyslexic clusters and 1 control were obtained. In this only dyslexics had reading speed at critical read size (RSCPS) of less than 112.71 ppm. In the second step, synthetic data were generated for each group to have 100 records. In feature selection, the reading acuity (RA) was selected in 4 of the 5 algorithms. Logistic regression obtained the best AUC (0.999) and accuracy (99%) and obtained the best calibration curve. CONCLUSION: In the first step, the fact that MRS was so determinant in the separation of the 1L clusters and the RSCPS in the first one. It may indicate that the crownding effect had some impact on the 3L test. The fact that RA has been selected in 4 of the 5 feature selections may be an important variable for the diagnosis and study of dyslexia. The logistic regression algorithm obtained the best results and was indicated for VRF-based dyslexic classification.
- ItemSomente MetadadadosSiRCub, A Novel Approach to Recognize Agricultural Crops Using Supervised Classification(Igi Global, 2017) Tomas, Jordi Creus; Faria, Fabio Augusto [UNIFESP]; Dalla Mora Esquerdo, Julio Cesar; Coutinho, Alexandre Camargo; Medeiros, Claudia BauzerThis paper presents a new approach to deal with agricultural crop recognition using SVM (Support Vector Machine), applied to time series of NDVI images. The presented method can be divided into two steps. First, the Timesat software package is used to extract a set of crop features from the NDVI time series. These features serve as descriptors that characterize each NDVI vegetation curve, i.e., the period comprised between sowing and harvesting dates. Then, it is used an SVM to learn the patterns that define each type of crop, and create a crop model that allows classifying new series. The authors present a set of experiments that show the effectiveness of this technique. They evaluated their algorithm with a collection of more than 3000 time series from the Brazilian State of Mato Grosso spanning 4 years (2009-2013). Such time series were annotated in the field by specialists from Embrapa (Brazilian Agricultural Research Corporation). This methodology is generic, and can be adapted to distinct regions and crop profiles.
- ItemAcesso aberto (Open Access)Spare parts intermittent demand forecastin(Universidade Federal de São Paulo, 2023-06-02) Imaniche, Carlos César Minoru [UNIFESP]; Sato, Renato Cesar [UNIFESP]; http://lattes.cnpq.br/6095929487408447; http://lattes.cnpq.br/2287823727691860As demandas intermitentes ocorrem com frequência no ambiente de peças de reposição de aeronaves e componentes, sendo elas um dos principais problemas enfrentados pelas organizações modernas gerando enormes desafios para um bom planejamento. Além disso, a responsabilidade de empregar os recursos financeiros disponibilizados para a manutenção aeronáutica da forma mais eficiente implicam na necessidade de desenvolvimento de ferramentas capazes de realizar o controle e planejamento cada vez mais precisos. Desta forma, este trabalho tem o objetivo de fornecer uma metodologia de previsão de demanda de peças de reposição robusta capaz de lidar com suas possíveis características intermitentes. Para isso, foram propostos quatro modelos que utilizam um pool métodos consagrados para realização de previsões. O primeiro modelo simula como tradicionalmente seria realiza a escolha de um método de previsão. O segundo realiza a classificação do melhor método através das feições das séries temporais e precisão da previsão dos métodos do pool, utilizando o sistema de ensemble Random Forest. O terceiro modelo também realiza a classificação do melhor método da mesma que o segundo modelo, porém utilizando o sistema de ensemble XGBoost. O quarto modelo realiza a regressão da previsão usando diretamente as feições das previsões no sistema de ensemble XGBoost. Os quatro modelos foram submetidos à três conjuntos de dados sintéticos simulados com diferentes percentuais de séries temporais intermitentes em sua composição. O quarto modelo se mostrou bem robusto, obtendo o menor RMSE médio nos três conjuntos de dados. Dentro do conhecimento deste autor, este trabalho é um dos primeiros trabalhos que utiliza um algoritmo de meta-aprendizagem específico para lidar com conjuntos de séries temporais com características intermitentes, sendo a principal contribuição fornecer uma nova ferramenta capaz de realizar previsões robustas para este tipo de conjunto de dados, em um baixo tempo de processamento computacional.
- ItemAcesso aberto (Open Access)Uso de aprendizado de máquinas para imputação de valores de radiação solar(Universidade Federal de São Paulo, 2023-01-10) Juvêncio, Rafael Mariano [UNIFESP]; Martins, Fernando Ramos [UNIFESP]; http://lattes.cnpq.br/9012359647335296; Universidade Federal de São Paulo (UNIFESP)Possuir uma matriz energética diversificada é imprescindível para um país ter segurança elétrica, principalmente fazendo uso de recursos renováveis, como a energia solar. Para que se possa aproveitar seu uso é necessário a utilização de usinas fotovoltaicas ou centrais heliotérmicas e para realizar estudos de viabilidade de projetos envolvendo seu uso é necessário possuir uma base de dados com dados captados de radiação solar para que sejam realizadas as estimativas necessárias. Porém é conhecido que falhas e erros podem ocorrer, e surjam inúmeras lacunas de dados não captados, gerando valores ausentes nas bases de dados. Métodos simples de imputação de dados para o preenchimento de lacunas nas bases de dados podem apresentar incertezas elevadas uma vez que a irradiação incidente na superfície apresenta variabilidade não linear associadas com a condição meteorológica. Existem recursos de aprendizado de máquina capazes de realizar imputações para valores ausentes, realizar a predição e avaliar a métrica de forma adequada entre os valores reais e preditos. No presente trabalho foi realizado a aplicação de técnicas de imputação para valores ausentes baseados em métodos de aprendizagem de máquina: K-Vizinhos Próximos (KNN), Regressão Linear (Lr), Extra Tree (Et,) LightGBM, Catboost e ExtremeGradientBoosting (XGBoost). As incertezas dos métodos foram avaliadas com métricas estatísticas típicas como o desvio quadrático médio (MSE), desvio absoluto médio (MAE) e a raiz do MSE (RMSE). O método com os melhores resultados obtidos foi o catboost, apresentando a melhor correlação do R-quadrado, menor MSE e RMSE e segundo melhor MAE.
- ItemAcesso aberto (Open Access)Uso De Medidas De Complexidade Em Seleção De Atributos(Universidade Federal de São Paulo (UNIFESP), 2018-07-31) Okimoto, Lucas Chesini [UNIFESP]; Lorena, Ana Carolina [UNIFESP]; Universidade Federal de São Paulo (UNIFESP)Feature Selection Is An Important Pre-Processing Step Usually Mandatory In Data Analysis By Machine Learning Techniques. Its Objective Is To Reduce Data Dimensionality By Removing Irrelevant And Redundant Features From A Dataset. In This Work We Evaluate The Use Of Complexity Measures Of Classification Problems In Feature Selection (Fs). These Descriptors Allow Estimating The Intrinsic Difficulty Of A Classification Problem By Regarding On Characteristics Of The Dataset Available For Learning. We Propose A Combined Univariate-Multivariate Fs Technique Which Employs Two Of The Complexity Measures: Fisher "S Maximum Discriminant Ratio And Intra-Extra Class Distances. The Results Are Promising And Reveal That The Complexity Measures Are Indeed Suitable For Estimating Feature Importance In Classification Datasets. Large Reductions In The Numbers Of Features Were Obtained, While Preserving, In General, The Predictive Accuracy Of Two Strong Classification Techniques: Support Vector Machines And Random Forests.
- ItemAcesso aberto (Open Access)Uso de rotinas de aprendizado de máquina em prontuário eletrônico para apoio a diagnósticos de pacientes oftalmológicos(Universidade Federal de São Paulo (UNIFESP), 2021) Alves, Lucas De Oliveira Batista [UNIFESP]; Santos, Vagner Rogerio Dos [UNIFESP]; Universidade Federal de São PauloObjective: To implement artificial intelligence routines through machine learning to construct diagnostic prediction models with data from electronic medical records of patients from the Department of Ophthalmology of Hospital São Paulo. Method: Preparation of a literature review of the main techniques and solutions of machine learning to use in electronic medical records, 1. extraction, treatment and analysis of data from medical records of the Department; 2. construction and analysis of vectorization models of related words in the context of the Database of Hospital São Paulo; 3. construction and validation of diagnostic prediction models. Results: The word vectorization models were able to capture the semantics of medical terms and enabled the construction of diagnostic prediction models, making the prediction model a great tool to assist health professionals. Conclusion: The machine learning models showed potential results to assist as diagnostic support tools of ophthalmologic patients.