Um estudo comparativo de técnicas de validação cruzada aplicadas a modelos para dados desbalanceados (2022)
- Authors:
- Autor USP: VELOSO, LUIZA TULER - IME
- Unidade: IME
- Sigla do Departamento: MAE
- DOI: 10.11606/D.45.2022.tde-18042022-200608
- Assunto: PROBABILIDADE
- Keywords: Cross validation; Dados desbalanceados; Expected Risk; Imbalanced data; MIS-C; Risco Esperado; SIM-P; Validação cruzada
- Agências de fomento:
- Language: Português
- Abstract: Dentro do contexto de modelagem preditiva, a escolha de um modelo perpassa pela avaliação da qualidade das predições por meio do Risco Esperado. Esse risco, no entanto, pode ser subestimado se obtido a partir da mesma amostra utilizada para ajuste do modelo. Para lidar com este problema, surgem estratégias de Validação Cruzada (Hold-out, K-Fold, Leave-one-out, Bootstrap) que buscam separar os dados disponíveis em Amostra de Treino, em que o modelo será ajustado, e Amostra de Validação, em que o modelo terá seu desempenho verificado. Ao se tratar de dados desbalanceados, ou seja, dados nos quais o evento de interesse (Y=1) da variável resposta binária ocorre dezenas a milhares de vezes menos do que a outra categoria (Y=0), podem ser necessárias algumas adaptações no processo de modelagem e validação. Em vista disso, este trabalho busca avaliar a maneira com que as técnicas de validação de modelos se comportam conforme o desbalanceamento dos dados para tamanhos distintos de amostra. Para isso, foi realizada revisão das técnicas que possibilitam a validação de modelos e revisão das tratativas e principais dificuldades ao modelar dados desbalanceados. Por fim, as técnicas de validação foram avaliadas, a partir de simulações, para modelos logísticos com correção no viés para dados desbalanceados proposta por King e Zeng [2001] e, posteriormente, foi avaliada a metodologia em estudo de simulação e aplicada em uma base de dados real referente a notificação de casos da SíndromeInflamatória Multissistêmica (SIM-P) temporalmente associada à COVID-19
- Imprenta:
- Data da defesa: 21.02.2022
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
VELOSO, Luiza Tuler. Um estudo comparativo de técnicas de validação cruzada aplicadas a modelos para dados desbalanceados. 2022. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2022. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45133/tde-18042022-200608/. Acesso em: 23 maio 2024. -
APA
Veloso, L. T. (2022). Um estudo comparativo de técnicas de validação cruzada aplicadas a modelos para dados desbalanceados (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45133/tde-18042022-200608/ -
NLM
Veloso LT. Um estudo comparativo de técnicas de validação cruzada aplicadas a modelos para dados desbalanceados [Internet]. 2022 ;[citado 2024 maio 23 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45133/tde-18042022-200608/ -
Vancouver
Veloso LT. Um estudo comparativo de técnicas de validação cruzada aplicadas a modelos para dados desbalanceados [Internet]. 2022 ;[citado 2024 maio 23 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45133/tde-18042022-200608/
Informações sobre o DOI: 10.11606/D.45.2022.tde-18042022-200608 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas