ANÁLISE DE DADOS DA DENGUE NA REGIÃO OESTE PAULISTA

Vanessa dos Anjos Borges, Thiago Almeida Silva

Resumo


A dengue representa um dos principais desafios de saúde pública no Brasil, exigindo estratégias de monitoramento capazes de antecipar surtos e orientar medidas de prevenção. Este estudo teve como objetivo analisar a incidência de casos de dengue no município de Presidente Prudente, com posterior extensão para 43 cidades do oeste paulista, explorando a relação entre variáveis epidemiológicas e climáticas e avaliando o desempenho de algoritmos de aprendizado de máquina na previsão de níveis de alerta. O trabalho seguiu a metodologia CRISP-DM, contemplando as etapas de compreensão, preparação, exploração descritiva e modelagem dos dados, utilizando a ferramenta Orange Data Mining. Na análise descritiva, foram aplicados Boxplots, distribuição de frequências e correlação, permitindo identificar padrões temporais, assimetrias e outliers nos dados. Os resultados evidenciaram a concentração da maior parte das semanas epidemiológicas em condições de baixo risco (nível verde), mas também revelaram picos sazonais de casos, em especial nos meses mais quentes e úmidos. As variáveis epidemiológicas (casos, Rt, p_inc100k, p_rt1) mostraram-se mais diretamente associadas à dinâmica da doença, enquanto as variáveis climáticas (tempmed, umidmed) apresentaram correlações mais fracas, mas ainda consistentes com achados da literatura sobre a influência da temperatura e da umidade na proliferação do vetor. Na etapa de modelagem, foram comparados os algoritmos Árvore de Decisão (Tree) e Floresta Aleatória (Random Forest), tendo como variável alvo o nível de alerta epidemiológico (nivel). A Árvore de Decisão alcançou acurácia de 93,0% e AUC de 0,819, oferecendo regras interpretáveis úteis para compreensão dos fatores críticos na classificação. Já a Floresta Aleatória apresentou desempenho superior, com acurácia de 93,7% e AUC de 0,972, além de maior equilíbrio entre precisão e recall. As matrizes de confusão confirmaram que ambos os modelos classificaram corretamente a maioria dos casos de nível verde, mas a Floresta Aleatória mostrou maior robustez na identificação das classes intermediárias (amarelo e laranja), frequentemente confundidas na Árvore de Decisão. Essa capacidade discriminativa reforça a adequação de métodos ensemble para contextos de dados desbalanceados e de fronteiras epidemiológicas sutis. Os resultados obtidos indicam o potencial de aplicação prática da modelagem preditiva no desenvolvimento de sistemas de apoio à decisão para gestores de saúde pública. Um software baseado em algoritmos de aprendizado de máquina poderia integrar dados epidemiológicos e meteorológicos em tempo real, classificando automaticamente os municípios em diferentes níveis de alerta e gerando relatórios acessíveis em painéis interativos. Apesar disso, o estudo apresenta limitações, como o desbalanceamento das classes de maior risco (laranja e vermelho) e a ausência de variáveis entomológicas ou socioeconômicas. Como trabalhos futuros, propõe-se ampliar a base de dados, testar algoritmos adicionais (como XGBoost e redes neurais) e integrar novas fontes de informação, de forma a aprimorar a capacidade preditiva e ampliar o alcance das análises.

Palavras-chave


Data Mining. Análise epidemiológica. Saúde pública.

Texto completo:

PDF PDF