No final de 2019 uma doença viral pouco conhecida surgiu na Ásia, gerando, como característica principal, a chamada Síndrome Respiratória Aguda Grave (SRAG), que afeta diretamente o sistema respiratório do hospedeiro. Em razão disso, a transmissão dessa doença acontece principalmente através do ar, por gotículas provenientes de tosses ou espirros de pessoas já infectadas.
Apesar da manifestação comum da SRAG, os sintomas variam de pessoa para pessoa, havendo casos assintomáticos, sintomáticos leves ou graves, que podem necessitar de entubamento ou mesmo internamento em Unidade de Terapia Intensiva (UTI).
Este vírus, denominado COVID-19, é da família dos coronavírus, primos distantes dos vírus "influenza", conhecido por todos como causador da gripe comum e do resfriado. No entanto, as mutações gradativas no COVID-19 acabaram por gerar uma doença muito mais agressiva e contagiosa que seus primos do gênero influenza, acarretando atual pandemia global. Já é fato que muitos estudos estão sendo feitos em todo o mundo, como já analisei no meu blog, porém, ainda não se sabe muito sobre o COVID-19.
Enquanto uma vacina não é feita, a maneira mais eficaz de controlar a disseminação é manter-se em casa, em distanciamento social, e observar ao máximo as recomendações sanitárias dos órgãos competentes.
Como prática do curso Data Science, na Prática, e visando contribuir para o entendimento sobre o comportamento e consequências da doença, me concentro, em meio ao distanciamento social, para realizar uma série de estudos de Data Science e Estatística relacionados a tal problema sanitário.
Isso posto, nesta publicação, utilizando dados públicos sobre a doença, analisei a situação atual da COVID-19 no Brasil, o que propiciou o surgimento de diversos insights, apresentados ao longo do texto.
O projeto completo pode ser constatado no notebook.
Os dados em questão foram extraídos no dia 17 de junho de 2020 do Our Wolrd in Data, banco de dados que reúne informações de 207 países com cerca de 30 variáveis.
Neste projeto, após realizar as limpezas e conversões necessárias, selecionei somente algumas das camadas do dataset que reputei aptas a responder algumas perguntas importantes. Tais dados foram:
date - Data da observação
total_case - Total de casos confirmados de COVID-19
location - Localização geográfica
total_deaths - Total de mortes atribuídas ao COVID-19
gdp_per_capita - Produto interno bruto com paridade do poder de compra, tal dados em dólares.
Os quais podem ser visto, nos cinco primeiros dados baixo:
Com estes dados organizados, realizei algumas perguntas importantes para entender a situação atual do Brasil:
Brasil está entre os países com maiores números?
Existe alguma relação entre o PBI e as mortes?
Quando foi registrado o primeiro do Brasil?
Quando foi registrado a primeira morte do Brasil?
Como está a situação de casos no Brasil?
Para responder à primeira pergunta, elaborei dois filtros, selecionando os cinco países com mais casos, mortes e os últimos números registrados desde a última atualização da base de dados.
#Filtra datas mais recentes
covid_dts = covid_clear.loc[covid_clear.date == '2020-06-14'].sort_values(by="total_cases", ascending=False)
#Separar os cinco países com mais casos e mortes
cinco_max = covid_death.head()
cinco_max_cs = cinco_max.reset_index().sort_values(by = ["total_deaths"])
cinco_max_df = cinco_max.reset_index().sort_values(by = ["total_cases"])
Criando esses filtros, foi possível então gerar os gráfico dos cinco países com mais casos registrados no mundo, e também os países com mais fatalidades, como podemos ver abaixo:
Logo, notei que, infelizmente, o Brasil está em uma situação complicada, ficando em segundo lugar nos rankings de países com mais casos e também de mais mortes, atrás somente dos Estados Unidos nos dois casos.
Ultrapassada essa questão, indaguei-me: "Será que existe alguma relação entre o poder aquisitivo do país e o número de mortes?". Para responder esta pergunta, foi necessário normalizar os dados, transportando-os para uma única escala:
Assim, foi possível realizar o calculo da correlação:
Logo nota-se que a resposta ao questionamento número 2 é afirmativa. De fato, parece haver uma forte correlação entre o poder aquisitivo nos países analisados com o número de mortes por COVID-19, de modo que os países com maior renda por cabeça apresentam um número menor de mortes, e vice-versa, o que, todavia, não poder ser tomado como uma relação causal sem estudos mais aprofundados.
Como melhor apresentado no gráfico abaixo, a correlação entre baixo poder aquisitivo e número de mortes é forte e negativa (na casa de -0.91), apresentando um padrão de terceira ordem.
fig, ax = plt.subplots(figsize = (8,4))
#plotar gráfico com a regressão
plt.title("Disperssão entre o número de mortos e o PIB per capta")
sns.regplot('total_deaths','gdp_per_capita',data = covid_normali, line_kws = {"color":"#ff304f"}, order=3)
plt.xlabel("Número de mortos")
plt.ylabel("PIB per capta")
plt.show()
Após análises dessas informações, notei que ainda não havia analisado os dados somente do Brasil, então, para responder às perguntas 3 e 4, realizei alguns filtros:
#Filtros de primeiro caso e morte
primeira_morte = covid_brasil[primeira_morte].sort_index().head(1)
primeiro_caso = covid_brasil[primeira_caso].sort_index().head(1)
Com isso, descobri que o primeiro caso no Brasil foi registrado no dia 26 de fevereiro e a primeira morte ocorreu no dia 18 de março, sendo que, apenas nessa janela de 21 dias entre o primeiro caso e a primeira morte, registrou-se cerca de 290 novos casos no país.
Por último, porém não menos importante, realizei o plot geral de todos os casos até então registrados.
Assim, respondendo à última indagação formulada, constatei que, até o momento (junho de 2020), a curva de casos no Brasil ainda é ascendente, não apresentando sinais de ter chegado ao seu pico. No entanto, para a confirmação de qual seria esse pico hipotético, seria necessária a criação de um modelo preditivo, o que não se insere no escopo deste projeto.
Como foi possível observar, a situação do Brasil na crise do coronavírus é bastante adversa, figurando no cenário internacional como o segundo país com mais contágios e mortes. Além da alta taxa de contágio desde o início da pandemia (como analisamos, apenas 21 dias depois do primeiro caso registrado já haviam quase 300 pessoas doentes), a curva de contágio ainda é ascendente e não demonstra sinal de arrefecimento.
No esforço de lançar luz sobre os motivos que propiciaram esse quadro aterrador, notamos que o baixo poder aquisitivo da população brasileira pode ter desempenhado um papel relevante no aumento do número total de mortes, o que, por óbvio, não exclui outras causas não analisadas no presente estudo.
Commentaires