Pandemia: o acelerador de futuros do uso de dados

A vida orientada por dados

Li na Posso Falar #5, newsletter mensal do SGB, que a pandemia é um acelerador de futuros. E chuto — consciente da minha bolha acadêmica, analítica e digital — que os profissionais cuja demanda foi mais antecipada são os que trabalham com dados. 

No contexto de tantas incertezas, o uso de dados explodiu. Expressões, gráficos e mapas passaram a ser veiculados constantemente. São diversas discussões de qualidade de dados, capacidade analítica e de interpretação. E debatemos também a necessidade de que decisões estratégicas de isolamento e reabertura da economia sejam tomadas à luz de dados.

Passados três meses, sinto que tenho, além do isolamento domiciliar, outro chamamento responsável: apresentar e discutir alguns dos conceitos de análise de dados que estamos vivenciando. Experienciando, mais uma vez, aquela força de engajamento que chamamos de Novo Poder, um dos pilares do SGB.

Neste texto, espero exemplificar conceitos atuais. Eles estão demarcados em negrito e eu espero que ajude você, leitor, a construir um glossário com referências dessa realidade advinda com a pandemia.

Um storytelling analítico completo

Avaliar se a ocorrência da COVID-19, nas proporções e impacto que ela alcançou, era previsível ou não, já é uma discussão e tanto. Fato é que a doença descreve um episódio da história moderna cujo enredo pode ser descrito como as quatro fases de maturidade de análise de dados, representadas na Figura 01. 

Figura 01: Os quatro níveis de maturidade de análise de dados/analítica (Descritivo, Diagnóstico, Preditivo e Prescritivo) como função da complexidade da análise de dados (eixo-x) e valor da informação gerada por eles (eixo-y). O gráfico explicita como a complexidade da análise de dados e valor da informação proveniente dessa análise são diretamente proporcionais. (#paracegover: um gráfico de duas dimensões em que o eixo-x denota a complexidade da análise de dados e o eixo-y denota o valor da informação gerada por eles. O primeiro nível é o Descritivo que permite responder o que aconteceu. O segundo nível é o Diagnóstico, o qual informa porque aconteceu. O terceiro nível denota análises Preditivas que dizem respeito ao que vai acontecer. Por fim, apresenta-se o nível Prescritivo, que corresponde a informar sobre que ação tomar.)

É bastante interessante perceber as diferenças em números absolutos, por estado, cabendo lembrar a enorme variabilidade de tamanho populacional entre eles.  Há UFs cujo número de notificações varia enormemente por fonte de dados, como Mato Grosso (MT) e Santa Catarina (SC). Há casos, como Goiás (GO) e Espírito Santo (ES), em que as quantidades são muito parecidas. Em apenas 07 das 26 UFs (SE, RN, PQ, TO, RR, RO, AP e ES) o número de notificações pelo MS supera o número de notificações pelos órgãos de segurança.

É bastante natural entender que o valor da informação proveniente da análise de dados é diretamente proporcional à sua complexidade, como explicitado na Figura 01, em que a relação entre os dois eixos ocorre na orientação de uma diagonal crescente.

Algumas análises no caso da evolução dos casos de COVID-19 no Brasil, por nível:

1. Descritivo: o que aconteceu?

O percurso do vírus pelo mundo, sua chegada no Brasil e a sua rápida interiorização. Essas análises costumam contar a evolução da doença por unidades de tempo (meses, quinzenas, dias) bem como mapas para explicitar a sua propagação.

Essa visualização da Microsoft é um excelente exemplo. A notificação da doença por país é representada no mapa mundo com uma bola, a qual aumenta com o aumento do número de casos. 

Figura 02: Mapas múndi do número de notificações de COVID 19 por país nos dias 14/02/20 (a) e 01/06/20 (b), disponibilizados pela Microsoft. (#paracegover: Nos dois mapas mundo os países com notificações são representados com um círculo vermelho, cujo tamanho é proporcional ao número de notificações. Na imagem de 14 de fevereiro o círculo mais predominante está sob a China. Na imagem de 01 de Junho vê-em círculos por países de todos os continentes, com tamanhos variados e muitos maiores que a representação da China de 14 de fevereiro.)

2. Diagnóstico: por que aconteceu?

O entendimento de razões para o aumento da epidemia de coronavírus. Essas análises costumam relacionar a evolução da doença com aspectos/eventos que ajudam a aumentar/diminuir a sua propagação. 

As análises do nível de isolamento social ou a capacidade clínica-laboratorial de testagem de casos suspeitos são bons exemplos. Mais especificamente, a variável taxa de isolamento da população permite, dentre outras coisas, compreender a intensidade desse aspecto da propagação da doença na evolução do número de casos. O gráfico dessa evolução temporal, para São Paulo, está disponível no sistema de monitoramento do estado e na figura a seguir.

Figura 03: Série temporal com o índice de isolamento da população para cada dia do ano. (#paracegover: Um gráfico de linha em que o eixo-x denota o dia a partir de 05 de Março de 2020 até 11 de Junho de 2020 e no eixo-y está o índice de isolamento da população do estado de São Paulo. O gráfico começa com valores entre 40%. A partir de 21 de Março vêem-se valores de índice próximos de 60% caindo gradativamente ao nível de 47% até a data mais recente.)

Outra análise a nível de Diagnóstico remonta ao início da pandemia no Brasil Naquele instante, acreditava-se que o vírus teria mais dispersão em locais de baixa temperatura (como o vírus Influenza), característica dos epicentros da doença na época (China e Europa). A possível relação foi recentemente refutada pela OMS (Organização Mundial de Saúde), como descrito nessa matéria do Correio Braziliense.

3. Preditivo (de previsão, predição): o que vai acontecer?

Estimativas do número de casos da doença, internações em leitos de UTI, recuperados ou óbitos. Por exemplo, o número médio de dias para duplicação do número de casos. Esse indicador conjectura a velocidade de ocorrência de casos graves. Isso permite:

  • estimar o número de casos da doença em X dias, mantidas as condições de propagação da doença
  • comparar o estado de propagação da doença em relação a um estado/país de referência

O índice citado é apresentado para o Brasil ou por estado do país no painel interativo da Fiocruz, aba ‘Duplicação de Casos e Óbitos’, com uma representação estática na Figura 04. Se a relação fosse matemática perfeita os óbitos ocorreriam em uma progressão do tipo 1, 2, 4, 8, 16, 32, etc. Demarca-se no gráfico o primeiro dia em que o número de casos superou esses valores de referência, com linhas verticais. O gif desta página é um exemplo do comportamento exponencial do contágio e, consequentemente, de medidas de isolamento social.

Figura 04: Série temporal do número médio de dias para duplicação da quantidade de casos, no Brasil. (#paracegover: Um gráfico de linha em que o eixo-x denota o dia a partir de 24 de Fevereiro de 2020 até 12 de Junho de 2020 e no eixo-y está o total acumulado de casos da doença. O gráfico começa com 1 caso confirmado da doença, em 25 de fevereiro. Se a relação fosse matemática perfeita os óbitos ocorreriam em uma progressão do tipo 1, 2, 4, 8, 16, 32, etc. Demarca-se no gráfico o primeiro dia em que o número de casos superou esses valores de referência, com linhas verticais. A última marcação de referência dá-se em 06 de Junho, com 677.781 casos da doença)

4. Prescritivo: que ação tomar?

Cenários de progressão da doença controlando por distintas características dela. Por exemplo, cenários da evolução do número de infectados como função de estratégias de distanciamento social distintas.

As animações do Washington Post foram uma das primeiras a simular cenários diferentes de contágio como consequência de uma quarentena forçada ou distintos níveis de distanciamento social (¼ e ⅛ de indivíduos com circulação livre, apenas). Se você ainda não teve a oportunidade de interagir, fica a sugestão.

Há ainda uma referência mais técnica/acadêmica como a desenvolvida por pesquisadores da UFMG, que contrapõe cenários de isolamento vertical e horizontal.

Na escala de maturidade de análise de dados, o nível Prescritivo é o mais elevado. A prova mais categórica de que o storytelling do COVID-19 é analítico, é o fato de que as tomadas de decisão são, ou deveriam ser, orientadas por dados (data-driven)

Ou seja, as conduções de enfrentamento à epidemia mais responsáveis e científicas são aquelas baseadas no mais alto nível de maturidade de dados. Por exemplo, há países — como a Alemanha — que decidem pela abertura e/ou fechamento de estabelecimentos comerciais como consequência do número de reprodução R do contágio na sua população.  A representação do potencial de propagação do vírus (número de casos, no eixo-y) pelo tempo (eixo-x) e com distintas taxas de contágio (cores das linhas) pode ser vista na figura a seguir, da página da BBC.

Figura 05: Potencial de propagação do vírus (número de casos, no eixo-y) como função do tempo (eixo-x) e de distintas taxas de contágio (cores das linhas), Fonte: página da BBC. (#paracegover: Um gráfico de várias linhas em que o eixo-x denota o número de semanas, de 1 a 13, depois do contágio inicial de 1000 indivíduos e no eixo-y consta contagem de contágios de 0 a 30.000. Há linhas para cada valor de R, de 0.5, 0.9, 1 e 1.1. À medida que R cresce o comportamento da curva fica mais acentuadamente exponencial.)

Curva: uma forma para o histórico da pandemia

No contexto do COVID-19, um dos primeiros jargões a ser popularizado foi “curva”, com seu achatamento e pico.

Por curva, especificamente na condição da pandemia que vivemos, entende-se a relação que existe entre o número de casos da doença (eixo-y) pelo tempo desde o primeiro caso (eixo-x). Pode-se pensar na curva por recortes de população (grupos etários ou gênero), para o Brasil ou por estados.

A curva corresponde ao histórico total da variável “número de casos”, por “unidade de tempo”. Chama-se curva porque a ocorrência de casos (eixo-y) no tempo, vista como uma sucessão de pontinhos, tem um formato que dizemos ser suave, sem oscilações ou pequenos ruídos.

Um gif com excelente representação da dinâmica de achatamento está na Wikipedia, e na Figura 06. O termo achatamento diz tudo: é como se coubesse a mesma massa de densidade em menos área vertical e mais área horizontal. Desse jeito, o pico da curva é menor (menos pessoas contaminadas ao mesmo tempo) e ele ocorre em um momento do tempo mais distante do início do contágio. 

Note que: nessa representação é como se existisse um único conjunto de dias consecutivos associado ao auge/pico do número de casos. Ou seja, a curva só sobe e depois desce uma única vez. Como eventos que se relacionam com a pandemia ocorrem diariamente, o comportamento da curva pode se alterar para algo muito diferente dessa representação usual. Por exemplo, com o surgimento de uma segunda onda de contágios, a qual seria descrita com outra curva desse formato de sino.

Figura 06: Representação do conceito de curva de contaminação, seu pico e achatamento. No eixo-x denotam-se o número de dias desde o primeiro contágio e no eixo-y o número de pessoas contaminadas.(#paracegover: na primeira representação (sem isolamento), a curva atinge um valor de máximo bem elevado, centrado na metade mais à esquerda da imagem. Na segunda representação, do cenário com isolamento social, a curva alcance seu pico consideravelmente menor que o pico sem isolamento e em um instante de tempo mais afastado do começo da pandemia, mais distante do eixo vertical.)

Números absolutos e Taxas: É importante comparar, mas cada vida importa

Em meio a tantos números, ordenamos países e estados pelo número de ocorrências e comparações da acumulado de casos como entre São Paulo e Inglaterra e Brasil e Itália surgem. A contraposição dos números é válida? De antemão, duas considerações precisam ser feitas:

A rigor, comparações devem ser feitas à luz de um denominador comum. Por exemplo, a produtividade de máquinas diferentes se dá sob uma mesma unidade de tempo (hora trabalhada). Ou ainda, comparam-se quilometragens de automóveis distintos, por litro de combustível.

Mas… esse não é um cenário usual. Sobretudo em se tratando de vidas perdidas e o luto de tantas pessoas, cada ocorrência importa.

Desse jeito, não se pode preterir frequências absolutas às frequências relativas, e vice versa. E o ideal seria que os números do COVID-19 fossem reportados em ambas as formas. Como neste painel, na aba Country Comparison, divulgado pelo Centro Europeu de Prevenção e Controlo das Doenças (ECDC). Veja que existe a opção de casos acumulados (número absolutos) na visualização superior e a outra de casos relativos ao tamanho populacional (taxa), no gráfico inferior.

As comparações exigem tanto cuidado que muitas vezes são feitas em uma escala diferente da original. Note que no painel da OCDC, pode-se escolher entre as quantidades em valores originais ou o logaritmo desses valores. “A apresentação de dados em uma escala logarítmica pode ser útil quando os dados cobrem uma grande gama de valores – o logaritmo reduz a representação a uma escala mais fácil de ser visualizada e manejada” (Escala Logarítmica, por Wikipedia).

Conclusões sobre o uso de Dados no entendimento e enfrentamento a COVID 19

Vivenciamos o ineditismo de uma pandemia de nível global acompanhado do avanço de uma cultura analítica. A utilização e interpretação de dados associa-se hoje a parte substancial da informação e conhecimento disponíveis. Você notou quantas referências, incríveis, de veículos de comunicação em massa foram utilizadas nessa leitura?

Neste texto, vimos como algumas análises de dados colaboram para o entendimento dessa realidade. Além disso, percebemos como podem contribuir para conjecturar cenários futuros de forma a orientar decisões que diminuam perdas ou causem revezes. Discutimos também conceitos que caíram em uso (como curva, pico e achatamento) e as formas de apresentar tais quantidades (números absolutos, taxas populacionais e escala logarítmica). 

Também temos falado muito mais de acesso a dados, com conceitos de Transparência e a qualidade deles, cada vez que mencionamos o fenômeno da subnotificação. É essa última que levanta dúvidas sobre as fragilidades das tomadas de decisão baseadas em dados as quais têm sido discutidas extensivamente. Assim como uma história que está longe de acabar, esses dois últimos tópicos  – tão especiais – ficam como cenas de próximos capítulos.

Leia também

07 agosto 2024
Já ficou sabendo que o Festival SGB vai ter edições em outras cidades em 2024? 🇧🇷  E a edição FLORIPA...
Ler Mais
22 julho 2024
Estão abertas as pré-inscrições oficiais para o Festival Social Good Brasil 2024! O evento reunirá muitas...
Ler Mais
15 setembro 2023
O Festival Social Good Brasil 2023 já tem data marcada e local confirmado para acontecer neste ano de...
Ler Mais
08 setembro 2023
Com a enorme quantidade de dados sendo gerados diariamente por todas as pessoas de uma organização, somado...
Ler Mais
01 setembro 2023
Todos os dias, em todas as profissões e funções existentes no mercado de trabalho, de alguma forma as...
Ler Mais

Deixe um comentário

Seu endereço de e-mail não será publicado. Campos obrigatórios estão marcados *

Postar Comentário