Interpretando dados: dicas para ter certeza de que você sabe ler os números
Leia este artigo em
Ao usar dados para matérias investigativas, é importante aprender como obter e limpar as informações. Mas também é crucial que você interprete suas descobertas corretamente e extraia as conclusões corretas dos números, filtros e planilhas. Se você fizer as contas corretamente, mas não ler as respostas corretamente, poderá acabar confundindo seu público.
Por que isso acontece? Às vezes, os dados com os quais trabalhamos não respondem realmente às perguntas que fazemos. Em outros casos, podemos esquecer de aplicar a ética tradicional do jornalismo durante as etapas de coleta e análise de dados da investigação: devemos ter cuidado para não escolher estatísticas que apoiem nosso ponto de vista, perder o contexto ou se concentrar tanto em nossa questão que não ouvimos o que os dados dizem. Lembre-se, no jornalismo de dados, os dados são nossa fonte e precisamos respeitá-los.
Algo semelhante aconteceu na cobertura da COVID-19. Várias reportagens foram publicadas comparando o número de pessoas infectadas ou mortes em diferentes países, mas essas comparações geralmente não são precisas, principalmente porque a medida certa a ser usada nesse caso é a taxa de infecção – o número de pessoas infectadas em relação à população – mas também porque vários outros fatores tornam difíceis as comparações internacionais.
Erros comuns
A primeira lição é garantir que você não tire conclusões sobre indivíduos com base em dados agregados por país ou outras divisões. A realidade para as pessoas no país ou local de que você está falando pode ser muito diferente das impressões fornecidas por esses dados gerais.
A cientista de dados Heather Krause, fundadora da empresa canadense Datassist e do projeto de equidade em ciência de dados We All Count, explica esse problema – conhecido como Falácia Ecológica – com um exemplo sobre cigarros. Ao examinar a expectativa de vida e os cigarros fumados em vários países, parece haver uma correlação positiva.
Ou seja, em países com maior consumo de cigarros, as pessoas também têm maior expectativa de vida. No entanto, seria incorreto concluir que fumar faz você viver mais, não apenas porque a lógica e inúmeros estudos científicos dizem o contrário, mas também porque neste exemplo os dados examinados não avaliaram o que os cigarros fazem aos indivíduos, simplesmente compararam dois indicadores nacionais agregados.
Essa falácia também revela outro problema que pode levar à má interpretação: os dados que estão sendo comparados não estão relacionados à causa e efeito. Outra maneira de colocar isso: correlação não é causalidade. Como os dados não foram originalmente coletados com o objetivo de verificar se fumar mais cigarros afeta a expectativa de vida, a análise estatística mostra uma previsão em vez de um resultado causal.
Os repórteres, analisando esses dois conjuntos de dados, devem levar em consideração outras variáveis para encontrar uma possível explicação para a correlação, como o poder de compra que permite que as pessoas em países ricos comprem cigarros, mas também tenham acesso a uma assistência médica melhor.
Além de garantir que nossos cálculos sejam precisos, como jornalistas, precisamos avaliar se os números revelam a realidade que estamos tentando relatar. “Tome muito cuidado com as médias: elas podem ser enganosas se houver intervalos de valores muito grandes entre os dados”, alerta Sandra Crucianelli, coordenadora da Unidade de Inteligência de Dados do Infobae, um site de notícias argentino.
Isso acontece com bastante frequência quando se reporta sobre salários ou outras questões relacionadas à desigualdade. Em países com altos níveis de desigualdade, os valores salariais médios não são representativos da realidade, pois esses dados não refletem a diferença entre ricos e pobres.
Miguel Paz, ex-bolsista da Nieman Foundation e fundador da agência de assinatura digital Reveniu, aconselha os repórteres a usar a mediana – o valor que está na posição central de uma lista ordenada de dados – porque se aproxima mais ao que a maioria das pessoas vive. “Devemos parar de escrever em médias!”, insiste Paz, que desenvolveu uma variedade de projetos de jornalismo de dados e realizou workshops sobre como os jornalistas de dados podem cometer erros mesmo quando fazem as contas corretamente.
Porcentagens e taxas também são bons aliados ao descrever condições sociodemográficas. Todos os anos, assim que a polícia divulga os números de crimes em meu país – Colômbia – vejo dezenas de reportagens na mídia dizendo coisas como “Medellín é a cidade mais perigosa” ou “Bogotá é o pior lugar para se ter um celular”. Mas essas matérias usam apenas valores absolutos e, portanto, não refletem a situação real de segurança. Se os jornalistas que trabalham nessas histórias fizessem uma análise relativa, contextualizando os dados relativos à população ou ao uso do celular, descobririam que em Bogotá, uma metrópole de 8 milhões, ou Medellín, uma cidade de 2,5 milhões, os números não são tão ruins quanto os valores absolutos sugerem e, de fato, a insegurança precisa de mais atenção em outras cidades com taxas de criminalidade per capita mais altas.
Essas manchetes também mostram como a generalização pode causar problemas. Para explorar adequadamente qual cidade é a mais perigosa, é necessário um número maior de indicadores para pintar uma imagem com mais nuances.
COVID-19 e a Grande Curva de Aprendizagem dos Dados
Algo semelhante aconteceu na cobertura da COVID-19. Várias reportagens foram publicadas comparando o número de pessoas infectadas ou mortes em diferentes países, mas essas comparações geralmente não são precisas, principalmente porque a medida certa a ser usada nesse caso é a taxa de infecção – o número de pessoas infectadas em relação à população – mas também porque vários outros fatores tornam difíceis as comparações internacionais.
Por exemplo, durante os primeiros meses do surto, alguns países não incluíram as mortes que ocorreram em lares de idosos, mas depois começaram a incluir. E há variações relacionadas àqueles países que adicionam um novo caso nos registros nacionais de coronavírus apenas se o vírus foi a principal causa de morte ou se houve um teste confirmando a presença do vírus no momento da morte. Outros usam critérios de contagem menos exigentes. Também é importante considerar a quantidade de tempo que o vírus está presente em cada país, porque esse fator e outros, como sistemas de saúde fortes ou fracos, fazem a diferença na forma como cada governo responde à pandemia.
Em relação à cobertura da pandemia, há outro indicador importante a considerar: a taxa de letalidade por infecção, ou seja, o número de óbitos por COVID-19 dividido por todos os infectados. O problema com esse número é que cada nação estabeleceu sua própria rotina de diagnóstico, alguns testando mais do que outros, alguns mudando a frequência de testes à medida que a pandemia evoluiu, o que impossibilita comparações. E, claro, em muitos países acredita-se que haja uma enorme subnotificação em termos de casos registrados (devido à falta de equipamentos de testagem) e mortes (devido ao fato de nem todas as mortes serem registradas ou vinculadas à COVID-19), o que dificulta as comparações internacionais de países como o Reino Unido ou os EUA e a Índia. No Reino Unido, por exemplo, no início da pandemia, apenas as pessoas que eram internadas em hospitais eram testadas, o que fazia a taxa de mortalidade parecer mais alta do que realmente era, já que apenas os casos mais graves passavam por testagem.
A pandemia provou que é importante que os jornalistas de todas as áreas se tornem alfabetizados em dados para lidar corretamente com dados agregados, e que devemos ter cuidado para não fazer mau uso de variáveis não comparáveis. Muitos funcionários públicos cometem esse tipo de erro e, como jornalistas, devemos aprender a identificar esses erros e evitá-los.
Outro exemplo, mas desta vez do mundo pré-pandemia: Colombiacheck, a primeira organização de mídia de checagem de fatos da Colômbia, examinou a alegação de uma deputada que dizia que as terras rurais do país estavam concentradas nas mãos de comunidades negras e indígenas, o que gerou uma grande polêmica, uma vez que essas comunidades têm sido vítimas frequentes de desapropriação de terras em decorrência de conflitos de longa data no país. Ao verificar sua declaração, os repórteres descobriram que, embora os números oficiais realmente mostrassem que esses dois grupos possuíam mais terras no total do que os colombianos de outros grupos étnicos, era um erro sugerir que os títulos de propriedade coletiva dessas comunidades significavam que os indivíduos em questão tinham maior poder de propriedade da terra.
Dicas para blindar sua interpretação de dados
Aqui está uma lista de pontos a levar em consideração para garantir que você esteja interpretando os dados corretamente antes de publicar:
- Sempre pergunte a si mesmo se os dados realmente se relacionam com sua questão investigativa. Existe informação suficiente? Pergunte: Estou olhando para isso do ângulo certo? Estou fazendo perguntas suficientes aos dados? Estou esmiuçando isso o suficiente para ver todas as nuances importantes? As variáveis são comparáveis?
- Conte a história de acordo com o nível de dados que você tem. Se você tiver apenas informações em nível de país, suas descobertas devem abordar apenas tendências ou previsões nacionais. Se você tiver dados no nível individual, então poderá tirar conclusões sobre o comportamento ou as tendências das pessoas.
- Verifique se as variáveis que você está analisando têm uma relação causal direta (uma causa a outra) ou se existem elementos intermediários que devem ser levados em consideração. Você pode fazer isso observando a maneira como os dados foram coletados e processados.
- Se a correlação não for causal, mas preditiva, certifique-se de contar a história dessa maneira, com frases como: “Se x aumentar, será mais provável que y caia”. Se a correlação for coincidência, considere descartá-la.
- Esteja ciente do que cada registro representa (uma pessoa, um fato, um caso, um local) e descreva suas descobertas de acordo.
- Quando você encontrar outliers (valores atípicos), não se apresse em publicá-los. Primeiro, veja se a explicação para quaisquer valores extremamente altos ou baixos realmente os torna dignos de serem noticiados, se os dados são falhos ou se há um elemento extra que explica os valores discrepantes.
- Considere qual operação estatística você usará para analisar seus dados: com porcentagens, usando uma média, uma taxa ou uma proporção. Sua decisão dependerá das características dos dados e do tema.
- Fale com especialistas. Um estatístico pode ajudá-lo a identificar o tipo de dado com o qual você está lidando: preditivo, causal, comparável ou não, etc. Além disso, um especialista na área específica de sua história pode ajudá-lo a ver lacunas, interpretações errôneas, elementos faltando e novas correlações.
Por fim, sempre tenha em mente que as histórias publicadas como resultado desses mergulhos profundos nos dados moldam a maneira como as pessoas e os governos tomam decisões. Processamento de dados e alfabetização em dados são importantes. Se não levarmos em conta todos os fatores necessários e tirarmos conclusões sem a análise contextual necessária, podemos chamar a atenção para o foco errado, persuadir involuntariamente as pessoas a adotar hábitos que podem prejudicá-las ou produzir uma história que exclui uma parte da população.
Miriam Forero Ariza é uma jornalista investigativa e de dados freelancer colombiana cujo trabalho foi publicado pela VICE, Colombiacheck e El Espectador. Ela tem mais de uma década de experiência em investigações colaborativas, análise de dados e visualizações. É coautora do Manual Iberoamericano de Jornalismo de Dados.