Um workshop de raspagem de dados na GIJC23. Imagem: Smaranda Tolosano para GIJN
Raspagem de dados sem programação usando o Data Miner: instruções passo a passo
Leia este artigo em
Saber onde procurar dados — e como acessá-los — deve ser uma prioridade para os jornalistas investigativos. O uso eficaz dos dados pode não só melhorar a qualidade geral de uma investigação, mas também aumentar o seu valor como um serviço público.
Nos últimos 20 anos, a quantidade de dados disponíveis cresceu a um ritmo sem precedentes. De acordo com a International Data Corporation (IDC), até 2025 a soma coletiva dos dados mundiais chegará a 175 zettabytes (um zettabyte equivale a um trilhão de gigabytes; como diz a IDC, se alguém pudesse armazenar toda a esfera de dados de 2025 em DVDs, a linha resultante de DVDs daria a volta à Terra 222 vezes).
Algumas estimativas afirmam que só Google, Facebook, Microsoft e Amazon armazenam pelo menos 1.200 petabytes (um petabyte = um milhão de gigabytes) de dados entre eles. Os jornalistas investigativos e de dados estão usando mais dados quantitativos, qualitativos e categóricos do que nunca – mas obter bons dados ainda é um desafio.
Acessar ou localizar dados estruturados – definidos como dados em um formato padronizado e claramente definido, prontos para análise – em oceanos de dados ruins ou incompletos (incluindo dados falsos, dados sujos, falhos ou “não autorizados”, dados dispersos e dados pouco claros) ainda é difícil, independentemente da área. Parte da solução para este problema é aumentar a compreensão de dados: precisamos de compreender como os dados são coletados, limpos, verificados, analisados e visualizados, porque é um processo interligado. Para os jornalistas, a alfabetização em dados é crucial.
No jornalismo de dados, como em qualquer tipo de prática jornalística, buscamos formas de acessar todo tipo de dados, como os de vazamentos, de milhares de arquivos PDF, ou de índices registrados em sites — organizados ou não. Alguns deles são de fácil acesso, enquanto outros requerem tecnologia para serem acessados, o que leva tempo.
No entanto, existem ferramentas e métodos que tornam isso agradável e simples – como a raspagem de dados de sites. Raspar significa usar programas de computador ou softwares para extrair ou copiar dados específicos de sites. Este processo pode ser usado para coletar ou analisar os dados e é mais rápido e eficiente do que adquirir dados manualmente.
Os benefícios da raspagem de dados para jornalistas incluem:
- Velocidade e escopo: A raspagem de dados permite que os jornalistas coletem informações de forma rápida e eficiente. Extrair dados de uma variedade de fontes na Internet oferece uma perspectiva mais ampla e ajuda você a basear suas histórias em uma base mais sólida.
- Verificação: A raspagem de dados pode ajudar os jornalistas no processo de verificação. Você pode comparar dados para verificar informações na web e detectar contradições, o que ajuda a verificar as informações e aumentar sua credibilidade.
- Descobrindo tendências: a raspagem de dados pode ser usada para descobrir padrões relacionados a um determinado tópico ou evento. Ao analisar grandes conjuntos de dados, você pode, por exemplo, compreender tendências nas redes sociais ou na opinião pública e integrar essas informações em suas notícias.
- Visualização de dados: a visualização dos dados coletados pela raspagem de dados ajuda os jornalistas a apresentarem suas histórias de maneira mais eficaz. Ao usar gráficos, tabelas e recursos visuais interativos, você pode tornar os dados mais compreensíveis e dar aos leitores uma melhor compreensão do tópico.
- Permitir uma investigação aprofundada: A raspagem de dados permite aos jornalistas realizar pesquisas mais aprofundadas. Ao analisar grandes conjuntos de dados financeiros, por exemplo, você pode obter uma compreensão mais profunda das operações de empresas ou de políticas governamentais.
- Aumentando o valor das notícias: a raspagem de dados pode levar a histórias interessantes. Estatísticas, tendências, dados demográficos ou outros dados podem tornar suas histórias mais envolventes e atraentes.
O Data Miner é uma ferramenta gratuita de extração de dados e extensão de navegador que permite aos usuários raspar páginas da web e coletar dados seguros rapidamente. Ele coleta automaticamente dados de páginas da web e os salva nos formatos Excel, CSV ou JSON.
No entanto, lembre-se de que a coleta em massa de dados de sites pode violar seus termos de uso ou a lei. É importante ler atentamente os termos de uso do site antes de usar uma extensão ou plugin do navegador e agir de acordo com todas as normas e regulamentos legais. Você também deve revisar os termos de serviço da extensão que está usando.
Como os jornalistas podem usar o Data Miner
Aqui estão as etapas para raspar um site com a extensão do navegador Data Miner.
1. Instale a extensão Data Miner em seu navegador. A extensão geralmente está disponível para navegadores como Chrome ou Firefox. Encontre e instale a extensão Data Miner na loja de extensões do seu navegador.
2. Abra o site de interesse. Abra o site do qual deseja extrair dados em seu navegador e inicie sua extensão – ou em outras palavras, encontre o Data Miner no menu de extensões/plugins em seu navegador e abra-o. A extensão geralmente está localizada no canto superior direito do seu navegador.
3. Crie uma nova tarefa/receita para web scraping. A extensão Data Miner possui a opção “My Receipts”(Minhas Receitas). Clique nesta opção para criar uma nova tarefa de web scraping. Será apresentada uma tela de comando para continuar o processo de raspagem.
4. Defina opções para raspar o site: O Data Miner tem várias opções e configurações para raspar um site. Por exemplo, você pode especificar quais dados deseja extrair e definir ações automáticas, como navegação de página ou preenchimento de formulário.
5. Comece a raspar o site. Depois de finalizar as configurações, você pode iniciar a raspagem de dados clicando no botão “Scrape” (raspar) no painel de extensão do Data Miner. A extensão rastreará o site e coletará os dados que você especificou. (Você também pode assistir ao processo neste vídeo curto.)
6. Salve ou exporte os dados. Geralmente, você pode salvar seus dados extraídos como um arquivo CSV ou planilha do Excel. Você também pode copiar a tela de captura usando o recurso Clipboard (Área de transferência) – um recurso conveniente e que economiza tempo. Se os dados extraídos tiverem mais de 10.000 linhas, eles serão baixados como dois arquivos separados.
Seguindo essas etapas, você pode raspar um ou vários sites com o Data Miner e executar qualquer uma das mais de 60.000 regras de extração de dados ou criar seu próprio método de extração personalizado para obter apenas os dados que você precisa de uma página da web. porque é possível criar raspagem automática de página única ou de várias páginas.
Você pode automatizar a extração e executar lotes de trabalhos de extração, com base em uma lista de URLs de sites. Além disso, você pode usar 50.000 queries pré-configuradas gratuitas, para mais de 15.000 sites populares. Você também pode rastrear URLs, paginá-los e extrair uma única página de um único local – sem necessidade de codificação.
Usar a extensão também tem as seguintes vantagens.
- Ele ajuda você a usá-lo com segurança: ele se comporta como se você estivesse clicando na página em seu próprio navegador.
- Ajuda você a raspar sem se preocupar: não é um bot, então você não será bloqueado ao fazer uma consulta.
- Mantém seus dados privados: A extensão não vende nem compartilha seus dados.
Pınar Dağ é editora da GIJN Turca e professora da Universidade Kadir Has. Ela é cofundadora da Data Literacy Association, da Data Journalism Platform Turkey e da DağMedya. Ela trabalha com alfabetização em dados, dados abertos, visualização de dados e jornalismo de dados, e faz parte do júri do Prêmio Sigma de Jornalismo de Dados.