Configurações de Acessibilidade

Tamanho do texto

Opções de cor

Monocromático Cor suave Escuro

Ferramentas de leitura

isolamento Régua

Um workshop de raspagem de dados na GIJC23. Imagem: Smaranda Tolosano para GIJN

Recursos

» Folha de dicas

Artigos

Temas

Raspagem de dados sem programação usando o Data Miner: instruções passo a passo

Leia este artigo em

Saber onde procurar dados — e como acessá-los — deve ser uma prioridade para os jornalistas investigativos. O uso eficaz dos dados pode não só melhorar a qualidade geral de uma investigação, mas também aumentar o seu valor como um serviço público.

Nos últimos 20 anos, a quantidade de dados disponíveis cresceu a um ritmo sem precedentes. De acordo com a International Data Corporation (IDC), até 2025 a soma coletiva dos dados mundiais chegará a 175 zettabytes (um zettabyte equivale a um trilhão de gigabytes; como diz a IDC, se alguém pudesse armazenar toda a esfera de dados de 2025 em DVDs, a linha resultante de DVDs daria a volta à Terra 222 vezes).

Algumas estimativas afirmam que só Google, Facebook, Microsoft e Amazon armazenam pelo menos 1.200 petabytes (um petabyte = um milhão de gigabytes) de dados entre eles. Os jornalistas investigativos e de dados estão usando mais dados quantitativos, qualitativos e categóricos do que nunca – mas obter bons dados ainda é um desafio.

Acessar ou localizar dados estruturados – definidos como dados em um formato padronizado e claramente definido, prontos para análise – em oceanos de dados ruins ou incompletos (incluindo dados falsos, dados sujos, falhos ou “não autorizados”, dados dispersos e dados pouco claros) ainda é difícil, independentemente da área. Parte da solução para este problema é aumentar a compreensão de dados: precisamos de compreender como os dados são coletados, limpos, verificados, analisados ​​e visualizados, porque é um processo interligado. Para os jornalistas, a alfabetização em dados é crucial.

No jornalismo de dados, como em qualquer tipo de prática jornalística, buscamos formas de acessar todo tipo de dados, como os de vazamentos, de milhares de arquivos PDF, ou de índices registrados em sites — organizados ou não. Alguns deles são de fácil acesso, enquanto outros requerem tecnologia para serem acessados, o que leva tempo.

No entanto, existem ferramentas e métodos que tornam isso agradável e simples – como a raspagem de dados de sites. Raspar significa usar programas de computador ou softwares para extrair ou copiar dados específicos de sites. Este processo pode ser usado para coletar ou analisar os dados e é mais rápido e eficiente do que adquirir dados manualmente.

Os benefícios da raspagem de dados para jornalistas incluem:

  1. Velocidade e escopo: A raspagem de dados permite que os jornalistas coletem informações de forma rápida e eficiente. Extrair dados de uma variedade de fontes na Internet oferece uma perspectiva mais ampla e ajuda você a basear suas histórias em uma base mais sólida.
  2. Verificação: A raspagem de dados pode ajudar os jornalistas no processo de verificação. Você pode comparar dados para verificar informações na web e detectar contradições, o que ajuda a verificar as informações e aumentar sua credibilidade.
  3. Descobrindo tendências: a raspagem de dados pode ser usada para descobrir padrões relacionados a um determinado tópico ou evento. Ao analisar grandes conjuntos de dados, você pode, por exemplo, compreender tendências nas redes sociais ou na opinião pública e integrar essas informações em suas notícias.
  4. Visualização de dados: a visualização dos dados coletados pela raspagem de dados ajuda os jornalistas a apresentarem suas histórias de maneira mais eficaz. Ao usar gráficos, tabelas e recursos visuais interativos, você pode tornar os dados mais compreensíveis e dar aos leitores uma melhor compreensão do tópico.
  5. Permitir uma investigação aprofundada: A raspagem de dados permite aos jornalistas realizar pesquisas mais aprofundadas. Ao analisar grandes conjuntos de dados financeiros, por exemplo, você pode obter uma compreensão mais profunda das operações de empresas ou de políticas governamentais.
  6. Aumentando o valor das notícias: a raspagem de dados pode levar a histórias interessantes. Estatísticas, tendências, dados demográficos ou outros dados podem tornar suas histórias mais envolventes e atraentes.

O Data Miner é uma ferramenta gratuita de extração de dados e extensão de navegador que permite aos usuários raspar páginas da web e coletar dados seguros rapidamente. Ele coleta automaticamente dados de páginas da web e os salva nos formatos Excel, CSV ou JSON.

No entanto, lembre-se de que a coleta em massa de dados de sites pode violar seus termos de uso ou a lei. É importante ler atentamente os termos de uso do site antes de usar uma extensão ou plugin do navegador e agir de acordo com todas as normas e regulamentos legais. Você também deve revisar os termos de serviço da extensão que está usando.

A editora da GIJN Turca, Pınar Dağ, autora desta história, faz uma apresentação sobre o uso do Data Miner na GIJC23, em Gotemburgo. Imagem: Smaranda Tolosano para GIJN

Como os jornalistas podem usar o Data Miner

Aqui estão as etapas para raspar  um site com a extensão do navegador Data Miner.

1. Instale a extensão Data Miner em seu navegador. A extensão geralmente está disponível para navegadores como Chrome ou Firefox. Encontre e instale a extensão Data Miner na loja de extensões do seu navegador.

Imagem: Captura de tela

2. Abra o site de interesse. Abra o site do qual deseja extrair dados em seu navegador e inicie sua extensão – ou em outras palavras, encontre o Data Miner no menu de extensões/plugins em seu navegador e abra-o. A extensão geralmente está localizada no canto superior direito do seu navegador.

Imagem: Captura de tela

Imagem: Captura de tela

3. Crie uma nova tarefa/receita para web scraping. A extensão Data Miner possui a opção “My Receipts”(Minhas Receitas). Clique nesta opção para criar uma nova tarefa de web scraping. Será apresentada uma tela de comando para continuar o processo de raspagem.

Imagem: Captura de tela

4. Defina opções para raspar o site: O Data Miner tem várias opções e configurações para raspar um site. Por exemplo, você pode especificar quais dados deseja extrair e definir ações automáticas, como navegação de página ou preenchimento de formulário.

Imagem: Captura de tela

5. Comece a raspar o site. Depois de finalizar as configurações, você pode iniciar a raspagem de dados clicando no botão “Scrape” (raspar) no painel de extensão do Data Miner. A extensão rastreará o site e coletará os dados que você especificou. (Você também pode assistir ao processo neste vídeo curto.)

6. Salve ou exporte os dados. Geralmente, você pode salvar seus dados extraídos como um arquivo CSV ou planilha do Excel. Você também pode copiar a tela de captura usando o recurso Clipboard (Área de transferência) – um recurso conveniente e que economiza tempo. Se os dados extraídos tiverem mais de 10.000 linhas, eles serão baixados como dois arquivos separados.

Imagem: Captura de tela

Seguindo essas etapas, você pode raspar um ou vários sites com o Data Miner e executar qualquer uma das mais de 60.000 regras de extração de dados ou criar seu próprio método de extração personalizado para obter apenas os dados que você precisa de uma página da web. porque é possível criar raspagem automática de página única ou de várias páginas.

Você pode automatizar a extração e executar lotes de trabalhos de extração, com base em uma lista de URLs de sites. Além disso, você pode usar 50.000 queries pré-configuradas gratuitas, para mais de 15.000 sites populares. Você também pode rastrear URLs, paginá-los e extrair uma única página de um único local – sem necessidade de codificação.

Usar a extensão também tem as seguintes vantagens.

  • Ele ajuda você a usá-lo com segurança: ele se comporta como se você estivesse clicando na página em seu próprio navegador.
  • Ajuda você a raspar sem se preocupar: não é um bot, então você não será bloqueado ao fazer uma consulta.
  • Mantém seus dados privados: A extensão não vende nem compartilha seus dados.

Pınar Dağ é editora da GIJN Turca e professora da Universidade Kadir Has. Ela é cofundadora da Data Literacy Association, da Data Journalism Platform Turkey e da DağMedya. Ela trabalha com alfabetização em dados, dados abertos, visualização de dados e jornalismo de dados, e faz parte do júri do Prêmio Sigma de Jornalismo de Dados.

Republique nossos artigos gratuitamente, online ou impressos, sob uma licença Creative Commons.

Repubique este artigo


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

Leia em seguida