Jornalistas praticam raspagem de dados na oficina Gastos Abertos

Mais uma aula incrível das oficinas Gastos Abertos. Dessa vez, aprendemos raspagem de dados e fiquei encantada com as possibilidades apresentadas. Sem contar que o Marco Túlio é um ótimo instrutor e tornou tudo mais fácil, prático e divertido!

***

A aula desta quarta-feira (09) das oficinas Gastos Abertos, realizada pela Escola de Dados na Faculdade de Direito da FGV em São Paulo, foi de descontração e muita prática. Marco Túlio Pires, gerente de programa da School of Data, falou sobre classificação dos dados, o que caracteriza uma base estruturada e ensinou técnicas de raspagem de dados.

Primeiro, é necessário fazer uma diferenciação básica: relatórios apresentam dados consolidados, estruturas diversas e são para humanos lerem. Já as tabelas são ótimas para análise em computador e apresentam estrutura simples de linhas e colunas. Marco Túlio pontuou alguns cuidados como não agregar informações na mesma tabela e colocar apenas um tipo de dado em cada coluna, garantindo, assim, os quesitos integridade e previsibilidade.

E a raspagem é isso, transformar dados que foram feitos para humanos em dados legíveis por máquina a fim de que seja possível analisar, processar e visualizar as informações. Uma das ferramentas utilizadas é o WebScraper, uma extensão do Chrome para extrair dados de páginas da web. Antes, foi mostrada a estrutura dessas páginas, feitas em código HTML.

Quando já se tem uma tabela na página, é possível transferi-la para Google Sheets com uma função de importação própria de HTML. Os jornalistas também colocaram a mão na massa com o IFTTT (If This Than That), um serviço que permite criar “receitas” condicionais para obter dados de outros canais da web. Por exemplo, se publicarem a hashtag #GastosAbertos no Twitter, então uma tabela será criada no Google Drive com os dados indicados pela receita.

Uma grande demanda dos alunos para seus projetos, atendida na aula desta quarta, era entender como raspar dados de PDFs. Os alunos praticaram no PDF Tables, um serviço pago da web que converte planilhas nesse formato para Excel, e Tabula, uma ferramenta open source criada por jornalistas com o mesmo propósito.

Por último, Marco Túlio mostrou como juntar duas tabelas com as funções “match” e “index” da planilha do Google, cruzando a tabela da renda per capita de todos os municípios do Brasil com outra do índice de analfabetismo de todos os municípios de São Paulo.

Publicado originalmente no blog da Escola de Dados

Siga, curta, compartilhe:
Facebook
Google+
http://ludihonorato.com.br/jornalistas-praticam-raspagem-de-dados-na-oficina-gastos-abertos/