Importar dados de PDF para Excel via Power Query

A tarefa de transferir dados de uma planilha em um arquivo PDF para uma planilha do Microsoft Excel é sempre “divertida”. Especialmente se você não tiver um software de reconhecimento caro como o FineReader ou algo assim. A cópia direta geralmente não leva a nada de bom, porque. depois de colar os dados copiados na planilha, eles provavelmente “grudarão” em uma coluna. Então eles terão que ser cuidadosamente separados usando uma ferramenta Texto por colunas da guia Data (Dados — Texto para Colunas).

E, claro, a cópia só é possível para os arquivos PDF em que há uma camada de texto, ou seja, com um documento que acabou de ser digitalizado do papel para o PDF, isso não funcionará em princípio.

Mas não é tão triste, realmente 🙂

Se você possui o Office 2013 ou 2016, em alguns minutos, sem programas adicionais, é bem possível transferir dados do PDF para o Microsoft Excel. E o Word e o Power Query nos ajudarão nisso.

Por exemplo, vamos pegar este relatório em PDF com vários textos, fórmulas e tabelas do site da Comissão Econômica para a Europa:

Importar dados de PDF para Excel via Power Query

… e tente retirar no Excel, digamos a primeira tabela:

Importar dados de PDF para Excel via Power Query

Vamos!

Etapa 1. Abra o PDF no Word

Por algum motivo, pouca gente sabe, mas desde 2013 o Microsoft Word aprendeu a abrir e reconhecer arquivos PDF (mesmo digitalizados, ou seja, sem camada de texto!). Isso é feito de uma maneira completamente padrão: abra o Word, clique em Arquivo - Abrir (Arquivo - Abrir) e especifique o formato PDF na lista suspensa no canto inferior direito da janela.

Em seguida, selecione o arquivo PDF que precisamos e clique em Abra (Abrir). O Word nos diz que vai executar o OCR neste documento para texto:

Importar dados de PDF para Excel via Power Query

Concordamos e em alguns segundos veremos nosso PDF aberto para edição já no Word:

Importar dados de PDF para Excel via Power Query

É claro que o design, estilos, fontes, cabeçalhos e rodapés, etc. sairão parcialmente do documento, mas isso não é importante para nós – só precisamos de dados de tabelas. Em princípio, nesta fase, já é tentador simplesmente copiar a tabela do documento reconhecido para o Word e simplesmente colá-la no Excel. Às vezes funciona, mas mais frequentemente leva a todos os tipos de distorções de dados – por exemplo, os números podem se transformar em datas ou permanecer texto, como no nosso caso, porque. O PDF usa não separadores:

Importar dados de PDF para Excel via Power Query

Então não vamos cortar custos, mas tornar tudo um pouco mais complicado, mas certo.

Etapa 2: salvar o documento como uma página da Web

Para então carregar os dados recebidos no Excel (via Power Query), nosso documento no Word precisa ser salvo no formato de página web – este formato é, neste caso, uma espécie de denominador comum entre Word e Excel.

Para isso, acesse o menu Arquivo - Salvar como (Arquivo — Salvar como) ou pressione a tecla F12 no teclado e na janela que se abre, selecione o tipo de arquivo Página da Web em um arquivo (Página da Web - arquivo único):

Importar dados de PDF para Excel via Power Query

Depois de salvar, você deve obter um arquivo com a extensão mhtml (se você vir extensões de arquivo no Explorer).

Etapa 3. Carregando o arquivo para o Excel via Power Query

Você pode abrir o arquivo MHTML criado diretamente no Excel, mas obteremos, em primeiro lugar, todo o conteúdo do PDF de uma só vez, juntamente com texto e várias tabelas desnecessárias e, em segundo lugar, perderemos novamente dados devido a erros separadores. Portanto, faremos a importação para o Excel por meio do suplemento Power Query. Este é um complemento totalmente gratuito com o qual você pode fazer upload de dados para o Excel de praticamente qualquer fonte (arquivos, pastas, bancos de dados, sistemas ERP) e depois transformar os dados recebidos de todas as maneiras possíveis, dando-lhes a forma desejada.

Se você tiver o Excel 2010-2013, poderá baixar o Power Query no site oficial da Microsoft - após a instalação, você verá uma guia Consulta de energia. Se você possui o Excel 2016 ou mais recente, não precisa baixar nada - toda a funcionalidade já está incorporada ao Excel por padrão e está localizada na guia Data (Encontro: Data) em grupo Baixe e converta (Obter e transformar).

Então vamos para a guia Data, ou na aba Consulta de energia e escolha uma equipe Para obter dados or Criar consulta – do arquivo – do XML. Para tornar visíveis não apenas os arquivos XML, altere os filtros na lista suspensa no canto inferior direito da janela para Todos os arquivos (Todos os arquivos) e especifique nosso arquivo MHTML:

Importar dados de PDF para Excel via Power Query

Observe que a importação não será concluída com êxito, porque. O Power Query espera XML de nós, mas na verdade temos um formato HTML. Portanto, na próxima janela que aparece, você precisará clicar com o botão direito do mouse no arquivo incompreensível ao Power Query e especificar seu formato:

Importar dados de PDF para Excel via Power Query

Depois disso, o arquivo será reconhecido corretamente e veremos uma lista de todas as tabelas que ele contém:

Importar dados de PDF para Excel via Power Query

Você pode visualizar o conteúdo das tabelas clicando com o botão esquerdo do mouse no fundo branco (não na palavra Tabela!) das células na coluna Dados.

Quando a tabela desejada estiver definida, clique na palavra verde mesa – e você “cai” em seu conteúdo:

Importar dados de PDF para Excel via Power Query

Resta fazer alguns passos simples para “pentear” seu conteúdo, a saber:

  1. exclua colunas desnecessárias (clique com o botão direito do mouse no cabeçalho da coluna – Eliminar)
  2. substitua pontos por vírgulas (selecione colunas, clique com o botão direito – Substituindo valores)
  3. remova os sinais de igual no cabeçalho (selecione as colunas, clique com o botão direito do mouse – Substituindo valores)
  4. remova a linha superior (INÍCIO – Excluir linhas – Excluir linhas superiores)
  5. remover linhas em branco (Início – Excluir linhas – Excluir linhas vazias)
  6. elevar a primeira linha para o cabeçalho da tabela (Home – Use a primeira linha como títulos)
  7. filtrar dados desnecessários usando um filtro

Quando a tabela é trazida para sua forma normal, ela pode ser descarregada na folha com o comando fechar e baixar (Fechar e carregar) on O principal aba. E teremos tanta beleza com a qual já podemos trabalhar:

Importar dados de PDF para Excel via Power Query

  • Transformando uma coluna em uma tabela com o Power Query
  • Dividindo o texto fixo em colunas

Deixe um comentário