Pular para o conteúdo principal

Encontrar texto em arquivos pdf

Problema: Você tem zilhões de artigos (papers) em pdf mas quer saber se uma certa sequência de texto (palavra ou frase) está escrita neles. Por exemplo, suponhamos que a frase a ser pesquisada é "fitting"

Solução 1: via pdfgrep (mais recomendada)

    No terminal de comandos, (trocando "richard" pelo seu nome do usuário), digite:

$  find ~ -name '*.pdf' -exec pdfgrep -H -i 'fitting' {} \;

Para indicar quantas ocorrências em cada pdf:

find ~ -name '*.pdf' -exec pdfgrep  -c -H -i 'fitting' {} \; | awk -v FS=":" -v OFS="\t" '$2>0 { print $2, $1 }' | sort -hr

Para mostrar somente a primeira ocorrência no pdf:


$  find ~ -name '*.pdf' -exec pdfgrep -H -i -m 1 'fitting' {} \;

Solução 2: via pdftotext

    Nota: pode apresentar mensagens de erro quando há problemas na conversão para texto
    No terminal de comandos digite:

$  find ~ -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep -H --label="{}" --color "fitting"' \; 

Um exemplo de resultado é exibido na figura seguinte:


Se você quiser mostrar somente a primeira ocorrência no arquivo pdf:

$  find ~/Downloads -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep  -H -m 1 --label="{}" --color "fitting"' \;

Para exibir somente o número de vezes o padrão pesquisado aparece nos arquivos pdf:

find ~ -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep  -o -H -c --label="{}" --color "plot"' \;

Obs: para instalar os pacotes necessários, em distribuição baseada no Debian (Debian, Ubuntui, Mint etc) use:

$  sudo apt-get install pdftotext pdfgrep

Comentários

Postagens mais visitadas deste blog

Matemática no terminal de comandos

Precisa fazer um cálculo rápido sem ter que abrir nenhuma aplicação gráfica como, por exemplo, uma planilha de cálculo? O terminal de comandos do Linux é ideal para esses casos. Para cálculos com ponto flutuante usando somente o terminal de comandos temos diversas opções como o comando bc , por exemplo. O comando bc (basic calculator) é utilizado para cálculos com precisão arbitrária e possui a vantagem de já vir instalado em qualquer distribuição Linux, portanto, sem a necessidade de instalar nada! Além do bc, as linguagens de programação de modo geral são ricas em recursos matemáticos e algumas podem ser executadas interativamente no terminal.  Neste artigo mostraremos exemplos de cálculos usando o bc , gnuplot , Python , Scilab, R , Julia, bash e zsh . Operadores matemáticos Para realizarmos os cálculos, precisamos saber a sintaxe básica e que símbolos são usados para representar os operadores matemáticos. Soma, subtração, mu...

Iniciando o terminal com o logotipo da sua distro e informações do sistema

Vamos ver algumas formas de tornar seu terminal de comandos mais divertido e atraente instalando o neofetch pra exibir o logo da sua distro no terminal de comandos. Abra um terminal de comandos (Ctrl+Shift+T funciona em algumas distribuições); Digite os comandos seguintes (sem incluir o "$"):   $ sudo add-apt-repository ppa:dawidd0811/neofetch $ sudo apt-get update $ sudo apt-get install neofetch Teste o neofetch digitando no terminal: $ clear;neofetch As figuras abaixo indicam que o neofetch identificou (corretamente) duas distros Lubuntu como sendo um Ubuntu, porém uma com ambiente LXDE e outra LXQT. Na primeira figura foi usado o LXTerminal e na segunda o QTerminal: Para exibir o logotipo do Lubuntu 16.04 (e não do Ubuntu) pode-se digitar o seguinte comando:   $ clear;neofetch --ascii_distro Lubuntu  obtendo-se a seguinte tela: No caso do Lubuntu 20.04, o neofetch identificou o "Host" como sendo o VirtualBox 1.2...