gratifiant > linux.debian.user.french

Alex Bernier (02/07/2004, 09h40)
Bonjour,

Je dispose d'un fichier PDF qui doit bien faire plus de 500 pages.
Pour faciliter son traitement, je cherche à le "couper" et à le convertir
en fichier TIFF par exemple (1 fichier TIFF par page, donc 500 au final...).
Comment feriez-vous cela?
A la limite je peux d'abord convertir le document en PostScript, mais je ne
sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce format ne me
satisfait pas (ne n'obtient qu'une très faible résolution, et comme c'est
pour de l'OCR, c'est problématique).

Merci d'avance,

Alex
Nooks L. Affro (02/07/2004, 10h10)
Bonjour,

Essaie (utilisant ghostscript):

gs -dNOPAUSE -q -r300x300 -sDEVICE=tifflzw -dBATCH -sOutputFile=sortie%d.tif fichier_entree.pdf

Tu auras une liste de tiffs (sortie*.tif) , un pour chaque page.

Voir gs --help pour une liste de devices (tiff ou autres).

Nooks

On Fri, Jul 02, 2004 at 09:09:51AM +0200, Alex Bernier wrote:
[..]
Milou (02/07/2004, 11h30)
Le Fri, 2 Jul 2004 09:09:51 +0200
Alex Bernier <alex.bernier> a écrit:

> Bonjour, Bonjour,
> Je dispose d'un fichier PDF qui doit bien faire plus de 500 pages.
> Pour faciliter son traitement, je cherche à le "couper" et à le
> convertir en fichier TIFF par exemple (1 fichier TIFF par page, donc
> 500 au final...). Comment feriez-vous cela?
> A la limite je peux d'abord convertir le document en PostScript, mais
> je ne sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce
> format ne me satisfait pas (ne n'obtient qu'une très faible
> résolution, et comme c'est pour de l'OCR, c'est problématique). Et tu as essayé 'pdftotext' (paquet xpdf-utils)?


Tu en ressors un .txt que tu arranger un peu après et tu te passes de
l'ocr... (à moins bien sur que l'ocr soit le but de la manoeuvre hein?)

mil
Yves Rutschle (02/07/2004, 12h00)
On Fri, Jul 02, 2004 at 09:09:51AM +0200, Alex Bernier wrote:
> A la limite je peux d'abord convertir le document en PostScript, mais je ne
> sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce format ne me
> satisfait pas (ne n'obtient qu'une très faible résolution, et comme c'est
> pour de l'OCR, c'est problématique).


De l'OCR?! Si tu veux récupérer le contenu du pdf en fichier
texte, pdftotext dans le paquet xpdf-utils marche très très
bien.

Y.
Nooks L. Affro (02/07/2004, 12h00)
Ca c'est sur , de plus le texte de pdftotext est bien de meilleure qualite
que le resultat de l'OCR. Mais une question quand meme , quel outil OCR
utilises-tu ?

Nooks

On Fri, Jul 02, 2004 at 10:21:24AM +0200, Milou wrote:
[..]
Vincent Lefevre (02/07/2004, 14h00)
On 2004-07-02 10:34:48 +0100, Yves Rutschle wrote:
> De l'OCR?! Si tu veux récupérer le contenu du pdf en fichier
> texte, pdftotext dans le paquet xpdf-utils marche très très
> bien.


Uniquement sur de l'ASCII. Dès qu'on a des caractères accentués, par
exemple, le résultat est mauvais.

Tout ça à supposer que le PDF a été généré à partir d'un fichier
texte, et non par scan...
Seki (02/07/2004, 14h50)
Salut,

Le 2 juil. 2004, à 9:57, Nooks L. Affro a écrit :

> Essaie (utilisant ghostscript):
> gs -dNOPAUSE -q -r300x300 -sDEVICE=tifflzw -dBATCH
> -sOutputFile=sortie%d.tif fichier_entree.pdf


Tu peux aussi rajouter -dFirstPage=n -dLastPage=n pour travailler sur
une portion du document.

Sébastien Kirche
Discussions similaires