gratifiant > comp.divers.* > comp.applications.bureautique

siger (05/03/2018, 11h07)
Bonjour, il y a encore du monde ici ?

Je viens de recevoir un PDF de 3 Mo, qui ne contient que 9 pages de
texte sur fond blanc.

Je l'ai "réimprimé" avec PDF Creator, ça ne change rien.

Le texte n'est pas sélectionnable, sauf les parties en gras (titres et
autres).

D'où ça peut venir (je parle de la taille) ?

Si vous avez une explication sur le comportement de la sélection du
texte, ça m'intéresse aussi :-)
Thierry Houx (06/03/2018, 06h02)
Le 05/03/2018 à 11:07, siger a écrit :
> Bonjour, il y a encore du monde ici ?
> Je viens de recevoir un PDF de 3 Mo, qui ne contient que 9 pages de
> texte sur fond blanc.
> Je l'ai "réimprimé" avec PDF Creator, ça ne change rien.
> Le texte n'est pas sélectionnable, sauf les parties en gras (titres et
> autres).
> D'où ça peut venir (je parle de la taille) ?
> Si vous avez une explication sur le comportement de la sélection du
> texte, ça m'intéresse aussi :-)


C'est simple, ton pdf contient des pages scannées au format image, d'où
le poids et l'impossibilité de sélectionner du texte.
siger (06/03/2018, 10h11)
Thierry Houx a écrit :

> Le 05/03/2018 à 11:07, siger a écrit :
> C'est simple, ton pdf contient des pages scannées au format image,
> d'où le poids et l'impossibilité de sélectionner du texte.


J'ai pensé à ça, mais visuellement je ne vois rien qui le laisse penser
il a exactement l'allure d'un texte non scanné, et les textes
sélectionnables sont parfois mélés à d'autres, non sélectionnables.
Pour ce point (texte non sélectionnable), je dirais qu'ils sont partis
d'un PDF protégé et ont ajouté des choses avec un formatage non
protégé. J'ignore si c'est possible.
Jean-Baptiste Faure (07/03/2018, 09h56)
Le 06/03/2018 à 10:11, siger a écrit :
> Thierry Houx a écrit : [...]
>> C'est simple, ton pdf contient des pages scannées au format image,
>> d'où le poids et l'impossibilité de sélectionner du texte.

> J'ai pensé à ça, mais visuellement je ne vois rien qui le laisse penser
> il a exactement l'allure d'un texte non scanné, et les textes
> sélectionnables sont parfois mélés à d'autres, non sélectionnables.


Si ce n'est pas un scan ça peut être une copie d'écran ou un export
image rogné pour faire disparaître les bords.

Essaye de l'ouvrir avec LibreOffice Draw pour voir les objets qu'il
découvre dedans.

Bonne journée
JBF
siger (07/03/2018, 18h25)
Jean-Baptiste Faure a écrit :

> Le 06/03/2018 à 10:11, siger a écrit :
> [...]
> Si ce n'est pas un scan ça peut être une copie d'écran ou un
> export image rogné pour faire disparaître les bords.
> Essaye de l'ouvrir avec LibreOffice Draw pour voir les objets
> qu'il découvre dedans.


Je ne vois rien de spécial, ou alors je ne sais pas chercher. Voilà le
fichier :
Denis Beauregard (07/03/2018, 18h59)
Le Wed, 7 Mar 2018 17:25:13 -0000 (UTC), siger <s> écrivait
dans fr.comp.applications.bureautique:

>Jean-Baptiste Faure a écrit :
>Je ne vois rien de spécial, ou alors je ne sais pas chercher. Voilà le
>fichier :
>


Pourtant, cela saute aux yeux ! Seulement les parties en gras
sont lues. Pour les autres, ce sont les images de l'original.
C'est peut-être que le logiciel d'OCR n'a lu que ce qui est
en gras.

Denis
Denis Beauregard (07/03/2018, 19h03)
Le Wed, 7 Mar 2018 17:25:13 -0000 (UTC), siger <s> écrivait
dans fr.comp.applications.bureautique:

>Je ne vois rien de spécial, ou alors je ne sais pas chercher. Voilà le
>fichier :


Petit commentaire : le gras, ce sont les propos de l'intervieweur.
Il a donc les droits intellectuels sur cette partie.

Ce qui n'est pas saisissable (les images de texte), ce sont les
réponses, la partie pour laquelle l'auteur n'a pas ces droits.
Une façon irrégulière mais honnête de gérer la situation AMHA.

Denis
Jean-Baptiste Faure (08/03/2018, 09h39)
Le 07/03/2018 à 18:59, Denis Beauregard a écrit :
> Le Wed, 7 Mar 2018 17:25:13 -0000 (UTC), siger <s> écrivait
> dans fr.comp.applications.bureautique:
> Pourtant, cela saute aux yeux ! Seulement les parties en gras
> sont lues. Pour les autres, ce sont les images de l'original.
> C'est peut-être que le logiciel d'OCR n'a lu que ce qui est
> en gras.


Les parties en gras sont importées par LibreOffice Draw comme des lignes
de texte, le reste comme des objets graphiques.

Il existe des logiciels pour faire de l'OCR directement sur un fichier
PDF...

Bonne journée
JBF
siger (08/03/2018, 13h27)
Denis Beauregard a écrit :

> Le Wed, 7 Mar 2018 17:25:13 -0000 (UTC), siger <s>
> écrivait dans fr.comp.applications.bureautique:
> Petit commentaire : le gras, ce sont les propos de l'intervieweur.
> Il a donc les droits intellectuels sur cette partie.
> Ce qui n'est pas saisissable (les images de texte), ce sont les
> réponses, la partie pour laquelle l'auteur n'a pas ces droits.
> Une façon irrégulière mais honnête de gérer la situation AMHA.


Je ne sais pas utiliser Draw, je n'ai donc pas su distinguer les 2
types d'objets.

Vous pouvez aussi voir en fin de page 8 qu'il y a un mélange de texte
(en italique) et de non-texte.

Merci à tous pour les explications :-)
Discussions similaires