GraffitiX Index du Forum

 
 Sujets suivisSujets suivis   FAQFAQ   RechercherRechercher   Liste des MembresListe des Membres   Groupes d'utilisateursGroupes d'utilisateurs   S'enregistrerS'enregistrer 
 ProfilProfil   Se connecter pour vérifier ses messages privésSe connecter pour vérifier ses messages privés   ConnexionConnexion 

L'OCR de DEVONThink Pro Office

 
Poster un nouveau sujet   Répondre au sujet    GraffitiX Index du Forum -> Bureautique
Voir le sujet précédent :: Voir le sujet suivant  
Auteur Message
jjardoino
Site Admin


Inscrit le: 14 Fév 2005
Messages: 3127
Localisation: Paris

MessagePosté le: Lun 03 Déc 2007 9:28    Sujet du message: L'OCR de DEVONThink Pro Office Répondre en citant

Ce matin j'ai eu une bonne surprise en testant l'importation via un scanner d'un document dans DEVONThink Pro Office, cette excellente application de conservation et classement de notes et documents divers que j'avais évoquée dans ce petit article. Le scan peut s'accompagner d'une opération d'OCR quand le document contient du texte. Je savais que cet OCR était utilisable pour la recherche de DEVONThink Pro dans sa base de données, mais j'ignorais qu'en fait ça allait bien plus loin.

Dans mon exemple je pars d'un modèle de lettre que j'imprime sur papier avant de le signer. Puis, désirant envoyer le PDF résultant par mail, j'ai le choix entre scanner avec une application quelconque (Aperçu par exemple) ou passer par un import DEVONThink Pro. Et cela fait toute la différence.

Via Aperçu, j'obtiendrai une image qui, même sauvée en PDF, ne me permettra pas d'utiliser l'outil Texte puisque le PDF ne contient qu'une image. Pour d'autres raisons, je souhaitais réaliser l'opération avec DEVONThink Pro. L'import est simple, et je coche la case d'OCR. Une fois la numérisation effectuée et enregistrée, il me suffit de glisser l'élément depuis DEVONThink Pro vers le Bureau pour obtenir le fichier PDF que je pourrai envoyer par mail. DEVONThink Pro propose une fonction directe pour ajouter la pièce jointe à un mail mais, dans ce cas, je souhaitais consulter le PDF dans Aperçu.

Une fois le PDF ouvert, je constate que je peux utiliser l'outil Texte, sélectionner et copier du texte, et le Presse-papier du Finder confirme que le texte a été copié correctement. Il en va de même pour le document consulté dans DEVONThink Pro, ce qui est logique puisque il est déjà stocké au format PDF. Et la fenêtre d'information de l'application me précise qu'il s'agit d'un "PDF + Texte".

Je pensais pourtant avoir compris que l'OCR de DEVONThink Pro Office sur les documents scannés ne permettait que de stocker dans sa base des mots-clés utiles pour la recherche. J'ignorais totalement que le document PDF final contiendrait du texte en tant que texte couplé au texte bien évidemment conservé dans l'image. Il s'agit bien entendu de texte brut ne tenant pas compte de la mise en forme (justification, police, corps et attributs) visible dans l'image, mais, à l'utilisation, c'est bluffant : je sélectionne les mots que je vois à l'image comme s'il s'agissait de vrai texte, et le vrai texte brut est sélectionné en conséquence.

Il y a mille raisons d'utiliser DEVONThink Pro Office quand on y trouve le moyen de rassembler des documents pouvant être mis en relation, des URL et des archives web de pages et de tests qu'on souhaite retrouver à tout moment, d'autant plus que la version Office permet d'inclure des documents sur papier après une numérisation très facile à réaliser.

Mais j'en vois maintenant une de plus : compte tenu de la situation des "grands logiciels" d'OCR (soit peu mis à jour soit complexes d'utilisation, et cela nécessite souvent un gros travail de vérification et de correction, même en partant de scans de texte imprimé), DEVONThink Pro pourrait très bien être utilisé pour récupérer le texte de nombreux documents. Il suffit de scanner en activant l'OCR et on obtient un résultat très correct.

Bien sûr, ce n'est que du texte brut et il faut remettre en forme. Mais, dans diverses utilisations d'OCR dédiés, la mise en forme automatique demandait à être sérieusement corrigée et, dans certains cas, on aura plus vite fait de supprimer toute mise en forme pour repartir à zéro.

Si l'OCR de DEVONThink Pro (basé sur ReadIris) se montre particulièrement efficace pour obtenir un texte brut qui ne demande que très peu de correction, le pari de gagner du temps et de l'énergie face à une ressaisie fastidieuse est gagné et on peut accepter de passer un peu de temps sur la mise en forme, d'autant plus qu'on aurait dû également le faire après être passé par un logiciel qui est censé préserver cette mise en forme.

Encore une fois, épaté je suis...
_________________
Jean-Jacques Ardoino
Si vous voulez aider GraffitiX...
Revenir en haut de page
Voir le profil de l'utilisateur Envoyer un message privé Adresse AIM
Montrer les messages depuis:   
Poster un nouveau sujet   Répondre au sujet    GraffitiX Index du Forum -> Bureautique Toutes les heures sont au format GMT + 1 Heure
Page 1 sur 1

 
Sauter vers:  
Vous ne pouvez pas poster de nouveaux sujets dans ce forum
Vous ne pouvez pas répondre aux sujets dans ce forum
Vous ne pouvez pas éditer vos messages dans ce forum
Vous ne pouvez pas supprimer vos messages dans ce forum
Vous ne pouvez pas voter dans les sondages de ce forum


Powered by phpBB © 2001, 2005 phpBB Group
Traduction par : phpBB-fr.com