Bureautique, Office › OCR, extraction de texte dans une image


La reconnaissance optique de caractères (ROC), en anglais optical character recognition (OCR), ou océrisation, désigne les procédés informatiques pour la traduction d'images de textes imprimés ou dactylographiés en fichiers de texte. (Source. Wikipedia)

Fil des billets - Fil des commentaires

samedi 24 mai 2008

TopOCR

TopOCR

Voici un programme de reconnaissance de caractères gratuit, choses relativement rare dans ce secteur où les logiciels les plus performants sont payants, ou fournis à l'achat d'un scanner dans une version allégée. Comme tous les OCR gratuits, la reconnaissance est loin d'être parfaite, vous pouvez le voir sur la capture, où les caractères soulignés ont quelques problèmes, mais ils ont le mérite d'être légers et rapides. On repassera un peu derrière leur travail, ce qui se fait aussi pour d'autres.

L'intérêt de TopOCR est qu'il reconnaît les caractères français, il faudra lui préciser la langue avant de faire reconnaître votre document (il peut scanner pour vous ou ouvrir des images), dans le menu "settings" language : il s'agit bien de la langue du document à analyser, ce n'est pas celle du programme. Par ailleurs, il est conçu pour les webcams et smartphones.

On appréciera un mini traitement de texte - pas si mini et bien évolué en réalité - en accès direct pour modifier à la volée le texte reconnu. Ce module peut exporter le résultat de la reconaissance en html, rtf, txt et... PDF ! Ceci sans installer de module additionnel. Rare ! Les images peuvent subir un pré traitement par filtres pour améliorer le taux de reconnaissance, ceci pour aider lorsque la source était un téléphone portable par exemple ou un livre pris en photo, qui courbe les pages et déforme le texte : on peut tenter d'y remédier. Des zones "image" peuvent être définies pour les contenus mixtes (texte + image).

Un module à ajouter permet aussi de convertir le texte en voix (text to speech) au format MP3, et TopOCR accepte la ligne de commande. Je vous laisse découvrir le reste. ;-)

Dans le même style : SimpleOCR (cliquez pour accès direct au billet).

OS: Windows
Langue: Anglais
Licence: Freeware

Page officielle

mercredi 16 août 2006

SimpleOCR

SimpleOCR

SimpleOCR est un outil de reconnaissance de caractères gratuit (et léger), chose rare dans cette catégorie de logiciels. Loin du niveau d'un omnipage, certes, mais performant tout en restant gratuit, ce programme intègre des dictionnaires français et anglais pour la reconnaissance des mots. L'interface du programme - elle - restera en anglais.

Comme tout OCR qui se respecte, il faut bien le paramétrer pour en tirer de bons résultats, d'abord utiliser des textes imprimés (un module de reconnaissance d'écriture manuscrite est en démo pour 14 jours), et éviter de passer par le driver intégré, qui ne m'a pas convaincu. En fournissant au logiciel des images 2 couleurs préalablement scannées et recadrées, la reconnaissance était bien meilleure.


Une fois cette phase de configuration passée, le programme se montre plutôt efficace, et ne bute que sur quelques polices de caractères particulières ou des noms propres. En dehors de quelques espaces en trop, le taux de réussite est très bon. L'interface est austère mais fonctionnelle, le logiciel restant gratuit, il faut y faire quelques concessions esthétiques.

OS: Windows (toutes versions)
Langue: Anglais (interface), anglais, français, hollandais (reconnaissance)
Licence: Freeware

Page officielle

page 4 de 4 -