par benouville » 31 Mar 2009 20:37
ok maintenant je vous explique juste comment moi, je vient juste de travailler en ocr pour recuperer le texte de 3 pages, avec l'utilitaire de machin bourique du multimilliardiare!
oui certe je vous l'ai expliquer, comme le programme est intégrer dans la suite.
il faut disposer de la suite bureautique.
mais c'est vraiment enfentin avec cette utilitaire.
donc:
j'ai tout d'abord convertit les images gif dans le format TIFF. (le format tiff appartient au format standard, donc on n'a pas besoin d'utiliser des logiciel specifique pour faire la conversion du format, c'est identique avec le format gif, mais vue que l'utilitaire veux soit du tiff ou un autre format, et que le tiff, en terme de qualité il n'y aucun reproche a faire), j'ai donc convertit dans le format tiff mes 3 premier images format pages A4.
petite astuce lorsque le texte dans les images est écrit avec des petit caractère, (ben il n'y a pas trop le choix) du fait que si les caractères sont trop rapprochés des uns des autres, c'est ici, que l'identification des caractère faira défaut!
1)Donc il vaut mieux agrandir l'image dès le départ, pour que les caractères soit plus lissible par le logiciel (donc plus d'espace entre les différents caractères) sinon le logiciel interprètera cela en tant que caractère se raprochant le plus près du celui ci. (exemple 1 "m" pour lui pourras donné 2 caractère tel R+N comme ici: "rn ")
2) identiquement comme pour l'image en elle même, si vous voullez avoir le format de page identique au texte d'origine, ben il vaut mieux sélectionner paragraphe par paragraphe, que de transvaser toute la page.
et là aussi, il vaut mieux selectionner une plus zone, que de sélectionner uniquement la zone au raz du texte, sinon il y'a risque que le caractère soit coupé, et là toute la ligne de texte, contiendra des caractères non identifier.
(Donc moi là, j'ai sélectionner toujours la ligne d'avant+ la ligne d'après, et il me suffisait juste de faire un "CTRL+C- cliquer dans word et CTRL+V) pour que le transfere de ma sélection se fasse, même pas besoin de travailler plus avec la souris, ou de devoir enregistrer le texte convertit en format .doc etc..., donc çà oui je peut vous assurer que celà vaux 1 premier alleluja!
3) ben après chaque paragraphe de texte ocr transferrer dans word, j'ai de suite rectifier les mauvais caractère, et j'avoue, devoir corriger 2 voirs 3 caractères voir 2 à 3 mots dans un paragraphe, avec les outils de correction automatique que dispose le logiciel de traitement de texte, ben c'est vite fait, à raison que les mots figure dans le dictionaire du logiciel de traitement de texte.
et là en moins de quoi, 10 minutes j'avais reconstituer 3 pages de textes en langues allemande.
contenant aussi bien les "ß" les "ä" que les autres caractères qui sont spécifiques à la langue allemande.
et là moi il me suffit juste encore, comme ces paragraphes vont allez dans mon forum, ben je vais pour le faire en vitesse, utiliser les outils de traductions automatiques, du web, et après encore controler les phrases traduite, avant de le mettre dans le forum anglais.
bien sur le contrôle de la traduction, vas me prendre un temps plus grand, mais au moins j'ai l'avantage,d'être de nature trilingue, donc qui m'épargnera de simplement mettre un texte dans un forum qui est issue d'un traducteur automatique, du fait que les traducteurs automatiques, il effectue la traduction mot à mot.
donc du petit chinois, autant pour du russe vers la langue anglaise, comme de l'anglais vers le francais ou n'importe quel autre langue traduite.
Et là c'est le rôle de l'utilisateur qui entre en jeu, ou plutôt sa vision logique de la comprehension du sens des phrases traduites.
voilà!