Date de mise à jour : 06/08/2009
Lecture et gestion des documents (LAD, RAD, OCR, ICR)
La lecture automatique de documents ou LAD est un ensemble de technologie ayant pour but d’extraire de manière automatisée différentes informations contenues dans un document numérisé, structuré ou non.
Définition et fonctionnement de la LAD
La LAD regroupe trois technologies indispensables à son fonctionnement :
- La RAD : reconnaissance automatique de documents
- L’OCR : reconnaissance optique des caractères avec OCR scanner
- L’IRC : reconnaissance intelligente de caractères
La lecture automatique de documents (LAD) fonctionne généralement sur le schéma suivant :
- Le document à traiter est numérisé à l’aide d’un scanner.
- L’application LAD va alors lancer un module dit RAD ou reconnaissance automatique de documents.
♦ La technologie RAD consiste à reconnaitre le type du document à traiter. Ainsi après avoir analysé la mise en page du document comme l’emplacement d’image, d’encadré, le module RAD la compare à des modèles issus de sa base de données afin de déterminer s’il s’agit d’un devis, d’une facture, une commande ou tout autre document.
- Selon la nature du document, l’utilisateur pourra vouloir y extraire différentes informations. Dès lors l’application LAD lance le module OCR (reconnaissance optique des caractères).
♦ Le principe d’une technologie OCR est de lire le document pour détecter les formes, puis les comparer à des bibliothèques de formes pour en faire correspondre un caractère. Si des erreurs surviennent lors de la reconnaissance d’un caractère, l’OCR compare alors le mot entier au contenu de son dictionnaire intégré pour en déduire l’équivalence la plus proche et ainsi corriger le caractère mal lu. Ainsi le texte pourra alors être segmenté selon l’information recherché.
- Dans le cas d’un document manuscrit, l’application LAD favorisera la technologie ICR (reconnaissance optique de caractères) plutôt que l’OCR.
♦ L'IRC intègre la reconnaissance de caractères manuscrits.
Pour cela, le moteur de l’IRC est équipé d’un mécanisme mémorisant les nouveaux caractères permettant ainsi d’améliorer les performances de reconnaissances lors des lectures suivantes. Ainsi si le moteur ICR arrive difficilement à identifier un "A", il est possible de lui apprendre que c’est bel et bien un "A". Dès lors il pourra reconnaitre les matrices potentielles grâce à sa base de caractère enrichie par l'apprentissage. Ceci peut être fait pour toutes les lettres de l’alphabet, ainsi tous les styles calligraphiques (même les plus maladroits) peuvent être reconnus.
- Enfin toutes les informations ainsi obtenues seront alors soit archivées, soit insérées dans une base de données, soit transmises à un système GED ou GEID.
Ainsi la LAD s’impose comme une technologie incontournable dans la Gestion électronique des documents.
La saisie manuelle peut désormais être contournée. L’information est dés lors moins différée, et automatiquement indexé lors de sa transmission à un système GED. L’information est donc plus structurée et son efficacité optimisée pour l’ensemble des utilisateurs et applications requérantes.
Actualités de la gestion électronique de documents
♦ Guide des bonnes pratiques de l’utilisateur informatique
♦ Une étude sur la Gestion des Processus Documentaires
♦ FAN 2009
♦ SYGED acteur majeur de la gestion documentaire
♦ Lenteur d'accès à l'information
♦ Sin 2009
♦ Salon informatique
♦ Sodiaal sélectionne ReadSoft pour la dématérialisation de ses factures
♦ Messagerie pb smtp