lilian ed1e645236 | пре 1 година | |
---|---|---|
OCR_model | пре 1 година | |
bin | пре 1 година | |
README.md | пре 1 година | |
main.py | пре 1 година |
March 2023
Only available in french - developped as root application for La Gemme organisation.
Runs on Python3 with Linux (developped on Python3.8, should run with older versions and on Windows) Needs Scipy, Matplotlib, Numpy, TensorFlow libraries.
Extrayez le dossier dans un répertoire dédié - elle fonctionne sans installation particulière, mis à part les librairies. Il s'appuie sur une analyse d'un modèle pré-enregistré pour extratire des données.
C'est un logiciel terminal, l'interface graphique est inexistante.
Lancez le logiciel avec python3 main.py, vous amenant vers un menu.
Pour extraire des données, il faut d'abord se baser sur un modèle, qu'il faut construire (menu 2). Pour ce faire:
Vous pouvez modifier le modèle (pas encore implémenté)
Une fois le modèle utilisable et complet, enregistré, vous pouvez analyser les images PNG scannées, pléalablement placées dans le dossier “scanned” du logiciel. Sélectionnez le menu 1 et le formulaire correspondant (la détection autonmatique ou par type de document n'est pas encore implémentée). La détection est automatique sur tous les champs, et vise à extraire les données manuscrites pour chaque champ, pour chaque image scannée. (non encore codé -> ) Une fois les données extraites, une vérification visuelle est nécessaire avec une comparaison entre la fraction de l'image extraite contenant les données, et la transcription. La reconnaissance étant faite grâce à un corpus en anglais, sans caractères spéciaux comme le “@” et sans accents, il y aura nécessairement quelques erreurs. Une fois les transcriptions corrigées, et pour chaque fichier, on pourra les enregistrer dans un fichier, afin de les intégrer à une autre base de données par exemple.
Le traitement du signal est assez basique, la reconnaissance de caractère est basée sur un projet sur GitHub, SimpleHTR, à cette adresse : https://github.com/githubharald/SimpleHTR. Ce projet a été modifié pour être incorporé dans le projet, et intervient plus comme un module plutôt qu'une intégration propre.