ocr-xtract

active

etalab-ia

View on GitHub

OCR-Xtract est un outil qui effectue de la reconnaissance optique de caractères (OCR) et de l'extraction d'informations à partir de documents. Il vise à accélérer le travail des agents de l'État traitant des documents dont les formats ne sont pas directement exploitables numériquement.

Python
MITDocumentation

Features

  • Extraction d'informations
  • Reconnaissance optique de caractères (OCR)
  • Téléchargement de fichiers
  • API d'accès au modèle

Tech Stack

Dépendances

beautifulsoup4dateparserdvcflask-restfulgunicornimutilsmlflowolefilepdf2imagePillowpip-chillpysftppytestpytesseractpython-doctrnumpyscipyscikit-learnscikit-optimizestreamlittensorflowtensorflow-addonswincertstorespacyopencv-pythonPyMuPDFpyclippertorchmatplotlibmplcursorsweasyprintunidecodetqdm

Composants

  • API REST
  • Frontend Streamlit
  • Modèles d'apprentissage automatique
  • Pipeline d'extraction d'informations

Tags

Métriques

Stars
16
Forks
2
Open Issues
6
Last Activity
3 years ago

Information

Target Audience
Agents de l'Administration
Authentication
none
Testing
pytest