programme10pourcent-socratext

active

etalab

View on GitHub

Ce projet vise à co-construire des solutions d'OCR, d'extraction d'informations et de compréhension de documents administratifs pour répondre aux besoins des administrations.

Python
MITDocumentation

Features

  • OCR (Reconnaissance Optique de Caractères)
  • Extraction d'informations
  • Structuration de données
  • Entraînement de modèles LayoutLMv2

Tech Stack

Dépendances

streamlitpython-dotenvocrmypdfpdfminer.sixPillowpytorch_lightningtransformersalbumentationsmlflowopencv-pythonmatplotlib

Composants

  • Frontend Streamlit
  • Pipeline d'entraînement de modèles
  • Scripts de prétraitement d'images
  • Modules d'extraction d'informations

Tags

Métriques

Stars
10
Forks
1
Open Issues
1
Last Activity
2 years ago

Information

Target Audience
Agents de l'Administration
Authentication
none