data_gouv_text
maintainedCe dépôt contient le code pour extraire le texte des fichiers PDF trouvés sur data.gouv.fr. Il permet de récupérer et de traiter le contenu textuel de ces documents, facilitant ainsi leur analyse et leur réutilisation.
Python
MITDocumentationTech Stack
Dépendances
PDFBoxpython-pdfboxTesseractpyocrscikit-learnspaCyStanza
Composants
- Scripts Python
- Dockerfile
- Configuration Nginx
Tags
Métriques
- Stars
- 2
- Forks
- 0
- Open Issues
- 0
- Last Activity
- 4 years ago
Information
- Target Audience
- Professionnels
- Authentication
- none