evalap
activeEvalAP est une plateforme et une API de haut niveau conçues pour effectuer des évaluations pour Etalab. Ce projet fournit une API pour évaluer les modèles de langage (LLM) et une interface pour naviguer dans les ensembles de données, les modèles, les métriques et les expériences.
Python
MITDocumentationFeatures
- Évaluation de modèles de langage (LLM)
- Gestion d'ensembles de données
- Suivi des métriques
- Gestion d'expériences
- Intégration avec Hugging Face
- Support RAG (Retrieval-Augmented Generation)
- Calcul de l'impact environnemental des modèles
Tech Stack
Dépendances
FastAPISQLAlchemyUvicornRequestsPandasPytestStreamlitPlotlyHuggingface-hubDeepevalRagasRapidfuzzElasticsearch
Composants
- API REST (FastAPI)
- Base de données PostgreSQL
- Interface utilisateur (Streamlit, Docusaurus)
- Scripts Python pour l'exécution des évaluations
- Clients pour l'interaction avec les modèles de langage
Tags
Changelog
Changelog : evalap (derniers 30 jours)
Résumé
Ce changelog présente les améliorations apportées à evalap au cours des 30 derniers jours. Les principales évolutions concernent l'export des résultats vers Hugging Face Hub, la gestion du déploiement, la correction de bugs et l'amélioration de la documentation. Des améliorations ont également été apportées à l'interface utilisateur et à la gestion des configurations.
Évolutions fonctionnelles
- Ajout d'une interface utilisateur Streamlit locale pour explorer les résultats des évaluations (restaurée pour le développement local) (#346).
- Possibilité d'exporter les résultats des expériences vers Hugging Face Hub, avec gestion des collections et des noms de dépôt (#346, #347).
- Ajout d'un script pour exporter les résultats vers Hugging Face Hub, incluant la gestion des erreurs et la création de README (#346).
- Ajout d'une redirection FastAPI vers la documentation de l'API pour une meilleure accessibilité (#348).
- Amélioration de la documentation avec des liens markdown et des instructions claires pour l'installation et l'utilisation (#348).
Évolutions techniques
- Implémentation d'un déploiement conditionnel basé sur la variable d'environnement
DEPLOYMENT_ENABLED(#347). - Suppression de Streamlit de la configuration de production (supervisord.conf et compose.yml) pour optimiser le déploiement.
- Correction de la capture des PIDs dans les scripts
run_evalap.shetpray.shpour une meilleure gestion des processus. - Ajout de la bibliothèque
tabulatepour améliorer le rendu des tableaux Pandas en Markdown. - Refactorisation du script d'export vers Hugging Face pour une meilleure organisation des dépôts et des fichiers.
- Ajout de logique de nouvelle tentative pour les uploads vers Hugging Face afin d'éviter les erreurs de timeout.
Autres changements
- Mise à jour de la documentation pour refléter les changements d'interface utilisateur et de configuration.
- Synchronisation des versions des dépendances avec
uv.lock. - Correction de liens markdown dans la documentation.
- Amélioration de la lisibilité de la documentation.
Métriques
- Stars
- 20
- Forks
- 6
- Open Issues
- 16
- Last Activity
- 3 weeks ago
Information
- Target Audience
- Professionnels
- Authentication
- none
- Testing
- Pytest
- CI/CD
- build_and_deploy.yml, pr_checks.yml