llm-inference-server
activeCe projet fournit un serveur d'inférence pour les modèles de langage (LLM). Il permet de déployer et d'interroger des modèles hébergés sur Hugging Face ou S3. Il facilite l'utilisation de LLM pour diverses applications.
Python
DocumentationFeatures
- Inférence de modèles de langage
- Support de Hugging Face
- Support de S3
- API REST
Tech Stack
Dépendances
PoetryTransformersTorchAccelerateBoto3FastAPIUvicornRequestsTqdmPytest
Composants
- Serveur d'inférence FastAPI
- Gestionnaire de modèles
- Clients S3 et Hugging Face
- Scripts de test
Tags
Métriques
- Stars
- 0
- Forks
- 1
- Open Issues
- 2
- Last Activity
- 11 months ago
Information
- Target Audience
- Professionnels
- Authentication
- none
- Testing
- Pytest
- CI/CD
- docker-build-push.yml