llm-inference-server

active

SocialGouv

View on GitHub

Ce projet fournit un serveur d'inférence pour les modèles de langage (LLM). Il permet de déployer et d'interroger des modèles hébergés sur Hugging Face ou S3. Il facilite l'utilisation de LLM pour diverses applications.

Python
Documentation

Features

  • Inférence de modèles de langage
  • Support de Hugging Face
  • Support de S3
  • API REST

Tech Stack

Dépendances

PoetryTransformersTorchAccelerateBoto3FastAPIUvicornRequestsTqdmPytest

Composants

  • Serveur d'inférence FastAPI
  • Gestionnaire de modèles
  • Clients S3 et Hugging Face
  • Scripts de test

Tags

Métriques

Stars
0
Forks
1
Open Issues
2
Last Activity
11 months ago

Information

Target Audience
Professionnels
Authentication
none
Testing
Pytest
CI/CD
docker-build-push.yml