GitScan

Dépôts publics

llm-inference-server

active

Ce projet fournit un serveur d'inférence pour les modèles de langage (LLM). Il permet de déployer et d'interroger des modèles hébergés sur Hugging Face ou S3. Il facilite l'utilisation de LLM pour diverses applications.

Python

Documentation

Features

Inférence de modèles de langage
Support de Hugging Face
Support de S3
API REST

Tech Stack

Dépendances

PoetryTransformersTorchAccelerateBoto3FastAPIUvicornRequestsTqdmPytest

Composants

Serveur d'inférence FastAPI
Gestionnaire de modèles
Clients S3 et Hugging Face
Scripts de test

Tags

LLM Inference Hugging Face S3 FastAPI Python

Métriques

Stars: 0
Forks: 1
Open Issues: 2
Last Activity: 11 months ago

Information

Target Audience: Professionnels
Authentication: none
Testing: Pytest
CI/CD: docker-build-push.yml