?
← Bibliothèque
🟣 Meta

Meta

2 catégories de ressources

Llama

guidedébutant

Llama 3 : guide de démarrage

Télécharger, configurer et faire tourner Llama 3 en local ou sur le cloud.

Llamainstallationdémarrage
guideavancé

Fine-tuning Llama avec QLoRA

Fine-tuner Llama sur vos données avec QLoRA pour un coût GPU minimal.

Llamafine-tuningQLoRA
guideintermédiaire

Déployer Llama sur AWS/GCP/Azure

Comparatif et guides de déploiement Llama sur les trois grands clouds.

Llamadéploiementcloud
skillavancé

Quantization : GGUF, GPTQ, AWQ

Comprendre et appliquer les techniques de quantization pour réduire les besoins GPU.

Llamaquantizationoptimisation
toolintermédiaire

Llama Guard : filtrage de contenu open source

Implémenter Llama Guard pour la modération de contenu dans vos applications.

Llamasécuritémodération
cheatsheetdébutant

Benchmark Llama vs modèles propriétaires

Tests comparatifs sur des tâches francophones : résumé, code, raisonnement.

Llamabenchmarkfrancophone

Open Source Stack

guideavancé

vLLM : servir des modèles à haute performance

Configurer vLLM pour de l'inférence rapide avec PagedAttention et batching continu.

vLLMinférenceperformance
guidedébutant

Ollama : LLMs en local en 3 commandes

Installer et utiliser Ollama pour exécuter des modèles localement sans configuration.

Ollamalocaldémarrage
templateavancé

Architecture de déploiement local

Concevoir une stack complète pour de l'inférence locale : hardware, software, monitoring.

localarchitecturehardware
tooldébutant

Open WebUI : interface ChatGPT-like pour vos modèles

Déployer une interface web pour interagir avec vos modèles locaux.

Open-WebUIinterfacelocal
cheatsheetintermédiaire

Comparatif des frameworks d'inférence

vLLM vs TGI vs llama.cpp vs Ollama : performances, features, cas d'usage.

inférencecomparaisonframeworks