Question 1

Quelle est la différence entre RAG et fine-tuning ?

Accepted Answer

Le RAG connecte le LLM à des données externes au moment de la requête — vos données sont toujours à jour. Le fine-tuning modifie les poids du modèle à l'entraînement — les données sont figées dans le modèle. Le RAG est préférable dans 90% des cas : plus rapide, moins cher, données toujours fraîches. Le fine-tuning sert à adapter le comportement du modèle (ton, format, style de raisonnement), pas pour injecter des connaissances.

Question 2

Combien de temps prend le déploiement d'un RAG en production ?

Accepted Answer

Un RAG simple (une source, un cas d'usage) : 3 à 6 semaines de la conception au déploiement. Un RAG multi-sources avec évaluation, reranking et monitoring : 8 à 16 semaines. Les projets qui dérapent sous-estiment toujours la phase d'évaluation et les itérations sur le chunking.

Question 3

Quelle base vectorielle choisir pour commencer ?

Accepted Answer

pgvector si vous êtes déjà sur PostgreSQL et que le volume prévisible est inférieur à 1 million de vecteurs. C'est la solution la plus simple : zéro infrastructure supplémentaire. Migrez vers Qdrant ou Pinecone si vous atteignez les limites de performance. Ne sur-ingéniérez pas dès le départ.

Question 4

Comment évaluer la qualité d'un système RAG ?

Accepted Answer

Le framework RAGAS est le standard. Il mesure automatiquement la faithfulness (pas d'hallucination), l'answer relevancy (la réponse répond à la question) et le context recall (les bons documents sont retrouvés). Complétez avec du feedback humain sur un échantillon de requêtes réelles toutes les deux semaines.

Question 5

Un RAG peut-il halluciner malgré tout ?

Accepted Answer

Oui, dans trois cas : (1) le retriever ne retrouve pas les bons documents (la réponse est hors sujet), (2) le LLM extrapole au-delà de ce que disent les documents, (3) les documents source contiennent des informations contradictoires. Les guardrails (citer les sources, refuser de répondre si le contexte est insuffisant) réduisent ces cas mais ne les éliminent pas à 100%.

RAG en production : guide pour les équipes techniques

Le chunking : la décision la plus critique du RAG

Chunking fixe

Chunking par sections

Chunking sémantique

Chunking avec overlap

Choisir sa base vectorielle

pgvector

Pinecone

Qdrant

Weaviate

Retrieval : au-delà de la recherche vectorielle simple

Recherche vectorielle (dense retrieval)

BM25 (sparse retrieval)

Hybrid search

Reranking

Évaluer son RAG avec RAGAS

Aller plus loin

Questions fréquentes

Quelle est la différence entre RAG et fine-tuning ?

Combien de temps prend le déploiement d'un RAG en production ?

Quelle base vectorielle choisir pour commencer ?

Comment évaluer la qualité d'un système RAG ?

Un RAG peut-il halluciner malgré tout ?

Vous déployez un RAG en production ?