Faites travailler l’IA pour vous, faites-la plancher sur vos dossiers, sur vos documents

Vous utilisez ChatGPT, Gemini ou un autre assistant IA pour rédiger un courriel, résumer un document, expliquer un article en ligne, ou préparer une fiche de révision ? Ils utilisent de grands modèles de langage (LLM) qui sont avant tout des IA « généralistes ». Pour une collaboration plus efficace et plus fiable, il est nécessaire de les cadrer. C’est là qu’intervient le RAG. Je ne vais pas vous faire un cours technique, dont je serais bien incapable, mais vous faire découvrir les implications pratiques au quotidien de cette méthode, que vous soyez particulier ou professionnel.

Si vous ne voulez pas lire tout l’article, retenez que le RAG est la passerelle qui transforme un LLM généraliste – qui sait tout, mais vaguement – en un assistant-expert personnel – qui sait tout de vos documents, avec une précision chirurgicale.

Depuis deux ans, j’ai écrit de nombreux articles sur l’IA dans VVMac. Bien que je ne souhaite pas rédiger des articles par trop « techniques », mais des articles abordables à tous, pratiques et utiles dans l’usage courant du Mac, j’ai immanquablement dû utiliser l’acronyme RAG, sans expliquer autrement qu’en une ou deux phrases.
J’ai reçu plusieurs e-mails à chaque fois, réclamant des éclaircissements. Je pourrais vous renvoyer à Internet où le sujet est, vous vous en doutez, immensément commenté et expliqué… mais c’est le rôle d’un blog comme celui-ci de synthétiser des informations et de les rendre accessibles.

Le RAG (certains disent « la » RAG, puisqu’il s’agit de « génération » et bien d’une méthodologie) mérite toute votre attention ! C’est une approche essentielle, aujourd’hui du moins – on trouvera peut-être mieux demain–, pour s’approprier l’IA au quotidien et collaborer efficacement avec elle.


Le RAG, ce n’est pas juste un acronyme technique pour Retrieval Augmented Generation (Recherche–Récupération pour une Génération enrichie). C’est une méthode clé pour rendre les outils d’IA, accessibles en ligne ou en local sur votre Mac, bien plus précis, factuels et donc vraiment utiles.
Essayons de comprendre de quoi il s’agit, sans entrer dans les mécanismes techniques (lisez tout de même le petit encadré, à la fin de cet article, si vous êtes curieux).

Grâce au RAG, vous « maîtrisez » l’IA… à votre niveau

Vous avez sans doute déjà posé des questions à ChatGPT, à Gemini ou à un autre outil d’IA. Si les réponses sont parfois bluffantes, elles ne le sont parfois pas du tout. L’IA brode, invente, sort des absurdités avec un rare aplomb. 

Les grands modèles d’IA travaillent sur d’immenses corpus de connaissances généralistes qui ont servi à leur entrainement. Une IA comme GPT a été entraînée sur des milliards de pages. Pour répondre à vos questions, elle complète des phrases de façon probabiliste. Elle fait de la prédiction de texte. Cela fonctionne bien… tant que la question porte sur quelque chose qui correspond un tant soit peu à ses données d’origine, et qui est « ordre général ».

En revanche, dès que la question est spécifique, porte sur des données récentes ou bien rares, l’IA ne reconnait presque jamais qu’elle ne peut nous aider ; au contraire, elle improvise, donne une réponse plausible – hélas, souvent erronée.
Pour obtenir des éléments utiles et fiables de l’IA, qui s’inscrivent dans le contexte de ce que vous cherchez à savoir, à analyser… il faut, tout en s’appuyant bien entendu sur son entraînement « primal », contraindre son champ de « réflexion » à des documents, des pages web, des visuels… des sources que vous lui apportez et sur lesquelles vous l’obligez à travailler. Grosso modo, c’est cela, le principe du RAG.

Alors, l’IA va chercher, avant de répondre quoi que ce soit. Elle fouille dans les éléments que vous lui soumettez : les fichiers PDF, les rapports internes, la jurisprudence, des archives, des livres et des manuels, des e-mails, des fiches produits ou de cours, les notes personnelles… tout document apporté dans un format que le RAG est à même de traiter. C’est l’étape du Retrieval ou Recherche-Récupération. C’est sur la base du travail du RAG et bien entendu de sa « compréhension globale », que l’IA va rédiger sa réponse. C’est la phase Augmented Generation ou Génération enrichie.

Des pros aux particuliers, tout le monde bénéfice du RAG !

« L’interface RAG » branche donc une bibliothèque numérique (des dossiers, des PDF, des notes, des tableaux, des images…) à un modèle d’IA (LLM). De plus en plus d’applications de gestion de notes, de documents, mais aussi des assistants et des applications d’IA utilisent un mécanisme de type RAG sans que vous le sachiez.

Le RAG garantit des réponses factuelles et spécifiques au contexte apporté.
L’avocat ou le juriste indépendant ne perdent plus des heures à chercher dans des bases de données de jurisprudence, mais demandent à l’IA de trouver des précédents récents concernant une clause très spécifique. L’application RAG consulte les milliers de pages du cabinet juridique, trouve les cas pertinents et demande à l’IA de synthétiser une réponse citant les sources exactes (chapitre, page, ligne…). Il est possible d’interroger les documents pour en obtenir des résumés, générer des courriels ou rédiger des mémos, sans y perdre des heures.

Le journaliste ou l’auteur de manuel, par exemple, utilisent le RAG pour « scanner » des centaines de PDF d’archives et retrouver en quelques secondes des données intéressantes, exploitables. J’utilise moi-même bien entendu de tels outils dans la phase préparatoire à l’écriture d’articles – quand ils sont relativement conséquents, comme celui-ci, et que j’ai besoin de m’appuyer sur de nombreuses sources que lire me prendrait un temps fou. Avec RAG, je passe ces documents dans Elephas ou dans DEVONThing Pro… et j’entame une « conversation » avec eux.

Le RAG transforme l’IA en un outil de révision pour l’étudiant qui va importer ses cours, ses notes manuscrites numérisées ou des chapitres de manuels dans l’application RAG. Il en demandera la production de fiches de révision claires et structurées, de cartes mémoires, de comparatifs

Et pour un particulier, quel usage et quel bénéfice ? Le RAG est aussi une approche majeure pour tout utilisateur qui importera dans une application RAG des documents personnels, les documentations de tous ses appareils électroniques… et sa collection des PDF de VVMac hebdo – de quoi retrouver très facilement des réponses, si VVMac en a parlé (ça marche aussi avec des liens web, donc avec ceux des articles publiés sur VVMac Le Blog).

Mon application, mon assistant AI fait-il vraiment du RAG ?

On croise nombre d’applications dont les descriptions comportent l’acronyme RAG, mais qui ne prennent pas en compte les fichiers que vous leur apportez. Le RAG est devenu un argument marketing fort, certains en abusent
Si vos documents ne sont jamais cités précisément dans les réponses, c’est que l’IA n’a pas reçu de données d’une interface RAG. J’ai récemment testé un outil – que je m’abstiens de citer pour éviter que ne vous le téléchargiez– qui acceptait mes PDF, mais la réponse finale ne contenait aucune référence et les réponses étaient la plupart du temps vagues, inexploitables – mais pas d’hallucination.
En revanche, si l’application qui accepte vos documents en entrée, cite ou fait référence dans ses réponses à vos fichiers, les adapte au contexte que vous lui fournissez, et peut répondre à des questions introuvables même par une recherche sur Internet, vous avez probablement affaire à une véritable application qui exploite une interface RAG qui analyse vos sources avant de les transmettre à un LLM.
Avec Elephas, par exemple, je glisse quelques PDF dans un brain (ses seconds cerveaux) et j’obtiens toujours – de GPT 4.1, qui est le LLM que j’utilise encore le plus – des réponses circonstanciées, précises, avec des références exactes (repérées dans les documents), ainsi que des synthèses parfaitement exploitables. DEVONThink Pro contient aussi des milliers de documents sur le Mac et macOS que j’ai emmagasinés depuis des années ; sa toute dernière version, avec l’intégration de l’IA, me permet une exploitation similaire.

Utiliser le RAG avec Apple Notes ?

Même si, pour l’instant, Apple ne propose pas cela pour Notes, il est possible de tirer parti du RAG pour exploiter ses notes via des outils qui prennent en charge la base de données d’Apple Notes. C’est le cas d’applications comme Elephas ou encore d’Enconvo dont j’ai déjà parlé dans VVMac, et souvent cité.
Ces outils restent encore rares, car le format d’Apple Notes n’est pas « naturellement » compatible avec les IA.
Ce sera plus simple quand Apple prendra en charge totalement Markdown, non seulement en import et export, mais aussi en édition. Markdown est la langue reine de l’IA – c’est du texte pur dont les mécanismes de préparation des LLM se régalent.
De plus, dans la foulée de la sortie de macOS 26, commencent à apparaître des applications Mac qui tirent parti de modèles locaux d’AI générative d’Apple, enfouis dans les entrailles du système. Certes, ils sont moins performants que les LLM en ligne ou les grands modèles utilisés en local avec Ollama ou une autre interface, mais ils sont très optimisés et n’exigent pas des Mac M4 ou des M5 pour fonctionner. J’ai déjà fait quelques essais (mais pas avec RAG) et les réponses viennent presque aussi rapidement, bien que moins détaillées et pointues qu’avec GPT.

Elephas se connecte très simplement à la base de données d’Apple Notes (chez moi, Sur iCloud). Je lui demande ici de travailler sur le dossier Prompts. Après vectorisation des éléments, je pose ma question, puis GPT 4.1 répond en se basant sur le seul contenu de ce dossier Prompts d’Apple Notes.

Les chatbots « ragent » aussi

Si vous ne souhaitez pas utiliser un assistant IA ou une application RAG dédiée, vous pouvez tout aussi bien ajouter des documents en pièces jointes à une conversation avec ChatGPT, Gemini, Claude, Perplexity… ou avec un autre chatbot. Ces services font aujourd’hui du RAG. Mais notez bien que tout dépend de la source d’information utilisée.
Ces services pratiquent le RAG  « en permanence » et « automatiquement » mais par défaut uniquement à partir de sources publiques. Lorsque vous posez une question d’actualité, les IA vont d’abord effectuer une recherche sur le web puis utiliser les résultats trouvés pour rédiger leur réponse. Il n’y a rien de spécial à faire, c’est le fonctionnement par défaut pour obtenir des informations à jour et citées – comme le fait très bien Perplexity.

Les chatbots – ci-dessus Chat GPT et navigateurs IA (ci-dessous Comet) ont tous désormais une fonction de téléchargement de fichiers que l’on joint à sa requête.

Cependant, ces services sont aussi capables, dans les limites, parfois très étroites, de votre abonnement ou absence d’abonnement, de faire du RAG Utilisateur en se basant sur vos propres documents (contrats, dossiers médicaux, notes diverses…) que vous leur soumettez grâce à leur fonction de téléversement de fichiers, par la création de GPT personnalisés (OpenAI) ou de Gems (Gemini), ou encore de Notebooks (NotebookLM). Claude d’Anthropic excelle également dans l’analyse de gros fichiers de code téléchargés.

Et si l’on parlait confidentialité ?!

Vous avez bien compris qu’au lieu de répondre uniquement que les données issues de son entraînement (et de recherches sur le web), le système RAG+LLM suit un processus essentiel.

Quand vous posez la question « Quels sont les points importants de ces PDF et de ces pages web pour préparer mon prochain séjour à Bangkok ? », le RAG va d’abord explorer les documents et liens fournis pour trouver les éléments pertinents. L’application ou le chatbot ira éventuellement chercher sur Internet des éléments complémentaires si vous l’acceptez. Ces fragments récupérés sont alors injectés dans la requête et l’IA les lit et les synthétise pour formuler une réponse claire. L’IA est connectée à vos sources les plus récentes et les plus pertinentes. 
Ce qui pose éventuellement un problème ? Oui, et non.
La problématique de la confidentialité des sources est légitime, surtout dans des domaines sensibles comme le droit ou la médecine, et pour vos documents personnels intimes. Dans le contexte des systèmes RAG, la gestion de la confidentialité est simplifiée et très rigoureuse. Les solutions RAG sont techniquement conçues pour qu’aucun document en tant que tel ne soit téléversé vers des services externes ni utilisé pour entraîner le modèle d’IA global ni partagé avec d’autres utilisateurs. Des mesures techniques strictes (notamment le chiffrement), des encadrements juridiques précis et des lois (RGPD en Europe) s’appliquent. De fait, à ma connaissance, il n’y a pas eu jusqu’ici de grand scandale RAG !
Le RAG est un traitement beaucoup plus exigeant que la vérification/correction orthographique, la traduction ou la transcription ! Si votre Mac est puissant (Apple Silicon) et richement doté en mémoire (au moins 32 Go), vous pouvez envisager une solution locale exploitant un moteur RAG et un LLM installés sur votre machine (via Ollama ou LM Studio), et une application qui tire parti de cette configuration – Elephas et DEVONThink le font. 


À défaut d’avoir un Mac suffisamment équipé – mon petit MBA M2 avec 16 Go de mémoire est vraiment « juste » –, il faut se tourner vers des solutions en ligne. Pour ma part, j’exploite, via une clé API OpenAI, les LLM GPT, dans les applications citées plus haut. Je tire aussi gratuitement parti de l’excellent service NotebookML de Google. Ce dernier est très performant pour analyser des documents (PDF, Google Docs), mais il est évident que la confiance repose sur les engagements de Google, notamment le fait que vos sources ne sont pas utilisées pour entraîner Gemini. Vous allez peut-être me trouver naïf. Je ne pense pas l’être et, là encore, il n’y a eu aucun scandale NotebookML, solution utilisée par des entreprises de toutes tailles et d’éminents chercheurs en tous domaines.

Préparation d’un éventuel article sur iPadOS 26, sur des sources que j’ai ajoutées
à un carnet de travail dans NotebookML.

J’espère que cet article vous aura apporté des réponses précises et surtout abordables à vos questions sur le RAG, une technologie qui n’est pas souvent mise en avant et qui est, vous l’avez compris, essentielle aux usages actuels de l’IA. C’est la brique qui rend l’IA générative non seulement plus « intelligente » (même si elle ne l’est pas « vraiment »), mais surtout pratique et fiable pour les tâches les plus variées.
Surtout, je souhaite qu’il vous encourage à exploiter cette technologie au quotidien ; les bénéfices sont immenses, tant dans l’optimisation de vos activités que pour… une saine santé mentale.
Dans un prochain article, je vous donnerai quelques pistes pour exploiter vos notes Apple Notes avec Elephas, ou une base documentaire dans DEVONThink Pro. ✿


Testez le RAG en cinq minutes sur votre Mac

Prenez n’importe quel PDF extrait de VVMac hebdo – si vous en avez – ou quelques notes personnelles que vous utilisez souvent – au format .txt, .docx ou .md (Markdown). Ici, j’ai utilisé un extrait des treize pages d’actualité du denier numéro de VVMac hebdo, le 201. Glissez ces éléments dans une application ou un assistant IA, comme ici, Alter (vous pouvez le tester gratuitement).
Une fois que les documents ont été « digérés » (lisez l’encadré technique suivant sur la vectorisation des documents), posez-lui des questions précises sur ce contenu. Analysez les réponses. Si l’IA cite des passages ou reformule exactement ce que contient votre fichier, vous êtes en présence d’un processus RAG.
Ce que fait Alter ; on voit clairement, dans la copie d’écran, que le document PDF
que j’ai apporté est utilisé dans la conversation, et supporte toutes les réponses de GTP 4.1, le LLM utilisé.
Si vous utilisez une autre application et qu‘elle improvise des phrases, plausibles,
mais qui ne correspondent pas aux fichiers, ce n’est pas du RAG
.
Testez avec un fichier simple et court, juste pour vous familiariser avec le fonctionnement. Demandez des détails précis, factuels, contenus dans le document, et repérez ainsi facilement les erreurs, voire les éventuelles hallucinations.
S’il y a des problèmes évidents, débarrassez-vous de l’application, testez-en une autre. Ensuite, vous pourrez explorer des archives plus longues, vos notes de projet ou vos documents de travail.


Comment fonctionne le RAG (en ultra simplifié)

Comment un système RAG s’y prend-il pour fouiller dans un document PDF de 500 pages aussi rapidement ? Le processus comprend plusieurs phases.

La préparation des données (ou indexation) intervient dès que les documents
(PDF, Word, TXT) sont injectés dans l’application qui les découpe en petits morceaux de texte (chunks).
Ensuite, elle utilise une technique appelée embedding pour vectoriser chaque petit morceau, c’est-à-dire les transformer en une représentation numérique (une série de chiffres). Ces vecteurs sont des balises dans un espace mathématique ; elles représentent le sens du texte. Ainsi, deux blocs de texte qui parlent du même sujet, même s’ils utilisent des mots différents, auront des vecteurs très proches. Ces balises sont stockées dans un index spécialisé.
Le système RAG ne soumet jamais l’intégralité de vos documents à l’IA, mais uniquement les passages qui comptent pour répondre à la question.
Quand vous posez une question vient l’étape de la récupération. La question est, elle aussi, vectorisée. La recherche intervient ensuite. Ce n’est pas une recherche par mot-clé classique, mais une recherche par similarité sémantique : l’IA cherche les vecteurs de la base qui sont les plus proches (les plus similaires en sens) des vecteurs de la question.

Dernière étape, la génération optimisée. Efficacité et confidentialité. Le grand modèle de langage utilisé reçoit du RAG la question et les morceaux de texte pertinents, puis il rédige sa réponse en langage naturel, en se basant uniquement sur ces éléments factuels.

D'autres articles du blog à découvrir…

5 7 votes
Évaluation de l'article
S’abonner
Notification pour
9 Commentaires
Commentaires en ligne
Afficher tous les commentaires
Invité
Pascal
17 jours il y a

Bonjour, Suis-je benêt ou quoi? Pourquoi le navigateur Edge et son IA Copilot » ne sont jamais cités dans les articles?
Merci pour cette continuation de AVM. Joli travail.

Invité
Pascal
17 jours il y a
Répondre à  Bernard Le Du

Merci Bernard de cette si longue réponse. Je comprends totalement votre point de vue. Je n’avais pas pensé à cela.
Il est vrai que j’utilise Edge depuis maintenant plusieurs mois, voire années, et je le trouve vraiment efficace et convivial. Je vous renouvelle mes remerciements pour l’excellent travail que vous faites. L’arrêt de AVM m’a beaucoup touché. Cordialement. Pascal

Invité
Laurence
23 jours il y a

Merci pour cet article. J’étais déçue que VVMac disparaisse mais avec ce blog, je suis extrêmement bien « nourrie ». Bravo

Invité
Le Stum
24 jours il y a

Excellente synthèse, et parfaitement accessible… que dire de plus ?

Invité
Patrick
24 jours il y a

Très intéressant cet article sur le RAG. Merci Bernard.
J’ai hâte de connaître la suite avec Elephas ou autre app.

Invité
VanRijsel
28 jours il y a

Bravo et merci pour cet article pointu et pourtant accessible.

Pour ceux qui souhaiteraient découvrir, de façon plus généraliste, l’impact de l’IA générative sur notre quotidien, nos métiers et nos compétences, je signale ce MOOC de FUN (France Université Numérique) par Cécile Dejoux du CNAM

https://www.fun-mooc.fr/fr/cours/lintelligence-artificielle-generative-et-moi/

avec des cas d’usage et interviews dans divers métiers.

Je n’ai aucun lien d’intérêt ou de partenariat avec la plateforme F.U.N. mais c’est tellement génial, facile d’accès et… gratuit, que je remercie B Le Du s’il publie ce commentaire qui en parle.