TL;DR
La plupart des utilisateurs cherchent à réduire leurs coûts IA en changeant de modèle : GPT ou Claude, Pro ou API, plus ou moins de contexte.
Mais dans beaucoup de cas, le vrai levier n’est pas là.
Le problème n’est pas le modèle.
C’est ce qu’on lui envoie.
PDF, DOCX, PowerPoint, captures d’écran ou images ont été conçus pour des humains, pas pour des modèles de langage.
Résultat : ils consomment plus de tokens, dégradent le contexte, augmentent les coûts… et parfois réduisent la qualité des réponses.
Et si la vraie optimisation consistait simplement à mieux préparer les données en amont ?
🚨 Le coût invisible dont personne ne parle
Quand on envoie un document à un LLM, il ne “lit” pas un fichier comme un humain.
Il doit d’abord reconstruire une représentation exploitable :
- comprendre la structure du texte
- détecter les titres et sections
- identifier les tableaux
- reconstituer l’ordre de lecture
- ignorer les éléments décoratifs
Autrement dit, une partie non négligeable des tokens est consommée avant même d’atteindre l’information utile.
Ce n’est pas du traitement de contenu.
C’est du déchiffrage de format.
📄 Le cas particulier du PDF : optimisé pour l’impression, pas pour l’IA
Le PDF reste le format le plus répandu pour partager de l’information.
Mais sa logique est fondamentalement visuelle : il décrit des positions sur une page, pas une structure sémantique.
Pour un humain, c’est parfait.
Pour un LLM, c’est une contrainte supplémentaire.
Avant même d’analyser le contenu, il doit : reconstruire la lecture, interpréter les colonnes, recoller les blocs, deviner la hiérarchie.
Une partie du budget contextuel sert donc à reconstruire ce que le format a détruit.
📝 DOCX : mieux… mais encore loin d’être optimal
Le DOCX semble plus “propre” à première vue.
Mais derrière un document Word se cache une structure complexe :
- XML interne
- styles et métadonnées
- couches de mise en forme
- informations de présentation
Tout cela n’apporte presque rien à la compréhension métier du contenu.
Le résultat est intermédiaire : moins mauvais que le PDF, mais encore loin d’un format pensé pour l’IA.
🖼️ Images et scans : le pire scénario possible
Dès qu’on passe par une image, on ajoute une couche supplémentaire de friction.
Le modèle doit :
- détecter le texte (OCR)
- identifier les zones importantes
- reconstruire la structure logique
- interpréter le sens sans structure explicite
On ne lui demande plus seulement de comprendre un contenu.
On lui demande de reconstruire un document à partir d’un signal visuel.
C’est coûteux, fragile, et souvent imprécis.
📊 Tous les formats ne transmettent pas la même valeur
| Format | Signal utile | Bruit structurel | Efficacité LLM |
|---|---|---|---|
| Markdown | Très élevé | Faible | Excellent |
| TXT | Élevé | Très faible | Excellent |
| DOCX | Moyen | Moyen | Correct |
| PDF natif | Moyen | Élevé | Faible |
| PDF scanné | Faible | Très élevé | Très faible |
| Image | Faible | Extrême | Inefficace |
Le principe est simple :
plus le format est proche d’un texte structuré, plus le modèle peut se concentrer sur l’essentiel.
💰 Le faux débat sur le choix des modèles
Une grande partie des discussions tourne autour de :
- quel modèle est le moins cher
- quel abonnement est le plus performant
- quel contexte est le plus large
Ces questions sont légitimes.
Mais elles arrivent souvent trop tard.
Avant d’optimiser le modèle, il faut optimiser les données.
Réduire le coût d’un modèle de 30 % est intéressant.
Réduire de 30 à 50 % les tokens inutiles envoyés à chaque requête est souvent beaucoup plus impactant.
Et surtout : cela améliore la qualité des réponses.
🚀 Le vrai changement : préparer les données pour l’IA
Depuis peu, une nouvelle approche émerge : au lieu d’améliorer uniquement les modèles, on améliore la représentation des documents.
C’est exactement l’idée portée par DocLang :
https://github.com/doclang-project/doclang
Le constat est simple : aucun format classique n’a été conçu pour les LLM.
- PDF → impression
- DOCX → édition
- HTML → affichage
Mais aucun n’est optimisé pour la compréhension machine.
DocLang propose donc une couche intermédiaire pensée pour l’IA.
Une représentation qui conserve :
- la structure
- la hiérarchie
- les relations entre sections
- les tableaux et métadonnées utiles
Tout en supprimant le bruit lié à la mise en page.
Résultat :
- moins de tokens
- plus de signal utile
- meilleure compréhension
- pipelines RAG plus efficaces
🎯 Ce que change vraiment 2026
On a longtemps optimisé : les infrastructures, puis les modèles.
La prochaine étape est plus discrète, mais plus décisive :
les données.
Dans la majorité des projets IA, le goulot d’étranglement n’est pas le modèle.
C’est la qualité de ce qui lui est envoyé.
Avant de chercher un modèle plus puissant :
- simplifier les prompts
- repenser les workflows
- transformer les documents en formats exploitables
Parce que dans beaucoup de cas, la meilleure optimisation n’est pas de changer de moteur.
C’est de retirer le bruit en amont.