Nicolas Dabène

TL;DR

La plupart des utilisateurs cherchent à réduire leurs coûts IA en changeant de modèle : GPT ou Claude, Pro ou API, plus ou moins de contexte.

Mais dans beaucoup de cas, le vrai levier n’est pas là.

Le problème n’est pas le modèle.

C’est ce qu’on lui envoie.

PDF, DOCX, PowerPoint, captures d’écran ou images ont été conçus pour des humains, pas pour des modèles de langage.

Résultat : ils consomment plus de tokens, dégradent le contexte, augmentent les coûts… et parfois réduisent la qualité des réponses.

Et si la vraie optimisation consistait simplement à mieux préparer les données en amont ?

🚨 Le coût invisible dont personne ne parle

Quand on envoie un document à un LLM, il ne “lit” pas un fichier comme un humain.

Il doit d’abord reconstruire une représentation exploitable :

comprendre la structure du texte
détecter les titres et sections
identifier les tableaux
reconstituer l’ordre de lecture
ignorer les éléments décoratifs

Autrement dit, une partie non négligeable des tokens est consommée avant même d’atteindre l’information utile.

Ce n’est pas du traitement de contenu.

C’est du déchiffrage de format.

📄 Le cas particulier du PDF : optimisé pour l’impression, pas pour l’IA

Le PDF reste le format le plus répandu pour partager de l’information.

Mais sa logique est fondamentalement visuelle : il décrit des positions sur une page, pas une structure sémantique.

Pour un humain, c’est parfait.

Pour un LLM, c’est une contrainte supplémentaire.

Avant même d’analyser le contenu, il doit : reconstruire la lecture, interpréter les colonnes, recoller les blocs, deviner la hiérarchie.

Une partie du budget contextuel sert donc à reconstruire ce que le format a détruit.

📝 DOCX : mieux… mais encore loin d’être optimal

Le DOCX semble plus “propre” à première vue.

Mais derrière un document Word se cache une structure complexe :

XML interne
styles et métadonnées
couches de mise en forme
informations de présentation

Tout cela n’apporte presque rien à la compréhension métier du contenu.

Le résultat est intermédiaire : moins mauvais que le PDF, mais encore loin d’un format pensé pour l’IA.

🖼️ Images et scans : le pire scénario possible

Dès qu’on passe par une image, on ajoute une couche supplémentaire de friction.

Le modèle doit :

détecter le texte (OCR)
identifier les zones importantes
reconstruire la structure logique
interpréter le sens sans structure explicite

On ne lui demande plus seulement de comprendre un contenu.

On lui demande de reconstruire un document à partir d’un signal visuel.

C’est coûteux, fragile, et souvent imprécis.

📊 Tous les formats ne transmettent pas la même valeur

Format	Signal utile	Bruit structurel	Efficacité LLM
Markdown	Très élevé	Faible	Excellent
TXT	Élevé	Très faible	Excellent
DOCX	Moyen	Moyen	Correct
PDF natif	Moyen	Élevé	Faible
PDF scanné	Faible	Très élevé	Très faible
Image	Faible	Extrême	Inefficace

Le principe est simple :

plus le format est proche d’un texte structuré, plus le modèle peut se concentrer sur l’essentiel.

💰 Le faux débat sur le choix des modèles

Une grande partie des discussions tourne autour de :

quel modèle est le moins cher
quel abonnement est le plus performant
quel contexte est le plus large

Ces questions sont légitimes.

Mais elles arrivent souvent trop tard.

Avant d’optimiser le modèle, il faut optimiser les données.

Réduire le coût d’un modèle de 30 % est intéressant.

Réduire de 30 à 50 % les tokens inutiles envoyés à chaque requête est souvent beaucoup plus impactant.

Et surtout : cela améliore la qualité des réponses.

🚀 Le vrai changement : préparer les données pour l’IA

Depuis peu, une nouvelle approche émerge : au lieu d’améliorer uniquement les modèles, on améliore la représentation des documents.

C’est exactement l’idée portée par DocLang :

https://github.com/doclang-project/doclang

Le constat est simple : aucun format classique n’a été conçu pour les LLM.

PDF → impression
DOCX → édition
HTML → affichage

Mais aucun n’est optimisé pour la compréhension machine.

DocLang propose donc une couche intermédiaire pensée pour l’IA.

Une représentation qui conserve :

la structure
la hiérarchie
les relations entre sections
les tableaux et métadonnées utiles

Tout en supprimant le bruit lié à la mise en page.

Résultat :

moins de tokens
plus de signal utile
meilleure compréhension
pipelines RAG plus efficaces

🎯 Ce que change vraiment 2026

On a longtemps optimisé : les infrastructures, puis les modèles.

La prochaine étape est plus discrète, mais plus décisive :
les données.

Dans la majorité des projets IA, le goulot d’étranglement n’est pas le modèle.

C’est la qualité de ce qui lui est envoyé.

Avant de chercher un modèle plus puissant :

simplifier les prompts
repenser les workflows
transformer les documents en formats exploitables

Parce que dans beaucoup de cas, la meilleure optimisation n’est pas de changer de moteur.

C’est de retirer le bruit en amont.

Pourquoi vous ne devriez presque jamais envoyer un PDF, un DOCX ou une image à ChatGPT ou Claude

TL;DR

🚨 Le coût invisible dont personne ne parle

📄 Le cas particulier du PDF : optimisé pour l’impression, pas pour l’IA

📝 DOCX : mieux… mais encore loin d’être optimal

🖼️ Images et scans : le pire scénario possible

📊 Tous les formats ne transmettent pas la même valeur

💰 Le faux débat sur le choix des modèles

🚀 Le vrai changement : préparer les données pour l’IA

🎯 Ce que change vraiment 2026

Suivre ce blog

Suivez mes analyses IA et e-commerce

A lire ensuite

Comparaison des Méthodologies de Développement par IA : BMAD vs. Ralph

🚀 PHP 8.5 : La révolution silencieuse qui transforme votre code