Nicolas Dabene
Retour au blog
27 juin 2026 Nicolas Dabène — Développeur Full Stack & Orchestrateur IA chez Profileo 4 min

Pourquoi vous ne devriez presque jamais envoyer un PDF, un DOCX ou une image à ChatGPT ou Claude

TL;DR

Intelligence artificielle Agents IA API Automatisation LLM & modeles
Pourquoi vous ne devriez presque jamais envoyer un PDF, un DOCX ou une image à ChatGPT ou Claude

TL;DR

La plupart des utilisateurs cherchent à réduire leurs coûts IA en changeant de modèle : GPT ou Claude, Pro ou API, plus ou moins de contexte.

Mais dans beaucoup de cas, le vrai levier n’est pas là.

Le problème n’est pas le modèle.

C’est ce qu’on lui envoie.

PDF, DOCX, PowerPoint, captures d’écran ou images ont été conçus pour des humains, pas pour des modèles de langage.

Résultat : ils consomment plus de tokens, dégradent le contexte, augmentent les coûts… et parfois réduisent la qualité des réponses.

Et si la vraie optimisation consistait simplement à mieux préparer les données en amont ?


🚨 Le coût invisible dont personne ne parle

Quand on envoie un document à un LLM, il ne “lit” pas un fichier comme un humain.

Il doit d’abord reconstruire une représentation exploitable :

  • comprendre la structure du texte
  • détecter les titres et sections
  • identifier les tableaux
  • reconstituer l’ordre de lecture
  • ignorer les éléments décoratifs

Autrement dit, une partie non négligeable des tokens est consommée avant même d’atteindre l’information utile.

Ce n’est pas du traitement de contenu.

C’est du déchiffrage de format.


📄 Le cas particulier du PDF : optimisé pour l’impression, pas pour l’IA

Le PDF reste le format le plus répandu pour partager de l’information.

Mais sa logique est fondamentalement visuelle : il décrit des positions sur une page, pas une structure sémantique.

Pour un humain, c’est parfait.

Pour un LLM, c’est une contrainte supplémentaire.

Avant même d’analyser le contenu, il doit : reconstruire la lecture, interpréter les colonnes, recoller les blocs, deviner la hiérarchie.

Une partie du budget contextuel sert donc à reconstruire ce que le format a détruit.


📝 DOCX : mieux… mais encore loin d’être optimal

Le DOCX semble plus “propre” à première vue.

Mais derrière un document Word se cache une structure complexe :

  • XML interne
  • styles et métadonnées
  • couches de mise en forme
  • informations de présentation

Tout cela n’apporte presque rien à la compréhension métier du contenu.

Le résultat est intermédiaire : moins mauvais que le PDF, mais encore loin d’un format pensé pour l’IA.


🖼️ Images et scans : le pire scénario possible

Dès qu’on passe par une image, on ajoute une couche supplémentaire de friction.

Le modèle doit :

  • détecter le texte (OCR)
  • identifier les zones importantes
  • reconstruire la structure logique
  • interpréter le sens sans structure explicite

On ne lui demande plus seulement de comprendre un contenu.

On lui demande de reconstruire un document à partir d’un signal visuel.

C’est coûteux, fragile, et souvent imprécis.


📊 Tous les formats ne transmettent pas la même valeur

Format Signal utile Bruit structurel Efficacité LLM
Markdown Très élevé Faible Excellent
TXT Élevé Très faible Excellent
DOCX Moyen Moyen Correct
PDF natif Moyen Élevé Faible
PDF scanné Faible Très élevé Très faible
Image Faible Extrême Inefficace

Le principe est simple :

plus le format est proche d’un texte structuré, plus le modèle peut se concentrer sur l’essentiel.


💰 Le faux débat sur le choix des modèles

Une grande partie des discussions tourne autour de :

  • quel modèle est le moins cher
  • quel abonnement est le plus performant
  • quel contexte est le plus large

Ces questions sont légitimes.

Mais elles arrivent souvent trop tard.

Avant d’optimiser le modèle, il faut optimiser les données.

Réduire le coût d’un modèle de 30 % est intéressant.

Réduire de 30 à 50 % les tokens inutiles envoyés à chaque requête est souvent beaucoup plus impactant.

Et surtout : cela améliore la qualité des réponses.


🚀 Le vrai changement : préparer les données pour l’IA

Depuis peu, une nouvelle approche émerge : au lieu d’améliorer uniquement les modèles, on améliore la représentation des documents.

C’est exactement l’idée portée par DocLang :

https://github.com/doclang-project/doclang

Le constat est simple : aucun format classique n’a été conçu pour les LLM.

  • PDF → impression
  • DOCX → édition
  • HTML → affichage

Mais aucun n’est optimisé pour la compréhension machine.

DocLang propose donc une couche intermédiaire pensée pour l’IA.

Une représentation qui conserve :

  • la structure
  • la hiérarchie
  • les relations entre sections
  • les tableaux et métadonnées utiles

Tout en supprimant le bruit lié à la mise en page.

Résultat :

  • moins de tokens
  • plus de signal utile
  • meilleure compréhension
  • pipelines RAG plus efficaces

🎯 Ce que change vraiment 2026

On a longtemps optimisé : les infrastructures, puis les modèles.

La prochaine étape est plus discrète, mais plus décisive :
les données.

Dans la majorité des projets IA, le goulot d’étranglement n’est pas le modèle.

C’est la qualité de ce qui lui est envoyé.

Avant de chercher un modèle plus puissant :

  • simplifier les prompts
  • repenser les workflows
  • transformer les documents en formats exploitables

Parce que dans beaucoup de cas, la meilleure optimisation n’est pas de changer de moteur.

C’est de retirer le bruit en amont.

Nicolas Dabène

Auteur

Nicolas Dabène

Développeur Full Stack & Orchestrateur IA chez Profileo

Développeur PHP/Laravel senior avec plus de 12 ans d'expérience en e-commerce. Spécialisé en architecture PrestaShop, agents IA et automatisation.

RSS

Suivre ce blog

Abonnez-vous au flux RSS pour ne manquer aucun article.

LinkedIn

Suivez mes analyses IA et e-commerce

Je partage des retours terrain sur les agents IA, PrestaShop, MCP et l automatisation pour les equipes e-commerce.

Me suivre sur LinkedIn