• Open Garden
  • Posts
  • Sous le capot : comment ChatGPT crawle un site média (et comment ce dernier peut s'y opposer)

Sous le capot : comment ChatGPT crawle un site média (et comment ce dernier peut s'y opposer)

Les actions d’éditeurs se multiplient contre OpenAI, que ce soit au Danemark, aux États-Unis ou même en France. Le reproche est clair : ChatGPT viole le droit d’auteur en “aspirant” leur contenu pour entraîner ses modèles. 

Mais comment ce dernier s’y prend-t-il concrètement ? C’est la question que s’est posée Paul Ripart, directeur commercial programmatique de Prisma Media Solutions, dans ce nouvel épisode de “Sous le Capot”. 

Paul vous explique, démo à l’appui, comment ChatGPT utilise des robots — ce qu’on appelle des crawlers — pour parcourir le web et récupérer le contenu publié par les éditeurs. Parfois avec leur accord, parfois à leur insu.

Alors, comment savoir si un éditeur accepte ou refuse d’être crawlé par OpenAI ?

La réponse est dans un petit fichier très simple : le fichier robots.txt. Il suffit de taper l’URL d’un site, par exemple lefigaro.fr/robots.txt.

Ce fichier va lister les robots autorisés (allow) et ceux qui sont interdits (disallow). Si rien n’est précisé… on part du principe que “qui ne dit mot consent”.

Maintenant, intéressons-nous spécifiquement à ChatGPT. En réalité, OpenAI utilise trois robots différents, nous explique Paul Ripart.

GPTBot : le crawler d’entraînement, celui qui collecte du contenu pour alimenter les modèles.

ChatGPT-User et OpenAI-SearchBot : deux robots qui servent plutôt aux recherches temps réel, par exemple si vous demandez “qui est en tête de la Ligue 1 aujourd’hui ?”.

Voyons maintenant, ce que ça donne côté éditeurs :

Le Figaro refuse explicitement GPTBot et ChatGPTUser. Autrement dit, ni d’entraînement, ni de recherche en temps réel sur ses contenus.

Capital adopte une approche plus souple. Ils interdisent GPTBot (pas de collecte pour l’entraînement), mais ils autorisent les deux robots de recherche web. Résultat : ChatGPT peut aller chercher de l’info d’actu sur Capital, mais sans la stocker pour nourrir ses modèles.

Numerama ouvre, à l’inverse, complètement la porte. Les trois bots — GPTBot, ChatGPTUser et OpenAI-SearchBot — sont autorisés.

En résumé : chaque éditeur choisit sa politique. Certains ferment totalement la porte à OpenAI, d’autres laissent passer uniquement pour la recherche, et quelques-uns acceptent tout, y compris l’entraînement des modèles.

C’est ce que permet ce fichier robots.txt, utilisé aussi bien par Google, Bing ou d’autres moteurs. En quelques lignes de code, un éditeur décide s’il veut “nourrir” l’IA… ou lui fermer la porte.