• Open Garden
  • Posts
  • Ces sites IA qui transforment Google Discover en machine à cash

Ces sites IA qui transforment Google Discover en machine à cash

“Cela fait près de 9 mois que Google Discover est envahi par des sites IA, qui produisent un volume d’articles délirant - une quinzaine par minute - et ne s’encombrent pas de déontologie journalistique en enchaînant les titres trompeurs et les fausses informations.”

Le directeur du marketing et du business development de Prisma Media, Julian Marco, ne mâche pas ses mots au moment de dénoncer ces sites qui concurrencent les médias historiques sur Discover, ce flux de contenus personnalisé proposé par Google sur mobile (via l’application Google ou la page d’accueil Chrome/Android).

“En ce moment c’est beautycase.fr, il y a quelques semaines, c’était mika-conduite.fr ou labottegapinseria.fr”, énumère Julian Marco. Le dernier top 50 de DiscoverSnoop, plateforme spécialisée dans les analytics Discover, met en lumière 5 sites susceptibles d’appartenir à cette catégorie. 

En 10e place, on retrouve effectivement le site beautycase.fr, dont 343 articles ont été repris sur la période du mois d’août avec une position moyenne de 8 (meilleur score de ce classement). Plus loin dans le classement, on retrouve adcf.org, sasu-manso.fr, amios.fr ou encore decontair-67.fr. Des sites qui ont plusieurs dénominateurs communs : 

  • un nom de domaine plutôt farfelu pour un site de news

  • des mentions légales assez pauvres (voire inexistantes)

  • pas de CMP (consent management platform) ou une CMP de façade (c’est-à-dire qu’elle ne prend pas en compte votre choix)

  • des publicités pas très qualitatives et des contenus au ton racoleur, dont certains ont été signalés comme trompeurs par la presse généraliste et RSF

  • le recours à l’IA générative pour bombarder Google Discover en contenus, avec certains sites qui atteignent plusieurs centaines de publications par jour

Leurs noms de domaine trahissent leur ancienne vie et, avec elle, la stratégie de leurs géniteurs, qui rachètent des sites qui ont une petite autorité auprès de Google, pour les transformer en site de news. 

beautycase.fr a été jusqu’à décembre 2024 (voir la capture) un site e-commerce dédié à la beauté, adcf.org, le site vitrine d’une interpro du commerce (on voit d’ailleurs encore quelques vestiges sur le site actuel), et decontair-67.fr, celui d’un spécialiste du désamiantage basé dans le 67, qui a visiblement abandonné ce nom de domaine pour aller sur decontair.fr. 

“Tous ces sites tirent parti d'une faille dans les algorithmes de Discover, qui accorde sa confiance aux nouveaux domaines s'ils affichent des indicateurs de performance clés comme des taux de clics élevés, analyse Scott McNeal, head of marketing de DiscoverSnoop. Après quelques jours, leur fiabilité est recalculée et ils sont généralement éliminés.”

Les plus chanceux ont une durée de vie de quelques semaines, pas plus, le temps de se faire repérer et déréférencer de Discover. Pas un problème pour leurs propriétaires qui ont pris le temps, en parallèle, de préparer leurs successeurs. 

En avril, vous êtes peut-être tombé sur les publications de laplasturgie.fr et de gre-mag.fr, en mai, sur celles de Sfsd.fr, Farmitoo.com, mnei.com. En juin, dbl-constructions et en juillet, le site mika-conduite.fr, avec 553 articles repris en à peine… 11 jours selon DiscoverSnoop. 

Leur ligne éditoriale fait beaucoup penser à celle des sites arbitrageurs dont je vous parlais en octobre 2022, avec des articles qu’ils n’hésitent pas à recycler au gré des semaines, à l’image de cette anecdote (qui est sans doute fausse) concernant un propriétaire qui a laissé son Tesla Cybertruck branché dans son garage, publiée le 8 août et, à nouveau, le 16 août, par beautycase.fr.

Un cocktail explosif qui, à force de spams et de titres clickbaits, leur permet d’avoir une visibilité maximale au sein de Google Discover (dont l’algorithme favorise l’engagement et la personnalisation pour le lecteur). 

Une différence de taille toutefois avec les sites MFA évoqués plus haut : la pression publicitaire. Il faut être beau joueur, elle est, de fait, bien moins élevée que chez ces sites voire même que chez la plupart des sites traditionnels (où le contenu édito peut être masqué par des publicités). 

C’est sans doute plus par pragmatisme que par bonté d’âme, puisque les set-up publicitaires de ces acteurs sont très minimalistes. La plupart sont branchés à Google AdSense, le réseau de monétisation de la longue traîne de Google, et à MGID, un spécialiste de la publicité native US, dont le positionnement est un peu similaire à celui d’Outbrain et Taboola. 

Ce sont les deux seules plateformes branchées en direct (on retrouve quelques gros SSP en reseller de Google sur les fichiers ads.txt, comme celui de beautycase mais il est impossible d’affirmer s’ils y font du business pour autant). Et cela vient donc confirmer une récente étude de Bcovery, publiée sur Open Garden, qui observait que les sites MFA pullulaient surtout chez Google

Les performances de ces sites restent, en matière de visibilité, très mauvaises, puisque selon des données communiquées par IAS, la visibilité de leurs emplacements publicitaires oscille entre 35 et 45% contre plutôt 70% chez un média classique.

Le set-up publicitaire est donc minimaliste mais c’est, selon nos informations, largement suffisant pour générer des revenus significatifs lorsque le site atteint une forte visibilité sur Discover.

Un site comme beautycase peut, avec un trafic estimé à 14,77 millions de visites sur le mois d’août selon SimilarWeb, facilement tabler sur près de 100 000 euros de revenus publicitaires mensuels, selon un patron de régie. “On parle de revenus compris entre 1 et 2 millions d’euros si l’on met bout à bout tous les sites de ce genre qui sont apparus sur Google Discover depuis un peu moins d’un an”, complète un autre. 

Autant de revenus qui échappent aux médias historiques, concurrencés par ces acteurs opportunistes de l’écosystème Discover. Car même si, à part Temu, qui bastonne en programmatique et se préoccupe sans doute peu des problématiques de “brand suitability”, on ne retrouve pas de grandes marques sur ces sites, la cannibalisation de trafic (qui aurait pu être monétisé auprès de ces grandes marques) est, elle, bien réelle.

Sont particulièrement concernés les sites de la galaxie Prisma Media et Reworld Media dont le trafic a, selon nos informations, beaucoup souffert de la pratique.

“Aujourd’hui, les trois quarts des emplacements de Discover sont dévolus à des sites d’actualité généraliste et de la PQR (ce que confirme le classement de DiscoverSnoop, ndlr). Les sites de la catégorie “divertissement” et “vie pratique” se battant pour les 25% restant et ce sont à ces 25% que ces sites montés de toutes pièces s’attaquent directement”, analyse Julian Marco. 

Alors bien sûr, Discover n’est pas une rente due à tel ou tel éditeur. Et c’est plutôt une bonne nouvelle, au contraire, que la plateforme ne soit pas réservée aux seuls puissants. Le problème, c’est que cette ouverture ne vient pas avec le travail de modération qui s’impose…  et que le phénomène ne fait qu’empirer. 

Le site Next, qui a créé une extension de navigateur pour démasquer les sites Gen AI, a dénombré près de 7 500 sites de ce genre sur le Web. Ils étaient déjà un peu plus de 1000 dans l’enquête de référence que le site a publiée, début février. Il y a donc déjà 7 mois.

Un laps de temps largement suffisant pour permettre, a priori, d’éradiquer le phénomène. Sans succès si l’on en croit un article publié par Jean-Marc Manach de Next qui, en passant par un autre crawler que DiscoverSnoop, assure que 18% des sites médias et 33% des sites tech repris par Discover appartiennent à cette catégorie.

Google, qui conteste la pertinence de ces chiffres, au motif que l’outil en question n’est pas connecté aux données propriétaires de Discover, assure faire le nécessaire. “Nos systèmes antispam luttent contre la production de masse de contenus de faible qualité, et assurent ainsi l’exclusion de la majorité de ces contenus de Discover. Ces mêmes systèmes permettent de proposer des résultats de recherche à 99% sans spam”, explique un porte-parole de l’entreprise. 

Alors pourquoi ? Pourquoi Google n’arrive-t-il pas à y remédier. D’abord parce qu’il manque de ressources, comme le rappelle l’experte SEO, fondatrice de Largow, Virginie Clève. “Il ne faut pas oublier qu’on parle d’une entreprise qui a licencié à tour de bras dans les équipes gérant Google Actualités.”

Une entreprise qui s’appuie d’ailleurs, selon nos informations, beaucoup sur les médias historiques, qui sont incités à lui remonter les URL des coupables (sans que les dénonciations soient toutefois systématiquement suivies de sanctions). 

Une entreprise qui, mise devant le fait accompli à l’occasion d’une matinée organisée par le Geste, a aussi un peu botté en touche en répondant que “ce n’était pas à Google de décider ce qui est un bon site ou pas”, comme nous l’a rapporté un des participants.

“Une entreprise qui se trouve, par ailleurs, dans une position ambivalente. Bien sûr que ces sites polluent l’expérience utilisateur, avec leurs articles à faible valeur ajoutée et réceptacles à “fake news”. Les utilisateurs s’en plaignent d’ailleurs sur les forums dédiés de Google ou sur Trustpilot.

Pour autant, ils alimentent aussi les caisses de Google puisque la plupart sont, comme vous l’avez vu plus haut, monétisés via Google AdSense. Google AdSense, dont le règlement interdit pourtant explicitement la diffusion d’informations trompeuses et d’allégations douteuses / dangereuses. 

Une solution serait de réserver Google Discover à une liste de sites qui ont montré patte blanche. “A l’image de Google News où il est aujourd’hui très difficile d’entrer”, explique Virginie Clève. A priori pas la direction que compte prendre Google puisqu’il a récemment annoncé qu’il allait ouvrir Discover aux contenus issus d’Instagram, Youtube et X (ce qui devrait, au passage, dégrader encore plus la part de voix des éditeurs historiques).

Reste une question : qui se cache derrière ces sites made in Gen AI ?

Sans surprise, rares sont ceux qui affichent des mentions légales pour communiquer sur l’identité de leur géniteur. Celles de beautycase.fr renvoient, tout comme celles de menumobile.fr, vers une l’entité “Adopt Ads Agency FZ-LLC”, basée dans un co-working aux Emirats-Arabes Unis et introuvable sur LinkedIn. Chou blanc donc. Aslan Berliner fait, comme la pizzeriacomblaville, mention d’une entreprise basée au Portugal, Zoom Vagabundo LDA. Et ça s’arrête encore là…

Si on regarde du côté de newsofmarseille (qui précise d’ailleurs que certains de ses contenus sont générés par IA), c’est plus simple puisqu’il y est fait mention d’Exp4, une agence spécialisée dans le netlinking (qui profite donc sans doute de son audience) pour monétiser ses services.

Un autre site, qui joue le jeu des mentions légales, est le site Famitoo, qui désigne un certain Julien Jimenez comme son responsable de la publication, via son entreprise MLJ SAS spécialisée dans “la création et l'hébergement de sites Internet”, dont les statuts ont été déposés en octobre 2024. 

Julien Jimenez, connu dans l’écosystème SEO français pour avoir dirigé l’agence Korleon’Biz jusqu’à sa liquidation en 2023, apparaît à plusieurs reprises dans les données publiques consultées au cours de cette enquête.

Car pour en savoir plus sur les autres, et en l’absence de mentions légales, il a fallu ruser. En l'occurrence, profiter de l’effort de transparence mis en place par le marché de la publicité digitale pour remonter à la source via le fichier ads.txt (accessible en accolant le suffixe ads.txt à l’URL d’un site).

Pour rappel, ce fichier référence tous les partenaires de monétisation d’un site qui vend de la publicité. Sa présence n’est pas obligatoire, mais elle aide à montrer patte blanche, ce qui explique sa popularité… même chez les sites IA. Les deux-tiers de la quinzaine de sites que j’ai analysés en disposaient d’un.

L’étude de ce fichier est précieuse pour savoir 1° qui se cache derrière certains de ces sites 2° lesquels de ces sites partagent un même compte Google. Pour le premier point, il suffit de prendre le pub ID Google mentionné par le publisher dans son fichier ads.txt et de le rechercher dans le sellers.json de Google (un fichier qui référence, lui, tous les partenaires éditeurs de Google).

Prenons le fichier ads.txt de decontair-67.fr, qui nous permet d’apprendre que le site travaille en direct avec Google sous l’ID “pub-5213964137908562”. Une simple recherche sur cette suite de nombre au sein du fichier sellers.json de Google nous permet d’apprendre que le nom de la société associée au site est… Korleon’Biz. 

Le nom de cette société ressort également, selon notre analyse, dans le fichier ads.txt du couteauduviaur.fr.

A noter que le site domainstats, qui semble crawler les fichiers ads.txt de certains sites, dénombre 11 sites supplémentaires sous cet ID “pub-5213964137908562”. Des sites qui n’ont pas forcément percé sur Discover, mais qui sont au diapason en matière de news.

Quand on fait correspondre l’ads.txt d’aslanberliner.fr avec le sellers.json de MGid, c’est le nom d’une autre société qui apparait  : Digital Marketing L2 Web SL. Cette société a racheté à… Korleon’Biz deux de ses sites Internet, tekpolis.fr et breakingnews.fr, en 2021 selon des informations publiées par le JDN. Le nom de Digital Marketing L2 Web SL est également mentionné comme éditeur du site de la pizzeriacomblaville dans la présentation de l’équipe.

L’identifiant reseller Google utilisé sur aslanberliner.fr est également présent dans les ads.txt de beautycase.fr et sfsd.fr, tandis que celui de farmitoo.fr, qui mentionnait Julien Jimenez dans ses mentions légales, est le même que celui de dbl-constructions.fr.

Nos vérifications sur les fichiers ads.txt et sellers.json montrent donc que 7 des 15 sites étudiés partagent un même identifiant Google AdSense et/ou MarketGid, ce qui suggère une proximité technique ou organisationnelle entre eux. Autre constat : le nom de Julien Jimenez ou celui de sociétés qui lui sont liées d’une manière ou d’une autre (Korleon’Biz et Digital Marketing L2 Web SL), revient à plusieurs reprises dans l’écosystème de ces sites.

Il ne nous sera pas possible d’en savoir plus puisque, contacté dans le cadre de cette enquête, Julien Jimenez n’a pas répondu à nos sollicitations. Il serait, toujours selon Next.Ink, derrière la moitié des 27 sites générés par IA qui ont été recommandés par Discover au moins 4 fois, début septembre.

A noter, enfin, que la France n’est pas un cas isolé puisqu’à en croire Scott McNeal, “dans des pays comme la République Tchèque ce type de faux sites est souvent exploité par des trolls russes.” Si les motivations ne semblent pas toujours économiques, les conséquences sur la qualité de l’information et la fiabilité des sources restent préoccupantes.

Le phénomène semble, par ailleurs, avoir traversé la Manche puisque Jean-Marc Manach rappelle que “trois sites IA émergeaient dans le dernier top 50 de DiscoverSnoop au Royaume-Uni.” L’expert observe, par ailleurs, que certains Français commencent à exporter leurs pratiques à l’étranger, où la concurrence des sites IA est beaucoup moins forte. “200 des 7500 sites que nous avons analysés sont en langue étrangère, dont 150 en langue anglaise”, chiffre le journaliste.

Les Etats-Unis constituent, à ce titre, un nouvel eldorado. Les Etats-Unis qui ont déjà eu affaire à un phénomène de ce genre, par le passé, si l’on en croit cette publication d’une spécialiste US du SEO, Lily Ray, qui détaille comment des petits malins ont réussi à s’accaparer le format “Web story”, très populaire outre-Atlantique, au sein de Google Discover… jusqu’à ce que Google se décide à siffler la fin de la récréation