Cloudflare propose un nouvel outil aux créateurs

En ligne :

Rechercher

Nouveaux produits

Cloudflare propose un nouvel outil aux créateurs

Publication: 25 septembre

Partagez sur

Afin de leur permettre de contrôler l’utilisation de leur contenu..

Cloudflare, Inc. (NYSE : NET), le leader dans le domaine du cloud de connectivité, présente son dernier outil permettant d’aider les éditeurs et les propriétaires de sites web à bénéficier d’un degré de contrôle supérieur sur leur contenu. La solution Cloudflare permettra à tous les propriétaires de sites web de mettre à jour plus facilement leur fichier robots.txt, un simple fichier texte indiquant à quelles parties d’un site les robots d’indexation peuvent ou non accéder, grâce à une nouvelle politique régissant les signaux de contenu (Content Signals Policy). Cette nouvelle politique permettra aux exploitants de sites web d’exprimer leurs préférences concernant la manière dont leurs données sont utilisées par d’autres, notamment grâce à la possibilité de refuser l’exploration et l’inférence de l’IA.

L’Internet passe du modèle des « moteurs de recherche », qui compilaient un ensemble de liens sur lesquels un utilisateur pouvait cliquer pour accéder aux informations recherchées, au modèle des « moteurs de réponse » soutenus par IA, qui proposent une réponse directe aux utilisateurs sans que ces derniers n’aient jamais besoin de cliquer sur le contenu du site originel. Cette situation fait peser une grave menace sur le modèle économique initial d’Internet, dans lequel les sites web, les éditeurs et les créateurs de contenu pouvaient gagner de l’argent ou se faire connaître en générant du trafic et de la visibilité vers leurs sites. Les robots d’exploration IA extraient aujourd’hui d’immenses volumes de données des sites web, mais les exploitants de sites n’ont aucun moyen d’exprimer les nuances qu’ils souhaitent apporter concernant le fait d’autoriser l’utilisation de leur contenu, la manière dont ce dernier est utilisé et la finalité de cette utilisation. Les fichiers robots.txt permettent aux exploitants de sites web de définir les robots d’indexation qui sont autorisés à se connecter au site et les parties de ce dernier auxquelles ils peuvent accéder. Il ne mentionne toutefois pas les actions que le robot d’exploration est autorisé à effectuer avec le contenu après y avoir eu accès. L’Internet doit disposer d’un moyen standard et lisible par la machine de signaler de quelle manière les données peuvent être utilisées, même après l’accès à ces dernières.

« Internet ne peut attendre qu’une solution soit trouvée pendant que le contenu original des créateurs est utilisé à des fins lucratives par d’autres entreprises », précise Matthew Prince, cofondateur et CEO de Cloudflare. « Afin de garantir l’existence continue d’un Internet ouvert et florissant, nous proposons aux propriétaires de sites un meilleur moyen d’exprimer de quelle manière les entreprises sont autorisées à utiliser leur contenu. Le fichier robots.txt est une ressource sous-utilisée que nous pouvons contribuer à renforcer afin de bien faire comprendre aux entreprises de développement d’IA qu’elles ne pourront désormais plus ignorer les préférences définies par un créateur de contenu. »

Qu’il s’agisse d’un organisme de presse local, d’une start-up de développement d’IA ou d’une boutique d’e-commerce, Cloudflare estime que l’exploitant d’un site web, d’une API, d’un serveur MCP ou de n’importe quel autre service connecté à Internet doit pouvoir décider de la manière dont ses données sont utilisées à des fins commerciales par les autres acteurs. À l’heure actuelle, plus de 3,8 millions de domaines utilisent le service géré robots.txt proposé par Cloudflare pour indiquer qu’ils ne souhaitent pas que leur contenu soit utilisé à des fins d’entraînement des modèles. La nouvelle politique sur les signaux de contenu lancée par Cloudflare permettra désormais aux utilisateurs de renforcer les préférences conservées dans leur fichier robots.txt grâce à un ensemble d’instructions claires définies à l’intention de toutes les entités qui accèdent à un site web par des moyens automatisés, comme un robot d’exploration IA. La politique informera désormais les robots d’exploration :
en leur expliquant de quelle manière interpréter les signaux de contenu en termes simples. « Oui » signifie ainsi que l’accès est autorisé, tandis que le paramètre « Non » implique une absence d’autorisation (l’absence de signal défini indique qu’aucune préférence n’a été exprimée à ce sujet) ;
en définissant les différentes manières dont un robot d’exploration utilise généralement le contenu en termes clairs, notamment la recherche, la saisie d’informations et l’entraînement de l’IA ;
en rappelant aux entreprises que les préférences des exploitants de sites web contenues dans les fichiers robots.txt peuvent avoir une incidence sur le plan juridique.

Si les fichiers robots.txt ne peuvent empêcher l’extraction indésirable, l’objectif poursuivi par Cloudflare réside dans le fait que l’amélioration de ce langage de politique puisse mieux communiquer les préférences d’un propriétaire de site aux opérateurs de bots et pousse les entreprises à respecter davantage les préférences définies par les créateurs de contenu.

À compter d’aujourd’hui, Cloudflare mettra automatiquement à jour les fichiers robots.txt afin d’inclure ce nouveau langage de politique pour tous les clients qui demandent à Cloudflare de gérer ce fichier en leur nom. Cloudflare va également publier des outils pour aider toutes les structures qui souhaitent déclarer de quelle manière les robots d’exploration peuvent utiliser leur contenu par l’intermédiaire d’un fichier robots.txt personnalisé.

Les entreprises ont constaté le besoin de solutions telles que la politique sur les signaux de contenu afin de mieux orienter la manière dont leur contenu est utilisé :

- News/Media Alliance : « Nous nous réjouissons de la mise à disposition par Cloudflare d’un nouvel outil puissant (et désormais accessible à l’ensemble des utilisateurs) conçu pour permettre aux éditeurs de déterminer la manière et l’endroit où leur contenu est utilisé. Il s’agit d’une étape importante dans la démarche qui permettra aux éditeurs de toutes tailles de reprendre le contrôle de leur contenu, tout en s’assurant qu’ils puissent continuer à financer la création des contenus de qualité attendus par les utilisateurs. Nous espérons que cette approche encouragera les entreprises du secteur de la technologie à respecter les préférences définies par les créateurs de contenus. Cloudflare montre ainsi que mettre en place ce qui est juste s’avère non seulement possible, mais qu’il s’agit également d’une bonne logique commerciale. » — Danielle Coffey, présidente et CEO de la News/Media Alliance

Quora : « Nous saluons l’équipe de Cloudflare et soutenons ses efforts visant à développer des mesures de contrôle et des protocoles conçus pour aider les éditeurs à gérer la manière dont les utilisateurs d’Internet et les bots accèdent à leur contenu. » — Ricky Arai\\-Lopez, Head of Product, Quora.

Reddit : « Les plateformes qui renforcent les communautés et leur permettent de communiquer se doivent d’être durables pour qu’Internet demeure un lieu d’interactions humaines authentiques. Nous soutenons les initiatives qui plaident en faveur de signaux clairs visant à protéger Internet contre les abus et l’utilisation abusive du contenu. » — Chris Slowe, CTO de Reddit

RSL Collective : « Nous sommes heureux de nous associer à Cloudflare dans le cadre du lancement de sa politique sur les signaux de contenu [Cloudflare Content Signals Policy]. Cette avancée essentielle permettra aux éditeurs de faire valoir leurs droits et de définir clairement la manière dont les entreprises peuvent utiliser leur contenu. Développée en coopération avec les principaux éditeurs d’Internet, la norme ouverte RSL est conçue pour compléter le protocole Content Signals en permettant non seulement aux propriétaires de contenus de protéger leurs droits, mais également de définir des clauses de licence et de rémunération lisibles par la machine pour ces scénarios d’utilisation. Ensemble, RSL Collective et Cloudflare poursuivent une vision commune : celle d’un Internet ouvert et durable, au sein duquel les éditeurs et les créateurs prospèrent et sont équitablement rémunérés par les entreprises de développement d’IA. » — Eckart Walther, cofondateur du RSL Collective

Stack Overflow : « La nature d’Internet et l’accord implicite existant avec les éditeurs de contenu ont évolué très rapidement ces deux dernières années. Forte de son vaste corpus d’environ 70 milliards de jetons de données, Stack Overflow est fière de s’associer aux principaux laboratoires d’IA et fournisseurs de cloud sur le plan de l’octroi de licences d’utilisation des données. Nous applaudissons Cloudflare pour le rôle central que l’entreprise a joué en donnant aux créateurs de contenu tous les outils nécessaires afin de bâtir un système évolutif pour Internet dans cette nouvelle ère axée autour de l’IA. » — Prashanth Chandrasekar, CEO de Stack Overflow