TEST 15 JOURS

“Ce que Weborama a appris des premiers tests de Topics, la nouvelle API de ciblage sans cookie tiers de Google”

Nicolas Tastevin, chief data scientist de Weborama, partage les premiers enseignements observés par l'entreprise de data marketing après avoir expérimenté Topics, la solution proposée par Google pour cibler un internaute en fonction de ses cinq sujets de visite en ligne préférés, qui succède au ciblage par cohorte (FloC). Quelle est l’utilité et le bien-fondé du ciblage comportemental proposé par l’API Topics de Google ? Quelle est la richesse des informations et des insights recueillis grâce à ce type de ciblage ? Quels sont les atouts et manques de la solution ?

Par Contribution externe. Publié le 12 mai 2022 à 14h46 - Mis à jour le 13 mai 2022 à 17h24

En janvier 2020, Google a présenté sa Privacy Sandbox, dispositif destiné à améliorer la confidentialité offerte à ses utilisateurs, avec pour objectif principal de supprimer les cookies tiers début 2022, initiative finalement repoussée à horizon fin 2023. L’écosystème adtech, qui s’est construit autour de ce modèle depuis des années, se retrouve dès lors en difficulté, Chrome représentant à lui-seul environ 65 % du marché des navigateurs.

Depuis cette annonce, Google cherche à préserver l’activité publicitaire tout en garantissant la confidentialité des données de ses utilisateurs. En 2021, le groupe amércain a développé les FLoC (federated learning of cohorts), qui consistaient à identifier les internautes selon leur “cohorte”, c’est-à-dire un groupe de milliers de personnes partageant des intérêts similaires. Ainsi, le tracking n’était plus individuel, mais réalisé à l’échelle d’un groupe. Mais le fait de classer avec une intelligence artificielle des internautes dans des groupes (en fonction des similitudes de comportement et de recherches), et ce sans que les utilisateurs et les annonceurs ne soient clairement informés sur les finalités, a été rapidement critiqué par les associations de défense de la vie privée : les FLoC faciliteraient en effet les techniques de fingerprinting, visant à identifier de façon unique les utilisateurs selon les spécificités de leur navigateur. Il serait dès lors possible d’exposer des informations sensibles et de cibler des populations via des critères discriminatoires.

Les FLoC ont été finalement abandonnés le 25 janvier 2022. Google a annoncé en parallèle l’arrivée de l’API Topics (“thèmes”), nouvelle technique de traçage publicitaire ayant pour objectif d’améliorer la confidentialité sur le web, tout en préservant l’industrie des technologies publicitaires comportementales.

Privacy sandbox : Google confirme le remplacement de FLoC par Topics

L’API Topics propose de cibler les publicités en recensant toutes les semaines, mais provisoirement, les cinq sujets de visite préférés de l’internaute, parmi une liste comptant actuellement 349 thèmes potentiels (les jeux vidéo, les véhicules automobiles, les vêtements pour femmes, le football…). Ces “préférences”, représentatives des principaux centres d’intérêt des utilisateurs pour une semaine donnée, seront exploitées les trois semaines suivantes. Un acteur tiers sollicitant l’API Topics lors de la visite d’un internaute sur une URL recevra au maximum trois thèmes liés à l’historique de navigation de l’internaute, à condition d’avoir déjà rencontré l’internaute sur un domaine associé à l’un de ces thèmes.

Nous avons voulu, au sein de Weborama, tester l’approche proposée pour anticiper la sortie de l’API et préparer des cas d’usages permettant d’exploiter au maximum ce nouveau cadre. Afin de démarrer ses recherches en amont de toutes sorties tests ou officielles de l’API, l’entreprise a implémenté le concept sur sa propre base de données de navigations web, en suivant les détails fournis par Google.

Pour tester le comportement de l’API Topics, nous avons développé Topics Decoder, une application dédiée permettant de décrypter une combinaison de maximum trois Google Topics, puis d’en faire une data visualisation afin de faciliter la recherche d’insights sémantiques. L’objectif était d’être prêt dès la sortie officielle de Google Topics et d’en tirer le meilleur parti à des fins de performances publicitaires, pour continuer d’élargir le reach et améliorer l’efficacité des campagnes dans un monde sans cookie tiers.

Dans nos expérimentations, nous avons utilisé l’exemple d’un site fictif, Mothernature.org, qui souhaite faire la promotion d’un événement écologique via une campagne digitale. Mothernature.org commencera par cibler les sites à contenu écologique. Mais une interprétation aussi simple pourrait conduire à de faibles volumes et à un public composé uniquement de personnes soucieuses de l’environnement. Mothernature.org doit donc trouver des sujets connexes pour élargir sa cible et attirer l’attention de personnes présentant des modèles de navigation similaires à cette cible.

Google Topics peut aider Mothernature.org à résoudre ce problème de volume en proposant les segments suivants : Science/Écologie & Environnement, Alimentation & Boissons/Cuisine & Recettes/Cuisines/ Végétarien ou encore Cuisine/Cuisine Végétalienne.

Mais le caractère aléatoire de l’API Topics (pour rappel, un Topic est sélectionné parmi les cinq sujets de recherche préférés de l’internaute par semaine) fait courir le risque de volumes toujours inférieurs à ceux obtenus avec un scénario classique basé sur des cookies. En effet, un utilisateur modérément intéressé par l’écologie ne sera pas nécessairement associé à ce segment Topic, qui ne figurera pas forcément dans son top 5.

Par ailleurs, Mothernature.org ne maîtrise pas ces segments Topics. Dès lors, la marque pourrait redouter un manque de précision de cette méthode de ciblage pour répondre aux objectifs de la campagne. C’est dans ce cas précis que l’intelligence artificielle sémantique et les outils de data visualisation interviennent. En explorant le contenu des segments Topics, le potentiel de cette méthode de ciblage est augmenté. Nous avons identifié deux cas d’usage.

Cas d’usage n°1 : du ciblage comportemental au ciblage contextuel

Un Google Topics peut pointer directement vers un inventaire web, c’est-à-dire un ensemble de pages web (URL) qui peut être utilisé pour du ciblage contextuel. La liste d’URLs peut être amplifiée et transformée en inventaire contextuel grâce à l’utilisation de look alike calculés via l’intelligence artificielle sémantique.

D’abord, il s’agira d’identifier les insights sémantiques pour créer des segments contextuels activables. Notre Topics Decoder permet de télécharger l’ensemble des URL concernées par un segment Topics pour lui apporter une valeur ajoutée et élargir le champ d’intérêt des internautes intéressés par le sujet défini en premier lieu. Notre outil sémantique, SunFish, permet, lui, d’explorer un corpus en créant des bulles de mots organisées hiérarchiquement et regroupées par similarité sémantique.

Prenons un exemple d’utilisation de SunFish sur l’encyclopédie Wikipédia autour de l’article “Ecology”

Tous les visuels sont des captures d’écran tirées des outils de Weborama

La vue hiérarchique des bulles de mots peut avoir jusqu’à quatre niveaux de profondeur. Cela signifie qu’une bulle de mots peut avoir “une bulle parent”, une “bulle grand-parent” et une bulle “arrière-grand-parent”. Le mot “feu de forêt” est par exemple inclus dans la bulle “Catastrophes naturelles”, elle-même incluse dans la bulle “Phénomènes”, elle-même incluse dans la bulle “Environnement naturel”.

Vue du deuxième niveau de profondeur de la bulle “Natural Environment” :

Appliquée au site de Mothernature.org, elle alimente l’outil SunFish avec l’ensemble des URL correspondant aux segments Topics souhaités.

Vue de la bulle “Ecology, Vegan” :

On observe du vocabulaire sur la météo, les animaux, les fruits comestibles, le nucléaire, etc. Ces segments peuvent être sélectionnés, affinés et activés pour une campagne contextuelle. D’autres segments, ayant un lien indirect avec le sujet sous-jacent, telles que les sciences sociales, peuvent aussi être explorés. Au fur et à mesure que l’on zoome sur cette bulle, des sous-bulles apparaissent, dont une étiquetée “Garde d’enfants”, qui est elle-même découpée en nouvelles sous-bulles, comme on peut le voir ci-dessous :

Zoom sur la bulle Social Sciences / Family :

On comprend que les internautes inclus dans le segment Topics Écologie/Végétalien visitent des sites sur la parentalité et la vie de famille :

Dans ce cas, Mothernature.org peut créer un ensemble de segments sémantiques précis sur la parentalité et la garde d’enfants pour toucher un public plus large pour sa campagne contextuelle. Le site pourrait également décider d’explorer les Google Topics People & Society/Famille & Relations/Parenting afin de décider d’inclure ou non ces segments dans sa campagne.

Une autre opportunité pour Mothernature.org est d’utiliser les URL obtenues à partir de Google Topics directement comme inventaire publicitaire.

Nous savons que dans certains cas (articles de presse, posts de blogs), le trafic d’une page web est évolutif et qu’une URL bénéficie d’un trafic important sur une courte durée. Cibler un inventaire fixe d’anciennes URL pourrait générer une audience obsolète, ce qui ne serait pas le cas des Google Topics, puisque ceux-ci sont fréquemment rafraîchis.

Cas d’usage n°2 : du ciblage contextuel au ciblage comportemental

L’API Topics peut également enrichir le ciblage comportemental sémantique, grâce à un moteur de recommandation. Traditionnellement, lorsque nous créons une campagne comportementale basée sur des cookies tiers, nous élaborons dans un premier temps une taxonomie de sujets cibles. Nous récupérons alors les données passées et les identifiants des utilisateurs visitant les sites correspondant à la taxonomie définie. Puis, nous activons cette audience. Permettre aux spécialistes du marketing de construire des taxonomies est fondamental. Pour qu’un segment soit à la fois riche en volume et précis, il faut qu’il contienne un maximum de mots spécifiques.

Voici un aperçu du moteur de recommandation utilisé par Weborama pour créer des segments sémantiques : 

En renseignant un mot de départ, le moteur recommande d’autres termes sémantiquement similaires et propose une estimation de la taille de l’audience en temps réel. Dans un monde sans cookie, la collecte des identifiants est impossible. Mais on peut adapter cette stratégie en remplaçant la collection d’ID par une collection de combinaisons de Google Topics.

L’organisation Mothernature.org crée un segment personnalisé de mots représentant le thème Écologie avec le moteur de recommandation. Puis l’outil fournit l’historique de navigation des URLs correspondant à ce segment et collecte les Google Topics renvoyés par l’API sur ces points de contacts.

La combinaison Alimentation & Boissons, Éducation de la petite enfance, Actualités/Météo apparaît en première position et confirme l’exploration précédente des insights de SunFish sur la garde d’enfants.

Quant au thème Écologie & Environnement, il apparaît en cinquième position. On peut se demander pourquoi ce sujet n’appartient pas au top du classement. Le fait est que Google Topics visant à synthétiser la navigation passée des utilisateurs, les sujets sont dérivés des modèles de comportement de navigation. Et la plupart des personnes visitant des URL liées à l’écologie ont d’autres domaines d’intérêt dans la vie. Par exemple, les personnes soucieuses de l’environnement sont surreprésentées parmi les étudiants. Ces derniers cherchent peut-être une solution pour financer leurs études avec un prêt personnel, ce qui pourrait très bien expliquer la présence du sujet Prêts.

De plus, Google Topics a décidé d’attribuer des sujets au niveau du domaine, tandis qu’une visite se produit au niveau de l’URL. Par conséquent, un domaine de site d’informations traitant de plusieurs sujets de société (politique, sport, économie, people, justice, écologie…) ne sera pas nécessairement lié à Écologie & Environnement, même s’il publie une grande quantité d’articles sur cette thématique. Les sites s’intéressant plus particulièrement à ce sujet auront plus de chances d’être référencés sur ce Google Topic. Et donc, dans notre exemple, de nombreuses URL traitant de l’écologie appartiennent à des domaines non-limités à l’écologie.

C’est pourquoi la conversion d’une taxonomie personnalisée en une collection d’ensembles de sujets est essentielle pour atteindre un large public. Limiter l’activation au sujet correspondant Écologie & Environnement reviendrait à ne capter que les personnes visitant fréquemment des sites spécialisés en écologie, des personnes fortement impliquées dans la cause.

Mothernature.org peut alors enfin activer une campagne en ciblant les segments Topics obtenus. L’entreprise a désormais un contrôle total sur la description de leur public, d’une manière plus précise et flexible que de simplement choisir des Google Topics trop larges. De plus, ce processus réciproque permet à Mothernature.org de concevoir des audiences comportementales dans des domaines qui n’existent pas dans la taxonomie Google Topics.

Notre conclusion : des outils complémentaires sont nécessaires 

Les premiers résultats obtenus à la suite de la simulation du comportement de Topics API et l’utilisation de notre Topics Decoder suggèrent que l’API Topics doit être explorée et exploitée par des outils de data visualisation et d’intelligence artificielle sémantique pour améliorer la portée et la pertinence du ciblage. Lorsque Topics API sera officiellement disponible et qu’un volume suffisant de données sera collecté, nous pourrons enfin confronter notre Topics Decoder sur un environnement non plus simulé mais réel.

___

Par Nicolas Tastevin,

Chief data scientist de Weborama

Toutes les ressources liées à cet article
Les sociétés

Besoin d’informations complémentaires ?

Contactez

le service d’études à la demande de mind

À lire

Privacy Sandbox : Google va lancer les tests pour ses API Fledge, Topics et Attribution reporting

Privacy Sandbox sur Android : l'industrie du marketing mobile se veut confiante

Privacy sandbox : Google confirme le remplacement de FLoC par Topics

Dossiers

On vous explique : comment fonctionne l’analyse sémantique pour le ciblage contextuel

Comment Essity utilise les données du groupe Prisma Media pour générer de la considération

Analyses Etudes de cas

Comment Audi France a utilisé Waze pour promouvoir ses véhicules électriques et hybrides

Analyses

Comment Smart veut atteindre 100 millions d'euros de revenus nets en 2022

Etudes de cas

Comment Honda a utilisé un dispositif vidéo immersif sur Dailymotion pour promouvoir ses modèles automobiles hybrides

Décryptages gratuit

Comment Cofidis a expérimenté le ciblage publicitaire sans cookie avec Weborama

Tribunes gratuit

"Les achats contextuels par panels permettent une publicité ciblée respectueuse de la vie privée"

Dossiers

Martech : comment les marques peuvent accélérer sur la collecte et l'usage de données propriétaires

Privacy Sandbox : Google va ouvrir les tests pour Fledge et la deuxième phase de l’API de mesure