Du moteur de recherche à la lutte contre la fraude, comment Cdiscount innove grâce à la data
Interview de François Marical, directeur datascience, transformation et innovation pour Cdiscount
100 millions de références, 8 000 catégories, 23 millions de visiteurs uniques par mois… Avec autant de volume, comment rendre son site e-commerce et son offre facilement navigables? Comment faire pour que les clients ne se perdent pas et que les vendeurs marketplace parviennent à valoriser leurs produits? C’est le pari que relève le géant français du e-commerce Cdiscount, notamment grâce au traitement de la data. Amélioration du moteur de recherche interne grâce à un travail sur la sémantique, optimisation du parcours client, lutte contre la fraude au paiement en quatre fois, ne sont que quelques exemples des domaines où l’entreprise utilise la data pour innover.
Ce sujet touche aussi aux ressources humaines. Grâce à une organisation où data scientists et opérationnels travaillent main dans la main par thématique: paiement, client & marketing, produit… Cdiscount a réussi à infuser une culture data au sein de toute l’entreprise. Tous les détails avec François Marical, directeur datascience, transformation et innovation pour Cdiscount.
Quand on parle de data et d’innovation dans l’e-commerce, de quoi s’agit-il exactement?
Si on y réfléchit, un site e-commerce, ce n’est finalement qu’un magasin. Mais avec quand même certaines spécificités comme sa taille, son volume. C’est comme si un magasin avait 100 millions de références, 10 millions de clients par an, et 23 millions de visiteurs uniques par mois, comme c’est le cas pour Cdiscount.
Cdiscount est un magasin infini que nous devons gérer comme un petit magasin.
Finalement, nous essayons de reproduire avec des algorithmes ce que ferait un petit commerçant dans sa boutique. Par exemple, comment je réponds à un client quand il entre dans le magasin? Il a une recherche précise, il faut que je lui réponde de façon pertinente parmi une offre infinie.
De l’autre côté, la question va être de savoir comment je range les produits et organise mon magasin? C’est la même chose pour un site, qui dispose en plus d’une offre extrêmement variée. Nous avons environ 8 000 catégories de produits. Beaucoup de ce que nous faisons autour de la data innovation sert à rendre ce magasin virtuel le plus adapté possible au client.
Le sujet concerne aussi les vendeurs marketplace qui proposent leurs produits chez nous. Il faut faire en sorte que cela se passe bien également pour eux. Il s’agit ainsi de tout un ensemble de services qui doivent imiter un magasin standard, avec la différence que le nôtre est virtuel et quasi infini. Ce passage à l’échelle nécessite de la data et de l’innovation.
Justement, quelle est la vision de Cdiscount sur la data et l’innovation?
Le plus simple est de repartir de la façon dont nous avons constitué cette démarche. Cela s’est fait petit à petit. Nous avons commencé par le côté très e-commerce. Le moteur de recherche a été la première entrée dans les sujets data chez Cdiscount.
Nous avons 2 milliards de requêtes par an dans notre moteur de recherche.
Nous avions 1 milliard -et cela est monté à 2 milliards aujourd’hui- de requêtes par an dans notre moteur de recherche. La question était de savoir comment adresser efficacement ces personnes et leurs demandes. C’est là qu’on voit la force de la data. Comme nous sommes un magasin digital, nous avons l’historique des personnes qui sont passées chez nous et qui ont cherché quelque chose. Nous savons ce qui les a intéressées. Nous avons une masse d’informations qui est colossale et incomparable par rapport à un réseau physique.
Notre algorithme de recherche se comporte comme un vendeur. Il se dit: «le dernier client qui m’a demandé un canapé, voilà ce qui lui a plu. Celui qui m’a demandé une machine à laver, voilà ce qui lui a plu, etc.». C’est plus sophistiqué que cela, mais ce que nous lui demandons est de fournir les meilleures réponses aux clients.
Aujourd’hui nous travaillons sur une vingtaine de sujets. Le but est de s’étendre progressivement sur l’ensemble du parcours client.
Il y a aussi la vision qui concerne les opérationnels de Cdiscount. Un exemple est la catégorisation des produits. Là, le sujet est de savoir comment nous pouvons faciliter cette catégorisation pour qu’ils n’aient pas des millions de produits à traiter à la main.
Nous accompagnons aussi les vendeurs marketplace pour les aider sur la partie marketing et pour qu’ils puissent être capables de pousser certains de leurs produits sur le site. Il y a tout un spectre, ce n’est pas uniquement le client qui nous intéresse. Aujourd’hui, nous avons des sujets data qui couvrent tout ces aspects.
A quoi ressemble l’écosystème de la data au sein de l’entreprise?
Nous avons une approche très opérationnelle. Le risque qu’il y a sur les sujets data est d’avoir une entité à part qui les traite seule et qui propose des solutions trop éloignées des problématiques concrètes de l’entreprise.
Nous, nous avons éclaté nos data scientists partout dans l’entreprise. Ils sont regroupés par équipe thématique et travaillent main dans la main avec les équipes métiers et IT. Ainsi, nous avons par exemple une équipe data dédiée au merchandising. Une autre, plutôt tournée vers les produits, travaille sur les sujets qui concernent le catalogue. Il y a également celle qui est consacrée au client et qui collabore avec les équipes client et marketing. On peut aussi citer l’équipe « paiement » pour les sujets comme le paiement en plusieurs fois, la fraude, etc., et qui travaille avec d’autres métiers. Et je peux en citer encore beaucoup.
La spécificité de Cdiscount est que nous faisons de la datascience opérationnelle.
Cela a permis d’étendre rapidement cette culture data dans l’entreprise. Aujourd’hui, il se passe même quelque chose que nous n’avions pas anticipé: certains data scientists prennent des postes côté métier. Il y en a par exemple qui deviennent product managers sur le moteur, sur les sujets de trafic SEA, SEO ou même sur des postes où il n’y a pas de data.
Cela dit deux choses: premièrement, que nos équipes data sont suffisamment matures sur les sujets métiers pour pouvoir passer de l’autre côté. Et deuxièmement, que l’entreprise s’est suffisamment acculturée au sujet pour que ce ne soit pas choquant de confier des sujets métiers à quelqu’un qui a un profil très data. Je pense que c’est encore quelque chose de rare.
Sur quels grands sujets le traitement des données vous permet-il d’innover, et comment?
L’exemple qui est probablement le plus parlant est ce que nous faisons pour le parcours du client sur le site. Il y a un peu de data tout le long.
S’il arrive chez nous via un moteur de recherche, comme Google ou Bing par exemple, il existe des liens payants. Derrière cela, nous avons une équipe data qui s’occupe de savoir sur quels produits ou offres nous voulons nous positionner à l’extérieur de Cdiscount pour être bien référencé face aux demandes des clients.
Nous avons aussi un sujet qui concerne les liens gratuits et comment structurer le site pour qu’ils soient bien positionnés sur les sites de recherche externe. C’est très data car notre site compte des millions de pages et des centaines de millions de produits.
Une fois que la personne est sur le site, nous personnalisons tout le parcours afin d’accompagner sa recherche. Il ne faut pas qu’elle se perde. Un des blocs concerne le moteur de recherche interne sur lequel nous mettons beaucoup d’énergie pour être le plus précis possible dans la façon dont nous répondons. Nous avons par exemple des axes de recherche sur les sujets de sémantique afin d’être de plus en plus pertinents quand les clients font une recherche sur Cdiscount.
Ensuite, nous avons ce que l’on appelle des carrousels. C’est quand un site Internet vous propose d’autres produits qui sont en lien avec celui que vous cherchez. En dessous, il y a beaucoup de data. Par exemple, quand vous cherchez une télévision, la question est de savoir quelles sont celles qui ne sont pas exactement les mêmes mais qui sont susceptibles de vous intéresser, et cela sans que vous ayez besoin d’explorer l’ensemble de l’offre. Il y a un vrai sujet d’aiguillage.
Puis une fois que vous avez décidé d’acheter cette télévision, la question est de voir ce que l’on peut vous proposer qui va avec, comme un câble par exemple. Tout cela est très concret.
Pour donner quelques chiffres, si on prend le sujet des enchères dont je vous parlais au début, actuellement il y en a 2 millions qui sont en live sur Google. Et nous les mettons à jour toutes les six heures. Cela donne une idée de la technologie qu’il y a derrière… Nous l’avons d’ailleurs internalisée, comme nous le faisons pour tout ce qui est stratégique pour nous. Cela nous permet d’être plus efficaces et agiles, notamment si nous voulons réorienter notre stratégie.
Ainsi le moteur de recherche, c’est également de la technologie Cdiscount. Pour le carrousel, nous avons un peu eu recours à des sociétés externes. Cela permet d’accélérer sur certains sujets. Mais nous possédons majoritairement nos assets. La force de Cdiscount est d’être capable de tester ses propres outils.
Comment le traitement des données peut aussi jouer un rôle dans la lutte contre la cybercriminalité?
Je vais vous donner deux exemples dans lesquels nous avons investit des efforts.
Là aussi nous avons développé nos propres assets, car nous avons des contraintes de volume qui nous sont spécifiques. Le premier sujet est celui de la fraude au paiement en quatre fois. C’est important car nous faisons beaucoup de paiements en quatre fois, avec un partenaire qui s’appelle Floa [propriété du groupe Casino, maison-mère de Cdiscount, Ndlr]. Or, ce mode de paiement peut être utilisé par des cybercriminels. Certains créent un compte, achètent un produit pour obtenir le paiement en quatre fois, règlent la première mensualité mais jamais les suivantes.
Cdiscount a développé des algorithmes pour être capable d’estimer si un nouveau client est un potentiel fraudeur.
C’est un sujet très technologique, car nous devons être rapides. Nous ne pouvons pas faire attendre le potentiel client, car il risque de s’en aller. Nous avons 50 millisecondes pour décider si nous ouvrons ou non le paiement en quatre fois. Quand la personne arrive au paiement, elle donne certaines informations comme une adresse, un nom, un prénom. En revanche, nous n’utilisons absolument pas les informations de la carte bancaire-nous en avons de toutes les façons qu’une version encryptée et qui n’est pas conservée- car c’est interdit.
Quand vous êtes fraudeur, vous avez quand même besoin de vous faire livrer vos produits. Et c’est très compliqué de multiplier ces informations à l’infini. En 50 millisecondes nous comparons ces quelques informations avec tout ce que nous avons dans notre base. Puis nous regardons s’il existe beaucoup de personnes qui ont les mêmes. Nous recherchons une sorte de pattern. Si c’est le cas, il y a plus de chance que ce soit un fraudeur et nous n’autorisons pas le paiement en quatre fois. Cela n’a l’air de rien, mais il y a un grand défi technologique pour y parvenir rapidement, car 50 millisecondes c’est très court.
Un autre sujet sur lequel nous avons beaucoup investi est comment protéger notre site, et nos serveurs, des bots.
Des personnes vont s’en servir pour explorer nos produits, nos prix. Et les bots sont souvent envoyés de façon massive. Le sujet n’est pas seulement d’éviter que l’on nous pique les données de notre catalogue Cdiscount qui est relativement public. Le principal problème est que cela peut pénaliser notre système. Et par la même occasion les vrais clients qui vont se retrouver avec un site plus lent. Cela peut aussi tout simplement faire tomber le site et bloquer notre activité.
Pour lutter contre cela, nous avons développé nos propres technologies. Nous avons également créé Cshield, une entité spécifique dédiée à la cybersécurité, qui propose d’accompagner les entreprises extérieures à Cdiscount. Il s’agit d’un outil automatique de détection de bots. Il est est basé sur des algorithmes qui vont afficher des CAPTCHAs à certains échantillons de visiteurs. Et nous évaluons en temps réel si certaines populations sont potentiellement des bots. En cas de forte certitude, nous leur coupons l’accès.
Comment faites-vous pour conduire des expérimentations et innover en continu?
Ce n’est pas une équipe métier qui réfléchit seule de son côté en disant «vous allez nous mettre un coup de data là-dessus». Toutes les parties prenantes travaillent ensemble et ont les mêmes objectifs. Par exemple, l’objectif de l’équipe «moteur de recherche» est d’augmenter la satisfaction client de ceux qui l’utilisent. Donc qu’ils soient data scientists ou product owners du moteur, ils ont le même objectif. Du coup, ils innovent un peu tout seuls.
Une équipe innovation y est également dédiée. Elle nous aiguille en nous disant par exemple «il y a telle startup qui existe sur tel sujet, tu devrais la rencontrer». Il y a aussi des échanges, on ne peut pas rester enfermés sur nous-mêmes.
Nous discutons également avec d’autres géants du e-commerce en Europe. Cela a par exemple été le cas avec Allegro, qui est un important acteur du secteur en Pologne, sur des sujets autour du moteur de recherche.
Nous avons aussi échangé avec Zalando sur des sujets qui concernaient notamment l’acquisition trafic. D’ailleurs sur cette thématique, nous échangeons de façon approfondie avec Google et Facebook. Comme nous avons des problèmes spécifiques, nous sommes parfois bêta-testeurs de certaines solutions. Nous essayons de ne pas rester trop centrés sur nous-mêmes et de nous ouvrir aux autres autant que possible.
Sur quels sujets expérimentez-vous par exemple en ce moment?
Nous essayons de pousser un peu plus loin le sujet de l’analyse sémantique.
Nous souhaitons déployer des algorithmiques de deep learning un peu spécifiques. Notre ambition cette année est d’être capable de rapprocher des recherches d’utilisateurs qui n’ont pas forcément de mots en commun. Par exemple, si vous cherchez «télévision 75 pouces » d’un côté, et «télé grand écran» de l’autre, il n’y a pas de mots en commun. Pourtant, globalement ces personnes disent la même chose.
Pour des êtres humains cela a l’air trivial car notre intelligence n’est pas artificielle, donc nous comprenons tout de suite. Mais pour une machine, c’est un cauchemar. Nous sommes en train de créer des modèles qui vont permettre de dire à quel point des produits d’un côté et des requêtes de l’autre sont proches. Nous serons ainsi par exemple capables de fusionner les informations que nous récupérons sur les requêtes «télé grand écran» et sur «télévision 75 pouces», et de mettre tout cela dans notre moteur de recherche pour qu’il comprenne tout seul que cela se ressemble.
Un autre sujet, qui rejoint un peu le premier, est que ce travail sur la sémantique va nous aider à rassembler les produits qui ne sont pas forcément décrits de la même façon mais qui pour le client final sont à peu près les mêmes. Cela permet de mieux structurer l’offre.
Comment voyez-vous ces sujets d’IA et de data évoluer dans le futur?
Si on prend les exemples que j’ai donnés, il y a quelque chose qui manque: c’est l’humain.
Nous parlons de data, d’algorithmes…, mais ce qu’il manque là-dedans est notre capacité avec ces outils à accompagner certains collaborateurs.
Par exemple les équipes «offres» qui s’occupent de constituer notre assortiment. Elles négocient avec des fournisseurs, essayent de faire entrer de nouveaux vendeurs dans la marketplace… Il faut leur rendre toutes les informations accessibles. Admettons que vous êtes responsable de la catégorie «jouets»chez Cdiscount, il faut que nous vous aidions à exploiter facilement toute cette donnée. Nous avons un devoir vis-à-vis d’eux qui est de créer des outils qui leur rendent cette donnée presque transparente.
Par exemple, comment les aidons-nous à lire leurs assortiments? Si un nouveau produit arrive, comment ces équipes peuvent-elles le comparer à l’ensemble de leur assortiment? La donnée peut aussi leur servir à comprendre plus facilement d’où vient un problème, par exemple en cas de mauvaise performance. Nous devons arriver à les guider vers ce qu’elles ont besoin de savoir.
Le fait que des entreprises comme la vôtre soient de plus en plus sophistiquées sur le traitement des données peut faire peur…
C’est un sujet que nous avons pris à bras-le-corps.
Nous avons été labellisé Cnil très tôt.
Nous nous sommes également appliqués à suivre à la lettre le RGPD [le règlement général sur la protection des donnée, Ndlr]. Le fait d’accepter ou de refuser que l’on utilise les données est présenté de façon explicite sur le site.
Ainsi, si les clients n’ont pas envie que nous personnalisions le site pour eux, nous ne le ferons pas. C’est juste que cela limite la portée de certaines fonctionnalités. Mais finalement, une bonne partie de ce que nous faisons sur un site d’e-commerce- même s’il y a de la personnalisation- est surtout de la contextualisation. Ce sont deux choses différentes.
Ce n’est pas le fait que tel client ait fait tel achat il y a quelques mois qui nous intéresse, c’est ce qu’il recherche à l’instant T. Ce qui compte beaucoup pour un commerçant est le contexte. C’est ce que vous cherchez maintenant. Ce qui nous intéresse, par exemple, c’est que vous soyez en train de chercher une machine à laver et nous allons essayer de vous guider au mieux, maintenant, dans cette recherche. Et cela indépendamment de qui vous êtes.
Donc c’est vrai que si vous refusez les cookies, il y a des choses que nous ne pourrons pas faire. Par exemple, nous ne pourrons pas utiliser le fait que vous avez précédemment acheté telle ou telle marque et que cela pourrait être intéressant de vous la proposer à nouveau aujourd’hui. Mais sinon, pour la majeure partie de ce que nous proposons cela ne sera pas fondamental. Nous pouvons encore vous proposer beaucoup d’innovation.
Biographie de François Marical
Diplômé de l’école Polytechnique, de la Paris School of Economics et de l’ENSAE Paris Tech, François Marical débute sa carrière en 2005 en tant que Data Scientist au sein de diverses institutions publiques comme l’Insee ou le Ministère de l’environnement.
Après un passage de cinq années en cabinet de conseil, chez Bluestone puis EY, il rejoint le Groupe Casino en 2017 en qualité de chief data officier chez RelevanC. Il intègre Cdiscount en 2018 en tant que Directeur Data avant de devenir, en juillet 2020, Directeur datascience, transformation et innovation.
François Marical et son équipe s’attachent quotidiennement à déployer des solutions data driven opérationnelles qui contribuent à construire le commerce de demain.
A lire aussi: En coulisses, comment Cdiscount a fait de l’open innovation une force pour sa supply chain
Cdiscount est partenaire de notre programme New Standards Retail
- 5 outils essentiels pour optimiser votre relation client - 16/01/2025
- La France au CES 2025 : Une délégation d’envergure mondiale portée par l’innovation technologique - 20/12/2024
- Gestion financière, quels sont les nouveaux outils qui s’imposent à tous dirigeants et CFO pour piloter leurs activités? - 04/12/2024