10 choses que vous devez absolument savoir sur le Machine Learning

Par Benoit Rottembourg, Data Scientist et Business Angel

13/09/2017

J’ai trouvé cette note écrite par Daniel Tunkelang (un des grands artisans des algorithmes de recherche et de recommandation de LinkedIn) d’excellente facture et très proche de ce que je vis dans mon quotidien de data scientist dans l’industrie. Je me suis permis de la traduire en français avec l’autorisation de l’auteur. L’humour est sien et les approximations miennes. La voici:

En tant qu’individu se trouvant fréquemment dans la situation d’avoir à expliquer le Machine Learning à des non experts, j’offre la liste suivante en tant que mission de service publique.

Dans «Machine Learning» il y a «apprentissage», c’est-à-dire «apprentissage à partir de la donnée». L’Intelligence Artificielle (IA) est juste un mot à la mode. Le Machine Learning bénéficie de ce buzz: il y a un nombre incroyable de problèmes que vous pouvez résoudre en fournissant les bonnes données d’entraînement au bon algorithme de Machine Learning. Appelez ça Intelligence Artificielle si ça vous aide à le vendre, mais rappelez-vous que IA est un mot à la mode et peut signifier tout ce que les gens veulent bien mettre dedans.
Le Machine Learning concerne de la donnée et des algorithmes, mais surtout de la donnée. Il y a beaucoup d’excitation à propos des dernières avancées sur les algorithmes de Machine Learning, et particulièrement à propos du Deep Learning. Mais c’est la donnée qui est L’élément clef qui rend le Machine Learning possible. Vous pouvez avoir du Machine Learning sans algorithmes sophistiqués mais pas sans de bonnes données.
A moins que vous ayez vraiment beaucoup de données, tenez-vous en à des modèles simples. Le Machine Learning entraîne un modèle à partir de patterns dans vos données, en explorant l’espace des modèles possibles tels que définis par des paramètres. Si l’espace de vos paramètres est trop grand vous risquez l’overfitting sur vos données d’entraînement (une sur-adaptation NDLR) et donc de générer un modèle qui ne pourra se généraliser au-delà de ces données. Une explication détaillée demanderait un peu plus de mathématiques, mais en règle générale, vous devriez garder le modèle le plus simple possible.
Le Machine Learning ne sera jamais meilleur que les données que vous aurez utilisées pour l’entraîner. L’expression «Garbage in, Garbage out» ne date pas du Machine Learning, mais elle caractérise judicieusement une des limitations clef du Machine Learning. Pour le Machine Learning supervisé, comme la classification, vous avez besoin d’un ensemble de données d’entraînement correctement étiquetées et richement caractérisées.
Le Machine Learning ne marche que si votre jeu de données d’entraînement est représentatif. A l’image d’un fond d’investissement qui précise dans son prospectus «les performances passées ne sont pas une garantie de performances futures», le Machine Learning devrait prévenir qu’il ne fonctionnera convenablement que sur des données ayant le même genre de distribution que les données ayant servi à l’entraîner. Soyez donc vigilants aux déviations qui pourraient exister entre votre jeu de données d’entraînement et le jeu de production. De ce fait, ré-entraînez vos modèles souvent pour éviter les dérives.
La majeure partie du dur labeur en Machine Learning réside dans la transformation de la donnée. En lisant tout le hype à propos des nouvelles techniques de Machine Learning on peut avoir l’impression que tout l’art réside dans le choix et le tuning du bon algorithme. La réalité est nettement plus prosaïque: la majeure partie de votre temps et de vos efforts sera consacrée à nettoyer la donnée et à l’enrichir de caractéristiques (le «feature engineering»). Concrètement il s’agit de partir de la donnée brute et de l’enrichir de caractéristiques qui mettent en valeur le signal qui a du sens dans vos données.
Le Deep Learning est une avancée révolutionnaire mais n’est pas une solution miracle. Le Deep Learning a gagné ses lettres de noblesse en fournissant des avancées dans tout un tas de domaines du Machine Learning. Qui plus est, le Deep Learning automatise une partie du travail qui était traditionnellement réalisé par du feature engineering (en particulier pour traiter les images et les vidéos). Mais le Deep Learning n’est pas une solution magique. Ce n’est pas un lapin sorti du chapeau et vous devez investir un effort significatif pour nettoyer et transformer vos données.
Les systèmes à base de Machine Learning sont très sensibles aux erreurs humaines. Avec toutes mes excuses à la NRA (Association Américaine de promotion des armes à feu) mais «Ce n’est pas le Machine Learning qui tue les gens, mais les gens qui tuent les gens». Quand un système à base de Machine Learning se plante, c’est rarement du à l’algorithme lui-même. Plus probablement, vous avez introduit une erreur humaine dans la donnée d’entraînement, qui a généré un biais ou une erreur systématique. Soyez toujours sceptique, et abordez le machine Learning de la même manière que vous traiteriez n’importe quelle ingénierie logicielle.
Le machine Learning peut, par inadvertance, créer une prophétie auto-réalisatrice. Dans maintes applications du Machine Learning, les décisions que vous prenez aujourd’hui affectent les données que vous traiterez demain. Une fois que votre système à base de Machine Learning incorpore des biais au cœur de son modèle, il peut continuer à générer de nouvelles données d’entraînement qui renforcent ce biais. Et ces biais peuvent ruiner des vies. Soyez responsables: ne créez pas de prophéties auto-réalisatrices.
L’Intelligence Artificielle ne va pas devenir «consciente d’elle-même», se dresser et détruire l’humanité. Un nombre sidérant (…) de personnes semble trouver leur inspiration dans les films de science-fiction quand il s’agit d’Intelligence Artificielle. Nous devons être inspirés par la science-fiction mais pas crédules au point de la confondre avec la réalité. Il y a suffisamment de dangers, bien réels, et bien présents dont il faut se soucier, depuis les êtres humains réellement malveillants jusqu’aux biais des modèles de Machine Learning. Vous pouvez donc cesser de vous angoisser à propos de SkyNet et de «superintelligence».

Il y aurait bien plus à dire sur le Machine Learning que cette petite note en 10 points ne peut en contenir. Mais j’espère quelle servira d’introduction aux non-experts (dont les francophones, NDLR).

Thanks Daniel for describing so well our every day life as data scientists in the industry.

L’expert:

Benoit Rottembourg met de l’huile mathématique dans les moteurs de pricing du groupe Maersk, le leader mondial du transport de containers.

A la fois Data Scientist et Business Angel de jeunes pousses technologiques, il s’acharne à décrypter les recettes (qui marchent) et les fantasmes (qui enflent) autour de la transformation digitale par les Data Sciences.

À propos
Articles récents

Les Experts

Olivier Ezratty, Rodrigo Sepulveda, Gregory Renard, Laurence Faguer, retrouvez les analyses de nos experts dans les deeptech, investissement, IA, retail, santé...

Pour contacter la rédaction: redaction@frenchweb.fr

Pour plus d'informations sur nos abonnements, merci de nous contacter à abonnement@frenchweb.fr

Vous souhaitez contribuer régulièrement en tant qu'expert sur FRENCHWEB.FR, merci de nous contacter à redaction@frenchweb.fr

Les derniers articles par Les Experts (tout voir)

L’expert:

Il y a trop de charlatans sur l'intelligence artificielle

23andMe lève 250 millions de dollars pour ses tests ADN grand public

Un commentaire