Imaginez un étudiant qui tenterait d’impressionner son professeur en apprenant rigoureusement chaque ligne de ses cours mais sans en comprendre un mot (vous vous souvenez de ce cours de physique-chimie que vous n’avez jamais vraiment compris ?)… Et bien voilà, l’overfitting n’est pas plus compliqué que ça !
On parle de surapprentissage, ou d’overfitting (c’est un mot qui a quand même la classe), lorsqu’un système, comme une intelligence artificielle par exemple, se met à « surapprendre » des données d’entraînement et se concentre sur chaque petit détail au lieu de comprendre le sujet dans sa globalité.
Pour faire simple, l’IA devient un maître en mémorisation plutôt qu’en compréhension ! Si nous lui apprenons à reconnaître des chiens en lui montrant une tonne de photos de toutous mignons, elle saura apprendre par cœur ses leçons et identifier même le plus petit chihuahua dans une foule de caniches. Mais présentez lui l’image d’un chien déguisé en licorne… c’est là qu’elle s’emmêle les circuits !
Pour éviter ce piège, il faut garder un œil sur la complexité du modèle, lui fournir une variété de données d’entraînement et utiliser des astuces comme la validation croisée pour s’assurer qu’il ne devient pas trop arrogant avec ses propres connaissances !
Personnellement, au quotidien, je suis moi-même une victime de l’overfitting (et peut-être que vous aussi) lorsque je dois contourner une zone de travaux qui se trouve sur mon trajet et qu’aucun panneau de déviation n’est installé ! Alors c’est vite la panique, je ne sais plus aller au travail (bon ça n’est pas un drame) ou même rentrer chez moi (là c’est très grave) et il me faut opérer une vraie gymnastique du cerveau pour trouver un itinéraire bis dans une ville que je connais pourtant par cœur !