Présentation

Le projet Apprentistique est financé via l’appel à projets Mastodons 2017 du CNRS.

Vision Scientifique

Ce projet vise à aborder les diverses incertitudes, incohérences et imprécisions inhérentes aux données en se focalisant sur un aspect générique et transversal à la problématique de la manipulation de grandes masses de données : l’évaluation des performances des algorithmes d’extraction et de classification. Ces algorithmes font l’objet de recherches intensives dans divers domaines et abordent des problématiques spécifiques et propres aux sujets d’application sous-jacents, mais leur validation et leur évaluation suivent généralement des protocoles similaires, surtout lorsqu’ils impliquent des techniques d’apprentissage numérique ou de classification.

Dans ces cas, les différentes approches sont élaborées, testées et validées sur les données disponibles, mais sans réellement prendre en compte le fait que ces données puissent être entachées d’erreurs ou d’imprécisions. Dans certains cas, notamment dans des applications relevant de l’apprentissage numérique, ces imprécisions sont prises en compte sous la terminologie de robustesse, d’adaptabilité ou de tolérance. En revanche, lorsqu’il s’agit d’évaluer les performances de ces approches, le protocole d’évaluation se base systématiquement sur l’hypothèse implicite que les données de validation sont totalement pertinentes et sans erreur. Dans des travaux antérieurs nous avons montré qu’il est impossible que cette hypothèse soit vérifiée, et que par conséquent, tous les protocoles de validation comportent un biais qui est fonction de la qualité des données.

Ce projet vise à établir les fondements mathématiques et des outils statistiques permettant d’exprimer des niveaux de confiance dans les divers protocoles d’évaluation de performance, et ainsi permettre de mieux quantifier la qualité de grandes classes d’algorithmes en intégrant explicitement l’incertitude des données.

Projet Scientifique

Ce projet se place en rupture par rapport aux approches actuelles d’analyse de performance des méthodes de classification et d’apprentissage. Traditionnellement, ces méthodes sont évaluées sur des données annotées de référence, et leur qualité est généralement exprimée en fonction de leurs réponses en adéquation avec ces données par rapport aux nombre total de réponses (F-mesure, précision, rappel …) Étant donnée la quantité de données nécessaires aux techniques d’apprentissage de l’état de l’art actuel d’une part, et pour des raisons théoriques que nous avons déjà développées précédemment d’autre part, il est pourtant inévitable (voire certain) que ces données soient entachées d’erreurs et d’imprécisions. La conséquence immédiate de cette incertitude sur les données de référence est qu’elle se répercute sur les métriques de performance et les conclusions sur la qualité des méthodes de classification, sans que, pour autant, elle soit prise en compte dans les protocoles d’évaluation actuellement en vigueur.

Ce projet se propose de revisiter l’ensemble du processus en étudiant et en développant des outils statistiques permettant d’exprimer une « confiance » dans des mesures de classement issues de campagnes d’évaluation ou de benchmarking.

La question à laquelle on cherchera à répondre est la suivante :

Étant donnée la réponse de n algorithmes sur un ensemble de données de référence, quelle est la confiance que l’on peut accorder au classement qui en résulte, sachant que le taux d’erreur des données de référence est inférieur à ε ?

Ou, de façon « duale » :

À partir de quel taux d’erreur sur les données de référence peut-on considérer, avec un taux de certitude de τ, que le classement obtenu sera mis en défaut ?

Plusieurs formulations probabilistes de cette question sont possibles. Par exemple, en considérant les données comme des réalisations d’un vecteur aléatoire (dont la loi pourra appartenir à un modèle paramétrique donné), on étudiera la loi du vecteur constitué des réponses des n algorithmes en tant que fonction de ce vecteur aléatoire, ce qui permettra de calculer la probabilité d’avoir un classement donné de ces réponses, et de considérer que le classement n’est pas fiable si cette probabilité est jugée trop faible. En supposant que la distribution des erreurs appartient à un modèle paramétrique, des outils de statistique bayésienne pourront être utilisés pour étudier la distribution a posteriori des paramètres au vu des réponses des algorithmes.