HTML>
Dans le cadre d'un contrat post-doctoral je participe d'un projet du Décrypthon : « Développement et utilisation d'approches informatiques et théoriques pour l'analyse des liens existants entre défauts d'épissage et maladies génétiques. ». L'objectif fixé pour la partie statistique du projet est la reconnaissance des sites d'épissage alternatif et constitutif basée sur la théorie statistique de l'apprentissage multiclasse.
Depuis le 1 octobre 2006, je travaille au LORIA dans le cadre du projet Décrypthon de l'AFM, du CNRS et d'IBM (http://www.decrypthon.fr/) sur un problème de reconnaissance automatique des sites d'épissage alternatif et constitutif de l'ARN messager faisant appel à la théorie de l'apprentissage statistique multi classes, et notamment l'utilisation des machines à noyau [Sha04].
Les noyaux sont des mesures de similarité très maniables et particulièrement adaptées à ce type de reconnaissance. Il s'agit, en effet, de différencier les introns des exons constitutifs ou alternatifs, et éventuellement de fournir des informations sur les zones inhibitrices ou activatrices des gènes. Compte tenu de la taille des séquences à considérer et de la complexité du problème posé il est nécessaire d'avoir recours à des techniques de bioinformatiques et les Machines à vecteurs support, en particulier, ont montré leur intérêt pour ce type de problématique [Ker04].
L'originalité de l'approche proposée réside principalement dans la mise en place d'un apprentissage multiclasse permettant, outre la distinction introns-exons, de différencier aussi les sites d'épissage forts des sites faibles, voire de situer les zones activatrices et inhibitrices.
Trois types de questions sont alors à résoudre :
|
|
L'un des axes privilégiés de mon projet est l'étude des aspects théoriques de l'apprentissage statistique dont les bases ont été posées par Vapnik à la fin des années 60 [Vap98]. La classification supervisée, qui consiste à classer des observations par catégories en se basant sur un échantillon d'apprentissage, pose un problème de sélection de fonction ou sélection de modèle optimisant la réponse à la question considérée. Il faut alors s'intéresser à des problèmes théoriques tels que la minimisation des risques, l'approximation de fonctions sous la forme de régressions et l'estimation des paramètres de la fonction de densité.
La question centrale de la minimisation du risque revêt deux aspects. Le premier consiste à minimiser l'erreur en apprentissage à travers la minimisation du risque empirique (sur l'échantillon d'apprentissage). Le second consiste à s'assurer de la capacité de généralisation du classifieur choisi lors du passage à d'autres jeux d'observations. On cherche pour cela à minimiser une borne sur l'espérance du risque souvent appelée « risque garanti ».
Les SVM, en particulier, qui ont montré leur puissance pour des problèmes issus de la biologie, mettent en oeuvre ce dernier principe et la théorie de l'apprentissage permet d'étudier très précisément leur propriétés statistiques. Je suis particulièrement intéressé par l'extension au cas multi classes (M-SVM [Gue02]) des résultats connus dans le cas bi-classes (voir [Dar06]). En effet la généralisation des résultats n'est pas triviale et un travail très important reste à faire pour la maîtrise théorique des performances de telles machines dans le cas multiclasses.
La théorie de l'apprentissage ne se limite toutefois pas aux machines à noyau mais englobe également d'autres outils de la statistique comme les réseaux de neurones, les HMM, les PMM ou les TMM. Les PMM sont les processus de Markov Couple (voir [Pie03]), qui permettent une généralisation stricte des processus de Markov cachés et le TMM sont les processus de Markov Triplet (voir [Pie02]), et permettent, en particulier, de modéliser des processus non stationnaires. L'étude théorique de ces outils présente les mêmes intérêts que celle des machines à noyau et c'est pour cela qu'il me semble important de m'y intéresser dans le cadre de mon projet de recherches.
Un point crucial dans la détermination des algorithmes est la construction de noyaux dédiés aux problèmes biologiques. Dans le cadre de la reconnaissance des sites d'épissage et des zones inhibitrices et activatrices, une approche envisageable pour traiter ce type de séquence est l'utilisation de noyau HMM ou Pair-HMM [Dur98] qui permettent une bonne modélisation des propriétés des formes recherchées. Par extension, l'utilisation de noyaux basés sur des PMM ou des TMM qui sont des généralisations strictes des HMM devraient accroître la sensibilité des M-SVM. La détermination de noyaux basés sur ce type de modèle est un travail conséquent et de nombreux problèmes algorithmiques devront être résolus pour optimiser les calculs intensifs nécessaires à l'évaluation des noyaux complexes induits pas ce genre de modèles. Notons que la question de la détermination des hyperparamètres pour ces modèles sera en partie dérivée de l'étude théorique sur le risque.
Dans le but d'atteindre des temps de calcul raisonnable il est impératif de soigner la question de la programmation mathématique des algorithmes mis en oeuvre. En particulier la question centrale du problème de programmation quadratique demande beaucoup de soin en terme de programmation mathématique. Le second point important réside dans la parallélisation des calculs, et notamment les calculs de gradients, afin d'utiliser toutes les ressources des calculateurs multi processeurs mis à la disposition du projet.
Voici un lien vers le rapport d'activité pour 2005 : Rapport