Le CNRS
L'INSB
Autres sites CNRS
 
    Accueil > Equipes > Fichant
 
logo IMPbio

Projet ISYMOD+

Développement d'un système informatique de représentation et d'analyse des processus biologiques


Projet financé dans le cadre de l'appel d'offre 2003 de l'Action Concertée Incitative IMPbio du Ministère.

Contexte

Le projet que nous défendons a été initié depuis plusieurs années en étroite collaboration entre biologistes et informaticiens. Initialement basé sur la modélisation des systèmes de transport de type ABC, il nous a permis de faire des avancées significatives dans ces deux domaines, avec à la fois des résultats biologiques et des développements théoriques dans le cadre de la représentation des connaissances et la classification.

Projet et objectifs

Notre objectif est de construire un système informatique de représentation et d'analyse des  processus biologiques impliqués dans l'adaptation des bactéries à leur environnement. Les processus biologiques pris en considération résultent de l'association de différentes protéines participant à un réseau complexe de relations, ces relations pouvant être d'ordre fonctionnel, physique, et évolutif. Le système envisagé est basé sur une approche intégrative des données issues du séquençage systématique ; il nous permettra de mieux comprendre les rôles de ces processus dans l'adaptation des bactéries à leur biotope, dans les relations hôte/pathogène et dans la colonisation d'une nouvelle niche écologique par une population de bactéries. Techniquement, notre projet repose sur l'intégration contrôlée des étapes d'acquisition et de représentation de ces connaissances dans un même environnement logiciel, afin de garantir le maintien de la cohérence de la base au cours des processus récursifs d'identification des objets biologiques sous-jacents et de la reconstruction des relations entre ces objets. Nous disposons actuellement d'une base de connaissances appelée ISYMOD, développée avec le système de représentation AROM, et dédiée aux systèmes de transport ABC (permettant de véhiculer un substrat à travers la membrane, Quentin et al., 1999 ; Quentin et Fichant, 2000) et aux systèmes de régulation à deux composants (TCS, impliqués dans la transduction du signal, Rodrigue et al., 2000). Cette base a pour vocation de couvrir aussi bien les connaissances du domaine que les connaissances méthodologiques (Quentin et al., 2002), c'est-à-dire que les méthodes de prédiction utilisées sont représentées dans le même environnement que les connaissances qu'elles génèrent. Initialement, seules les relations d'ordre physique étaient modélisées dans ISYMOD (Chabalier et al., 2004), mais aux moins deux autres types de relations, les relations fonctionnelles et évolutives, doivent être pris en compte pour une bonne représentation des processus biologiques et de leurs interactions. Nous travaillons maintenant la généralisation de la base ISYMOD afin d'y intégrer d'autres types de relations et d'autres systèmes biologiques. Pour ce faire, trois axes de recherche complémentaires sont poursuivis.

Développement des méthodes d'acquisition et de classification des objets biologiques et de leur relations, étape qui est à l'heure actuelle le principal goulot d'étranglement du flux de données. Ainsi, des méthodes bio-informatiques seront développées pour déterminer ces nouvelles relations entre objets biologiques ; elles reposeront – entre autres – sur des techniques d'apprentissage automatique supervisé, intégrées à la base de connaissances.

Evolution du système AROM et de son module AROMTASKS dédié aux aspects méthodologiques afin d'accueillir ces nouveaux types de relations et faciliter leur analyse. Son noyau sera notamment enrichi par l'étude et le développement d'un langage permettant la description des propriétés algébriques d'une association donnée et les propriétés de sa composition avec une ou plusieurs autres associations, que le système devra prendre en compte dans son interprétation.

Développement et évaluation des méthodes d'exploration des graphes modélisant les relations complexes entre objets, ces relations étant disponibles dans ISYMOD.

A l'issue du projet, ISYMOD intègrera automatiquement de nouveaux systèmes sans nécessiter d'intervention humaine trop lourde, permettant ainsi de faire face à l'accroissement toujours plus rapide du flux de données.

Equipes participantes

Génomique des Systèmes Intégrés, Laboratoire de Microbiologie et Génétique Moléculaire, Toulouse.
Bases de Données et Apprentissage Automatique, Laboratoire d'Informatique Fondamentale (LIF), Marseille.
Méthode Mathématiques pour la Génomique,  Institut de Mathématique de Luminy (IML), Marseille.
Projet Helix, INRIA Rhône-Alpes / Université Joseph-Fourier, Grenoble.
SIGMA, Laboratoire Logiciels, Systèmes et Réseaux (LSR-IMAG), Grenoble.

Avancées du projet

Boosting d'algorithmes d'alignement

Objectifs

Nous cherchons, à court-terme, à améliorer la prédiction des protéines partenaires de transporteurs ABC sur un nouveau protéome : ces partenaires portent des domaines mal conservés, ce qui rend difficile leur identification par alignement de séquences. Jusqu'à présent, nous mettions en oeuvre une stratégie complexe pour l'orchestration de programmes bioinformatiques afin d'obtenir des résultats acceptables à partir d'un échantillon manuellement annoté. Cette stratégie nécessitait, de surcroît, le découpage préalable de l'échantillon d'apprentissage en 16 sous-familles fonctionnelles liées à la nature du substrat transporté. L'apprentissage était alors réalisé sous-famille par sous-famille. L'objectif est donc d'automatiser cette phase d'identification des partenaires d'un système biologique en supprimant l'étape de caractérisation réalisée manuellement par un expert, et ainsi de permettre de généraliser facilement l'ensemble de notre approche. Pour cela, nous avons envisagé d'utiliser une technique d'apprentissage automatique, appelée Boosting.

Résultats

Nous avons réalisé une plate-forme Java pour la mise en oeuvre d'algorithmes de boosting d'alignements de séquences de protéines. Dans un premier temps, nous avons validé la pertinence de cette approche pour l'identification, sur un nouveau protéome, des domaines fonctionnels participant à la fonction d'un transporteur ABC, en traitant ensemble toutes les sous-familles fonctionnelles liées au substrat (donc sans découpage préalable). L'idée est que chaque classifieur faible est un arbre de décision issu de l'alignement d'une séquence (tirée au hasard selon la distribution courante, que l'on appelle requête) avec toutes les autres ; nous avons considéré plusieurs types d'arbres de décision, et nous avons établi plusieurs protocoles d'apprentissage selon la nature de la séquence requête. Nos mise en oeuvre actuelles portent essentiellement sur l'apprentissage et la reconnaissance des domaines membranaires MSD, qui sont les domaines présentant les plus grandes difficultés d'identification dans le cas des transporteurs ABC. Pour l'instant, les programmes d'alignement que nous avons utilisés sont Blast et psiBlast, mais nous avons rapidement décidé de nous concentrer sur Blast pour simplifier le paramétrage. Cette plate-forme nous a permis de régler les nombreux paramètres permettant d'obtenir des résultats égalant ceux de la stratégie jusque là utilisée (nombre d'itérations, seuils de scores, profondeur de l'arbre de décision, taux d'erreur moyen et median des classifieurs faibles, classe des requêtes, etc.). Nous obtenons acuellement plus de 90% de réussite en apprenant sur 8 génomes bactériens et en testant sur 8 autres. Entre autres, nous sommes parvenus à obtenir un classifieur général dont la précision vaut 1 (même en intervertissant ensemble d'apprentissage et ensemble de test): les mal classés sont donc des domaines partenaires non reconnus comme tels (faux négatifs). D'autres paramétrage nous permettent d'inverser la tendance, à savoir un taux d'erreur globale proche des 10% mais où il n'y a aucun faux-négatif. Enfin, il doit être précisé que les échantillons ne sont pas constitués des génomes entiers : seuls les protéines portant un domaine MSD sont représentées (les positifs), ainsi que des protéines n'en portant pas (les négatifs) mais généralement mal traitées par la stratégie antérieure (des négatifs qu'elle classait positifs). Par contre, les exécutions de Blast portent sur l'ensemble des protéines des espéces considérées. Il est à noté que nos expériences valident le résultat théorique stipulant que l'erreur d'apprentissage en boosting converge vers 0 avec les itérations, et que l'erreur réelle continue toujours de décroître ou se stabilise. Nous examinons actuellement le comportement de notre approche via une validation croisée 1/10. Dans un second temps, l'analyse approfondie des erreurs générées par cette méthode (notamment la nature des faux-négatifs, leur sous-familles fonctionnelles, etc.) nous a permis de dégager les propriétés de cet algorithme de boosting face aux caractéristiques de la problématique biologique. Par exemple, les classifieurs faibles que notre méthode dérive, présentent des taux d'erreurs très variables selon la nature de l'alignement dont chacun est issu (taux d'erreur moyen de 0.45, variance de 0.2!). Nous avons dégagé de cette étude la notion de "densité d'alignement de séquences", qui est fonction de la nature de la requête, du nombre de séquences alignées, et de la médiane des scores obtenus. Nous cherchons maintenant à intégrer sainement ce paramètre essentiel à l'algorithme de boosting -- à la fois d'un point de vue théorique qu'au niveau du réglage des paramètres. Sachant que nous travaillons actuellement uniquement sur le boosting de Blast, si l'intégration de la densité des alignements s'avère réussie, nous poursuivrons notre étude par le Boosting de Psi-Blast pour valider nos résultats: nous intégrerons alors la rapidité de convergence du programme dans la définition de la densité des alignements produits. Quoiqu'il en soit, à court terme, cette méthode d'apprentissage sera intégrée à la base de connaissances ISYMOD comme méthode de résolution de la tâche d'identification des domaines.

Article en cours pour soummission à ASMDA'2005 : "Boosting Blast for the identification of unconserved domains"

Algèbre de relations

Objectifs

Afin de modéliser, au sein d'ISYMOD, les relations évolutives et fonctionnelles entretenues par les divers partenaires des systèmes biologiques intégrés, nous devons étendre le langage de représentation de AROM, et son noyau, en y intégrant la possibilité d'exprimer les propriétés algébriques de ces relations. En effet, si le fait que la paralogie et l'orthologie sont des spécialisations de l'homologie peut facilement s'exprimer en AROM, il n'est pas encore possible de spécifier la transitivité relative de cette relation, et encore moins de l'exploiter ! Il s'agit donc d'établir un catalogue des propriétés de relations n-aires intéressantes à dégager à des fins d'inférence, et de définir en aval un langage pour l'expression de ces propriétés qui sera le support d'un moteur de parcours des relations. Par exemple, la fermeture transitive d'une relation permettra de connaître toutes les protéines orthologues à une protéine donnée, que ces liens d'orthologie soient explicitement représentés ou déductibles de la propriété de transitivité de la relation d'orthologie. Il s'agit notamment d'étudier la spécialisation de telles propriétés algébriques.

Travaux en cours

Dans un premier temps, nous avons étudié une relation majeure en représentation des connaissances, appelée la relation "partie-tout", qui se décline en une dizaine d'interprétations. A partir d'une étude bibliographique poussée, nous avons dégagé les propriétés de chacune de ces interprétations, étudié leur comportement face à l'héritage, et nous en avons déduit une grammaire pour l'expression précise de telles associations dans une base AROM. L'intégration formelle de cette grammaire à celle du langage de représentation de AROM est en cours de réalisation par un étudiant de 2ème année de Master en Système d'Information. Le noyau de AROM sera modifié en conséquence. Il est important de préciser que cette grammaire a été conçue de façon à permettre, ensuite, l'intégration facile des propriétés algébriques de tout autre type de relation. Notre focalisation sur la relation "partie-tout" provient de la nécessité de tester la faisabilité d'ajouter, dans un moteur d'inférences d'un système à objets, une algèbre de relations n-aires.

Calendrier

Publications

Chabalier J, Capponi C, Quentin Y, Fichant G. (2004). ISYMOD: a knowledge warehouse for the identification, assembly and analysis of bacterial integrated systems. Bioinformatics. Nov 5;






 

 


 

Séminaires à l'IBCG

Annuaires

Rechercher
Sur le WEB du CNRS


Laboratoire de Microbiologie
et Génétique Moléculaires
UMR 5100