Accueil B.Mol Gen T.P Web
Identification Assistée par Ordinateur (IAO)


  Pierre GOUJON

  • I. L'Identification Assistée par Ordinateur

    • Description, classification et identification

      L'étude des êtres vivants commence par leur description rigoureuse. Cette dernière repose sur un certain nombre d'éléments de description: les caractères (ou descripteurs ou variables), différents selon les groupes considérés. La description proprement dite associe à chaque caractère une valeur, qui peut prendre des formes très différentes: cela peut être une valeur numérique, la dénomination d'un état, ou une information plus complexe (image, son...). Chaque caractère est donc associé à une (ou plusieurs) forme(s) de description: ceci traduit un typage des caractères. Sur la base de la description des individus observés, on construit alors une classification hiérarchique (taxonomie), dans laquelle les individus voisins sont regroupés en entités conceptuelles: les taxons, eux-mêmes hiérarchisés. Ainsi, le taxon de base est en général l'espèce. Les espèces sont elle-mêmes regroupées en genres, eux-mêmes regroupés en familles, et ainsi de suite en remontant dans la hiérarchie de la classification.

      Toute démarche d'identification consiste à relier un individu donné, observé directement, à un des éléments de la classification taxonomique (par exemple une espèce). Elle passe donc par deux étapes:
          - la première est l'élaboration d'une base de connaissances regroupant la description complète de tous les taxons (espèces, genres, etc.) d'un groupe donné. Ceci est du ressort des zoologistes ou des botanistes spécialisés dans l'étude de ce groupe.
          - la seconde est la comparaison du spécimen à identifier à chacune des descriptions de la base de référence. Ceci est accessible à tout naturaliste et peut être facilité par l'utilisation des moyens informatiques. L'Identification Assistée par Ordinateur (IAO) est un moyen privilégié de réaliser cette seconde étape.
       

    • Les fichiers de description

      La description complète des taxons comporte deux parties principales :
          - d'une part la définition des caractères utilisés pour les descriptions (par exemple "couleur des pétales"), avec pour chaque caractère son type et, le cas échéant (caractères à états nominaux distincts) la liste des états (dans l'exemple précédent, ces états pourraient être "rouge", "jaune", "blanc", "bleu").
          - d'autre part la description proprement dite de chaque taxon, qui associe au nom du taxon l'ensemble des valeurs décrites pour chaque caractère.

      Par ailleurs, il convient de noter que les caractères descriptifs peuvent être liés par des relations de dépendance. Si on considère par exemple un premier caractère "présence de fleurs", pouvant prendre une des deux valeurs "plante à fleurs" ou "plante sans fleurs", tout caractère décrivant effectivement les fleurs n'aura de sens que si l'état "plante à fleurs" est présent. Cette relation de dépendance doit être prise en compte dans la construction de la base de connaissances (décrire la couleur des fleurs pour une plante déclarée préalablement sans fleurs serait une incohérence !). Elle est également prise en compte dans la phase d'identification : les caractères ne sont proposés que s'ils sont effectivement applicables, en accord avec les valeurs décrites pour les caractères dont ils dépendent.

      L'utilisation des descriptions dans un contexte informatique suppose un niveau de formalisation assez poussé de ces descriptions (ce qui s'oppose aux descriptions en langage naturel). Plusieurs formats de descriptions existent. Le plus couramment utilisé est le format DELTA (DEscription Language for TAxonomy). Cette version du serveur d'identification repose sur ce format de description, enrichi de concepts nouveaux.
       

    • Les extensions par rapport au langage DELTA

      • Hiérarchisation

        • Hiérarchisation des caractères.

          Dans le langage DELTA, les caractères sont tous définis au même niveau, même si des directives de mise en page permettent un certain classement.

          Ici, tous les caractères peuvent être rattachés à des critères de classement (les "vues"), qui peuvent aussi bien traduire une hiérarchie structurelle qu'une classification des caractères par leur nature ou leurs conditions d'utilisation. Un même caractère peut être rattaché à plusieurs vues, de sorte qu'un tri des caractères utilisés pour une identification donnée est possible par des opérations ensemblistes sur les vues.

          Ceci permet de ne sélectionner au cours d'une identification que les caractères pertinents compte tenu des circonstances: par exemple, si certains caractères sont associés à une vue "observables sur coupe histologique", ces caractères ne seront d'aucune utilité pour l' identification d'un individu vivant, sur le terrain.

        • Hiérarchisation des taxons.

          Il ne s'agit pas d'une véritable hiérarchie conceptuelle des taxons, tenant compte de leur position taxonomique effective (par exemple espèce, genre, ...), mais d'un tri des taxons selon les valeurs des caractères, qui servent alors de critères de classement.

          Première remarque: on peut utiliser comme caractère le rattachement à un taxon supérieur (par exemple le genre si les taxons correspondent aux espèces). On recrée alors indirectement la hiérarchie effective des taxons.

          Deuxième remarque: le tri (donc la dichotomie) des taxons selon les valeurs possibles des caractères correspond au principe de base de l'élaboration des clés d'identification. Ici, le choix entièrement libre des caractères utilisés pour le tri des taxons, à chaque niveau de la hiérarchie obtenue, peut servir de base à une construction de clé d'identification manuelle, mais assistée par ordinateur.


      • Généralisation des types de caractère: utilisation des images.

        Dans le langage DELTA, les types de caractères sont limités, essentiellement à états multiples ou numériques. Dans le premier cas, le caractère peut être associé à une image illustrant les différents états possibles. L'illustration ne correspond pas directement à la description, telle qu'elle est utilisée pour l'identification, mais n'est qu'une simple aide au choix. La description proprement dite reste exprimée par les états eux-mêmes.

        Cette nouvelle applet propose deux niveaux d'introduction de l'image en tant qu'élément direct de description:

        - soit l'image est conçue comme la description directe du caractère pour le taxon. Chaque taxon est alors associé à une image spécifique pour un caractère donné. Il n'y a donc pas d'"état" au sens habituel, puisque le caractère présenterait autant de valeurs possibles que de taxons dans la base.

        - soit l'image est associée à un caractère, lui-même considéré comme étant à états multiples. Chaque état peut alors être associé à une ou plusieurs images, et la sélection de l'état ne se fait pas par référence à son intitulé, mais par référence à l'image (ou aux images) qui l'illustre(nt). On peut même concevoir que l'image devienne le seul élément de description du caractère: il n'y a alors plus d'états "nommés", au sens habituel, mais seulement une série d'images de référence. Ceci peut par exemple simplifier la description de caractères reposant sur des formes plus ou moins complexes, dont la description "textuelle" nécessiterait des périphrases plus ou moins longues et imprécises, alors que l'image illustre directement les différents cas possibles.

        Cette deuxième situation introduit un concept important en matière de formalisation des descriptions, celui du polymorphisme de la description elle-même, la même information pouvant être représentée par des supports différents: ici la liste des états d'une part, les images associées d'autre part. Et donc l'idée que ces différentes expressions sont équivalentes, ce qui suppose la possibilité de conversion d'un support à l'autre.

  • II. Guide de l'utilisateur

    • 1. Généralités

      • Architecture du serveur

        La conception d'un serveur d'identification sur le WEB doit prendre en compte trois éléments : le stockage de la base de connaissances de référence, l'outil de comparaison entre la description en cours et les descriptions de référence, et l'interface utilisateur. L'organisation choisie permet de répartir les tâches dans le cadre d'une architecture client/serveur :

            - coté "serveur", le programme analyse au démarrage les fichiers de descriptions, et garde en mémoire ces descriptions. Il répond ensuite aux requêtes du "client", notamment en réalisant la comparaison de la description reçue pour chaque caractère avec les descriptions des taxons de référence.

            - coté "client", une applet Java réalise l'interface avec le serveur. Mais il s'agit d'une interface intelligente puisque c'est l'applet qui mémorise toutes les informations, fournies par l'utilisateur ou reçues du serveur.
         

      • Utilisation du serveur

        Au démarrage d'une session d'identification, l'applet charge sur la machine locale la liste des caractères et la liste des taxons.

        • Accès aux caractères

          La liste des caractères permet de sélectionner un caractère à décrire parmi ceux qui sont effectivement utilisables, compte tenu des relations de dépendance et des critères de sélection (vues) appliqués.

          L'utilisateur peut alors sélectionner librement le caractère qu'il souhaite renseigner en cliquant son nom dans la liste. Cette action ouvre une fenêtre de saisie, différente selon le type du caractère. L'utilisateur fournit l'élément de description selon les modalités qui sont proposées. Il valide ensuite son choix en appuyant sur le bouton "valider". L'applet envoie au serveur la description du caractère, et reçoit en retour la liste des taxons compatibles avec cette valeur. Elle intègre cette nouvelle compatibilité avec ses données actuelles, et met donc à jour la liste des taxons compatibles.

          Chaque caractère décrit permet donc d'éliminer des taxons. L'identification est terminée lorsqu'il ne reste plus qu'un taxon dans la liste: c'est le seul compatible avec tous les éléments de description fournis.

          Naturellement, à chaque étape de description, l'utilisateur peut revenir sur un caractère déjà décrit pour le modifier. Lorsqu'un caractère a été validé, il est marqué dans la liste par l'icône "coche": ou "coche avec doute": si le doute a été utilisé pour ce caractère. Il peut ainsi modifier, voire annuler la description du caractère.

          L'utilisateur peut aussi modifier la liste des caractères en demandant le tri par pouvoir discriminant décroissant, ou en utilisant la sélection des caractères par les vues: ces choix sont accessibles à travers le menu ouvert par le bouton "options" de la liste des caractères.

          Dans la base, certains caractères peuvent être associés à des informations complémentaires (image, commentaire). Si le caractère sélectionné est associé à une telle information, un menu d'accès s'ouvre automatiquement.

          Enfin, l'identification en cours peut être abandonnée et la description complètement réinitialisée par l'appui sur le bouton "Nouvelle identification".

        • Le traitement du doute

          Au cours de la description d'un caractère, l'utilisateur peut rencontrer des doutes quant à la formulation de sa description. Dans le cas des caractères à états multiples ou des caractères représentés par des images, il se voit présenter un choix limité de valeurs. Il est alors possible que certaines de ces valeurs, bien que n'étant pas considérées comme certaines, soient conservées "dans le doute" afin de limiter les risques d'élimination intempestive du taxon réel. Le doute peut aussi porter sur des valeurs numériques, l'utilisateur choisissant délibérément d'associer à la valeur "sûre" une marge de sécurité "avec doute".

          La manière d'exprimer ce doute dépend de la fenêtre utilisée pour la description.

          L’effet de ce doute se manifeste au niveau de la liste des taxons compatibles. Il peut avoir un effet positif (autoriser un taxon qui ne correspond qu’à l’état avec doute), ou négatif (rendre ‘douteux’ un taxon qui serait interdit si l’état avec doute était vérifié). Les règles sont les suivantes, dans l’ordre :

          - un état ‘sûr’ ne figurant pas dans la description d’un taxon élimine ce dernier,

          - un état ‘avec doute’ peut sélectionner un taxon (si ce dernier n'est pas interdit par ailleurs par d'autres états déclarés, avec doute ou non), mais avec doute (le taxon est marqué par l’icône "point d’interrogation":). C’est le doute positif. Toutefois, si plusieurs états "avec doute" correspondent à des états du taxon de référence, ce dernier est alors conservé comme "sûr".

          - un état ‘avec doute’ ne figurant pas dans la description d’un taxon ne l’élimine pas mais le rend ‘douteux’, si toutefois ce taxon est sélectionné par un autre état déclaré. Il est alors marqué par l’icône "point d’interrogation moins": . C’est le doute négatif.

          Si la description courante contient des états avec doute dans plusieurs caractères, les taxons conservés selon les règles décrites plus haut sont considérés avec doute négatif ("point d’interrogation moins":) si au moins un caractère avec doute entraînait cet état, et avec doute positif ("point d’interrogation":) si aucun des états avec doute n’entraînait le doute négatif.

          Des taxons peuvent aussi être conservés si leur description est vide pour un caractère décrit pour le spécimen. Ces taxons sont alors conservés avec une icône "inconnu": . Mais comme chaque taxon ne peut être affecté que d’une seule icône, c’est cette icône qui est actuellement prioritaire sur les icônes "doute". Dans une prochaine version, tout taxon affecté par plusieurs causes d’incertitude (description inconnue, sélection par plusieurs caractères avec doute, …) sera marqué par une icône spéciale, et le détail des problèmes pourra être visualisé dans une fenêtre auxiliaire.

        • Visualisation des taxons

          A toute étape de l'identification, la liste des taxons permet de visualiser soit les taxons compatibles avec la description en cours ("taxons candidats"), soit la liste des taxons éliminés. Le passage d'un affichage à l'autre est obtenu par l'appui sur le bouton accompagnant la fenêtre, intitulé "taxons éliminés" ou "taxons candidats" selon le cas.

          Dans cette liste, les taxons peuvent être triés en fonction de leur description pour un nombre quelconque de caractères (uniquement des caractères à états multiples). La liste devient alors une liste hiérarchique dont les noeuds sont les états de caractères. Chaque branche contient un sous-ensemble des taxons, ceux dont la description comprend l'état correspondant au noeud.

          Cette hiérarchisation est obtenue en activant le bouton "Options" de la liste des taxons, puis en sélectionnant le choix "Tri des caractères" dans le menu "Affichage des taxons".

          La hiérarchie peut être globale ou développée localement. Dans le premier cas, chaque niveau de l'arborescence correspond à un caractère, qui est donc le même dans toutes les branches, à niveau égal. Les noeuds effectifs correspondent aux états. Dans le second cas, une branche donnée de la hiérarchie peut être subdivisée individuellement par des caractères qui ne sont utilisés que dans cette branche. Cette subdivision peut naturellement être appliquée ensuite aux sous-branches, et ainsi de suite. Il est alors possible de générer manuellement une hiérarchie totalement libre des taxons, ce qui peut aussi servir de point de départ à la construction d'une clé d'identification (voire à la construction complètement manuelle de cette clé).

          Par défaut, lorsqu'aucun critère de tri n'a été défini, le mode de fonctionnement est global: tout caractère ajouté est utilisé pour toutes les branches de la hiérarchie, au même niveau. Dès qu'une branche a été décrite localement, le mode global devient inaccessible (sauf pour enlever tous les critères de tri), et seul le développement individuel des branches reste accessible.


    • 2. Détail des aides liées aux fenêtres