L'étude des êtres vivants commence par leur description rigoureuse. Cette dernière repose
sur un certain nombre d'éléments de description: les caractères (ou descripteurs ou variables),
différents selon les groupes considérés. La description proprement dite associe à chaque caractère
une valeur, qui peut prendre des formes très différentes: cela peut être une valeur numérique,
la dénomination d'un état, ou une information plus complexe (image, son...). Chaque caractère est donc associé
à une (ou plusieurs) forme(s) de description: ceci traduit un typage des caractères.
Sur la base de la description des individus observés, on construit alors une classification
hiérarchique (taxonomie), dans laquelle les individus voisins sont regroupés en entités conceptuelles:
les taxons, eux-mêmes hiérarchisés. Ainsi, le taxon de base est en général l'espèce. Les espèces sont elle-mêmes
regroupées en genres, eux-mêmes regroupés en familles, et ainsi de suite en remontant dans la
hiérarchie de la classification.
Toute démarche d'identification consiste à relier un individu donné, observé directement,
à un des éléments de la classification taxonomique (par exemple une espèce). Elle passe donc par deux étapes:
- la première est l'élaboration d'une base de
connaissances regroupant la description complète de tous les taxons
(espèces, genres, etc.) d'un groupe donné. Ceci est du ressort des
zoologistes ou des botanistes spécialisés dans l'étude de ce groupe.
- la seconde est la comparaison du spécimen à
identifier à chacune des descriptions de la base de référence. Ceci est
accessible à tout naturaliste et peut être facilité par l'utilisation des
moyens informatiques. L'Identification Assistée par Ordinateur (IAO) est un
moyen privilégié de réaliser cette seconde étape.
Les fichiers de description
La description complète des taxons comporte deux parties principales :
- d'une part la définition des caractères utilisés
pour les descriptions (par exemple "couleur des pétales"), avec pour chaque
caractère son type et, le cas échéant (caractères à états nominaux
distincts) la liste des états (dans l'exemple précédent, ces états
pourraient être "rouge", "jaune", "blanc", "bleu"). -
d'autre part la description proprement dite de chaque taxon, qui associe au
nom du taxon l'ensemble des valeurs décrites pour chaque caractère.
Par ailleurs, il convient de noter que les caractères descriptifs peuvent
être liés par des relations de dépendance. Si on considère par exemple un
premier caractère "présence de fleurs", pouvant prendre une des deux valeurs
"plante à fleurs" ou "plante sans fleurs", tout caractère décrivant
effectivement les fleurs n'aura de sens que si l'état "plante à fleurs" est
présent. Cette relation de dépendance doit être prise en compte dans la
construction de la base de connaissances (décrire la couleur des fleurs pour
une plante déclarée préalablement sans fleurs serait une incohérence !).
Elle est également prise en compte dans la phase d'identification : les
caractères ne sont proposés que s'ils sont effectivement applicables, en
accord avec les valeurs décrites pour les caractères dont ils dépendent.
L'utilisation des descriptions dans un contexte informatique suppose un
niveau de formalisation assez poussé de ces descriptions (ce qui s'oppose
aux descriptions en langage naturel). Plusieurs formats de descriptions
existent. Le plus couramment utilisé est le format DELTA (DEscription Language
for TAxonomy). Cette version du serveur d'identification repose
sur ce format de description, enrichi de concepts nouveaux.
Dans le langage DELTA, les caractères sont tous définis au même niveau, même si des directives
de mise en page permettent un certain classement.
Ici, tous les caractères peuvent être rattachés à des critères de classement (les "vues"),
qui peuvent aussi bien traduire une hiérarchie structurelle qu'une classification des caractères
par leur nature ou leurs conditions d'utilisation. Un même caractère peut être rattaché à
plusieurs vues, de sorte qu'un tri des caractères utilisés pour une identification donnée
est possible par des opérations ensemblistes sur les vues.
Ceci permet de ne sélectionner au cours d'une identification que les caractères pertinents
compte tenu des circonstances: par exemple, si certains caractères sont associés à une vue
"observables sur coupe histologique", ces caractères ne seront d'aucune utilité pour l'
identification d'un individu vivant, sur le terrain.
Hiérarchisation des taxons.
Il ne s'agit pas d'une véritable hiérarchie conceptuelle des taxons, tenant compte de leur
position taxonomique effective (par exemple espèce, genre, ...), mais d'un tri des taxons
selon les valeurs des caractères, qui servent alors de critères de classement.
Première remarque: on peut utiliser comme caractère le rattachement à un taxon supérieur
(par exemple le genre si les taxons correspondent aux espèces). On recrée alors indirectement
la hiérarchie effective des taxons.
Deuxième remarque: le tri (donc la dichotomie) des taxons selon les valeurs possibles
des caractères correspond au principe de base de l'élaboration des clés d'identification. Ici,
le choix entièrement libre des caractères utilisés pour le tri des taxons, à chaque niveau
de la hiérarchie obtenue, peut servir de base à une construction de clé d'identification manuelle,
mais assistée par ordinateur.
Généralisation des types de caractère: utilisation des images.
Dans le langage DELTA, les types de caractères sont limités, essentiellement à états multiples
ou numériques. Dans le premier cas, le caractère peut être associé à une image illustrant
les différents états possibles. L'illustration ne correspond pas directement à la description,
telle qu'elle est utilisée pour l'identification, mais n'est qu'une simple aide au choix.
La description proprement dite reste exprimée par les états eux-mêmes.
Cette nouvelle applet propose deux niveaux d'introduction de l'image en tant qu'élément direct de description:
- soit l'image est conçue comme la description directe du caractère pour le taxon. Chaque taxon est alors associé à
une image spécifique pour un caractère donné. Il n'y a donc pas d'"état" au sens habituel, puisque
le caractère présenterait autant de valeurs possibles que de taxons dans la base.
- soit l'image est associée à un caractère, lui-même considéré comme étant à états multiples.
Chaque état peut alors être associé à une ou plusieurs images, et la sélection de l'état ne se
fait pas par référence à son intitulé, mais par référence à l'image (ou aux images) qui l'illustre(nt). On peut
même concevoir que l'image devienne le seul élément de description du caractère: il n'y a alors plus d'états "nommés",
au sens habituel, mais seulement une série d'images de référence. Ceci peut par exemple simplifier la description
de caractères reposant sur des formes plus ou moins complexes, dont la description "textuelle" nécessiterait des
périphrases plus ou moins longues et imprécises, alors que l'image illustre directement les différents cas
possibles.
Cette deuxième situation introduit un concept important en matière de formalisation des descriptions,
celui du polymorphisme de la description elle-même, la même information pouvant être représentée par
des supports différents: ici la liste des états d'une part, les images associées d'autre part. Et
donc l'idée que ces différentes expressions sont équivalentes, ce qui suppose la possibilité de
conversion d'un support à l'autre.
La conception d'un serveur d'identification sur le WEB doit prendre en
compte trois éléments : le stockage de la base de connaissances de
référence, l'outil de comparaison entre la description en cours et les
descriptions de référence, et l'interface utilisateur. L'organisation
choisie permet de répartir les tâches dans le cadre d'une architecture
client/serveur :
- coté "serveur", le programme analyse au démarrage
les fichiers de descriptions, et garde en mémoire ces descriptions. Il
répond ensuite aux requêtes du "client", notamment en réalisant la
comparaison de la description reçue pour chaque caractère avec les
descriptions des taxons de référence.
- coté "client", une applet Java réalise l'interface
avec le serveur. Mais il s'agit d'une interface intelligente puisque c'est
l'applet qui mémorise toutes les informations, fournies par l'utilisateur ou
reçues du serveur.
Utilisation du serveur
Au démarrage d'une session d'identification, l'applet charge sur la machine locale
la liste des caractères et la liste des taxons.
Accès aux caractères
La liste des caractères permet de sélectionner un caractère à décrire parmi ceux qui sont effectivement
utilisables, compte tenu des relations de dépendance et des critères de sélection (vues) appliqués.
L'utilisateur peut alors sélectionner librement le caractère qu'il souhaite renseigner en cliquant
son nom dans la liste. Cette action ouvre une fenêtre de saisie, différente selon le type du caractère.
L'utilisateur fournit l'élément de description selon les modalités qui sont proposées. Il valide ensuite
son choix en appuyant sur le bouton "valider". L'applet envoie au serveur la description du caractère, et reçoit
en retour la liste des taxons compatibles avec cette valeur. Elle intègre cette nouvelle compatibilité avec ses données
actuelles, et met donc à jour la liste des taxons compatibles.
Chaque caractère décrit permet donc d'éliminer des taxons. L'identification est terminée lorsqu'il ne reste
plus qu'un taxon dans la liste: c'est le seul compatible avec tous les éléments de description fournis.
Naturellement, à chaque étape de description, l'utilisateur peut revenir sur un caractère déjà décrit pour
le modifier. Lorsqu'un caractère a été validé, il est marqué dans la liste par l'icône "coche":
ou "coche avec doute": si le doute a été utilisé pour ce caractère.
Il peut ainsi modifier, voire annuler la description du caractère.
L'utilisateur peut aussi modifier la liste des caractères en demandant le tri par pouvoir discriminant décroissant,
ou en utilisant la sélection des caractères par les vues: ces choix sont accessibles à travers le menu ouvert par
le bouton "options" de la liste des caractères.
Dans la base, certains caractères peuvent être associés à des informations complémentaires (image, commentaire). Si
le caractère sélectionné est associé à une telle information, un menu d'accès
s'ouvre automatiquement.
Enfin, l'identification en cours peut être abandonnée et la description complètement réinitialisée par l'appui
sur le bouton "Nouvelle identification".
Au cours de la description d'un caractère, l'utilisateur peut rencontrer des doutes quant à la formulation de sa description. Dans le cas des caractères
à états multiples ou des caractères représentés par des images, il se voit présenter un choix limité de valeurs. Il est alors possible que certaines de ces valeurs,
bien que n'étant pas considérées comme certaines, soient conservées "dans le doute" afin de limiter les risques d'élimination intempestive du taxon réel. Le doute
peut aussi porter sur des valeurs numériques, l'utilisateur choisissant délibérément d'associer à la valeur "sûre" une marge de sécurité "avec doute".
La manière d'exprimer ce doute dépend de la fenêtre utilisée pour la description.
L’effet de ce doute se manifeste au niveau de la liste des taxons compatibles. Il peut avoir un effet positif
(autoriser un taxon qui ne correspond qu’à l’état avec doute), ou négatif (rendre ‘douteux’ un taxon qui serait
interdit si l’état avec doute était vérifié). Les règles sont les suivantes, dans l’ordre :
- un état ‘sûr’ ne figurant pas dans la description d’un taxon élimine ce dernier,
- un état ‘avec doute’ peut sélectionner un taxon (si ce dernier n'est pas interdit par ailleurs par d'autres
états déclarés, avec doute ou non), mais avec doute (le taxon est marqué par l’icône "point d’interrogation":).
C’est le doute positif. Toutefois, si plusieurs états "avec doute" correspondent à des états du taxon de référence,
ce dernier est alors conservé comme "sûr".
- un état ‘avec doute’ ne figurant pas dans la description d’un taxon ne l’élimine pas mais le rend ‘douteux’, si
toutefois ce taxon est sélectionné par un autre état déclaré. Il est alors marqué par l’icône "point d’interrogation moins":
. C’est le doute négatif.
Si la description courante contient des états avec doute dans plusieurs caractères, les taxons conservés selon les
règles décrites plus haut sont considérés avec doute négatif ("point d’interrogation moins":) si au moins
un caractère avec doute entraînait cet état, et avec doute positif ("point d’interrogation":) si aucun des états avec
doute n’entraînait le doute négatif.
Des taxons peuvent aussi être conservés si leur description est vide pour un caractère décrit pour le spécimen.
Ces taxons sont alors conservés avec une icône "inconnu": . Mais comme chaque
taxon ne peut être affecté que d’une seule icône, c’est cette icône qui est actuellement prioritaire sur les icônes
"doute". Dans une prochaine version, tout taxon affecté par plusieurs causes d’incertitude (description inconnue,
sélection par plusieurs caractères avec doute, …) sera marqué par une icône spéciale, et le détail des problèmes
pourra être visualisé dans une fenêtre auxiliaire.
Visualisation des taxons
A toute étape de l'identification, la liste des taxons permet de visualiser soit les taxons compatibles avec la
description en cours ("taxons candidats"), soit la liste des taxons éliminés. Le passage d'un affichage à l'autre
est obtenu par l'appui sur le bouton accompagnant la fenêtre, intitulé "taxons éliminés" ou "taxons candidats"
selon le cas.
Dans cette liste, les taxons peuvent être triés en fonction de leur description pour un nombre quelconque de
caractères (uniquement des caractères à états multiples). La liste devient alors une liste hiérarchique dont les noeuds
sont les états de caractères. Chaque branche contient un sous-ensemble des taxons, ceux dont la description comprend
l'état correspondant au noeud.
Cette hiérarchisation est obtenue en activant le bouton "Options" de la liste des taxons, puis en sélectionnant le choix
"Tri des caractères" dans le menu "Affichage des taxons".
La hiérarchie peut être globale ou développée localement. Dans le premier cas, chaque niveau de l'arborescence
correspond à un caractère, qui est donc le même dans toutes les branches, à niveau égal. Les noeuds effectifs
correspondent aux états. Dans le second cas, une branche donnée de la hiérarchie peut être subdivisée individuellement
par des caractères qui ne sont utilisés que dans cette branche. Cette subdivision peut naturellement être appliquée
ensuite aux sous-branches, et ainsi de suite. Il est alors possible de générer manuellement une hiérarchie totalement
libre des taxons, ce qui peut aussi servir de point de départ à la construction d'une clé d'identification
(voire à la construction complètement manuelle de cette clé).
Par défaut, lorsqu'aucun critère de tri n'a été défini, le mode de fonctionnement est global: tout caractère ajouté
est utilisé pour toutes les branches de la hiérarchie, au même niveau. Dès qu'une branche a été décrite localement,
le mode global devient inaccessible (sauf pour enlever tous les critères de tri), et seul le développement individuel
des branches reste accessible.
Cette fenêtre présente la liste des caractères applicables à la description courante.
Son titre indique le nombre de caractères effectivement utilisables. Ce nombre dépend de trois facteurs:
- le nombre de caractères déclarés dans la base
- les dépendances entre caractères: si un caractère dépend d'un autre
(le caractère "maître"), il n'apparaît pas dans la liste tant que le caractère "maître" n'est pas décrit. Et
il ne peut ensuite figurer que si le caractère "maître" est décrit, mais pas avec un état rendant le caractère concerné
inapplicable.
- l'utilisation des critères de sélection (vues): l'application de ces critères permet de n'afficher dans la liste
que des caractères obéissant à certaines contraintes, et donc de limiter cette liste aux seuls caractères effectivement
utilisables pour l'identification courante.
Le bouton "options" ouvre le menu d'accès aux modalités d'affichage de la
liste (tri, éventuellement vues).
Dans cette liste, chaque caractère peut être associé à une icône:
- l'icône indique que d'autres caractères dépendent du caractère marqué.
Elle ne peut apparaître que tant que le caractère n'est pas décrit, et indique donc que d'autres caractères ne sont
pas actuellemnt disponibles, car dépendants de ce caractère. En cliquant sur cette icone, on obtient l'ouverture de la liste des caractères dépendants.
Cette liste comprend aussi bien les caractères déclarés directement dépendants du caractère marqué, que ceux
qui sont dépendants de caractères eux-mêmes dépendants, et ainsi de suite.
- l'icône indique que le caractère a déjà été renseigné. Naturellement, ce caractère peut toujours être
à nouveau édité pour être modifié.
- l'icône indique que le caractère a été renseigné, mais que la description comportait un
doute.
Classement des caractères par pouvoir discriminant
C'est le premier choix offert. Il est toujours accessible et permet
d'activer ou de supprimer le tri des caractères. Si le tri est actif, les caractères sont classés par pouvoir discriminant décroissant dans la liste.
Ceci offre à l'utilisateur une aide pour sélectionner les caractères les plus discriminants, donc susceptibles de faire évoluer le
plus rapidement la sélection des taxons, en en éliminant le maximum à chaque caractère.
L'utilisation du pouvoir discriminant doit toutefois être interprétée en parallèle avec les notions de
dépendance
des caractères. Ainsi, un caractère peut par lui-même ne pas avoir un fort pouvoir discriminant, voire même aucun pouvoir,
mais conditionner l'accès à des caractères fortement discriminants. Ce caractère "maître" sera classé dans la liste
conformément au plus fort pouvoir discriminant de ses dépendances. Typiquement, la reconnaissance du sexe d'un individu
ne permet pas d'identifier le taxon, mais peut permettre d'accéder à la description des caractères sexuels primaires ou secondaires
éventuellement très discriminants.
Dans ces conditions, il est donc tout à fait possible que le fait de décrire un caractère classé en haut de la liste
ne change pas le nombre de taxons candidats, mais augmente seulement le nombre de caractères accessibles, de nouveaux caractères
apparaissant alors en haut de la liste.
L'icône placée devant le taxon permet indique l'existence des dépendances et permet d'en obtenir
la liste.
Ce choix n'apparaît que si les vues ont été déclarées dans la base de connaissances utilisée (elles ne font pas
partie du langage DELTA standard). Il permet d'accéder à la liste des vues, et à partir d'elle de sélectionner les caractères
par une combinaison ensembliste sur ces vues
Les caractères peuvent être associés à deux types d'informations complémentaires: une image ou un texte seul.
L'image fournit une illustration globale du caractère, détaillant par exemple les différents états décrits. Une telle
image peut se présenter sous deux formes: soit une image locale à l'intérieur de la fenêtre de l'applet, soit une page
HTML complète. Dans ce dernier cas, cette page s'ouvre dans une deuxième fenêtre du navigateur, qu'il faudra ensuite
refermer manuellement pour revenir à l'identification.
Les caractères peuvent être organisés selon une hiérarchie (cette fonctionnalité
n'existe pas dans le langage DELTA standard). Si c'est le cas dans la base, cette fenêtre présente la liste, elle-même
hiérarchique, des critères de sélection (les vues) auxquels sont rattachés les caractères.
Il existe alors toujours une vue de base, marquée par le caractère "*".
Chaque élément de la liste peut être sélectionné individuellement, ce qui permet de lui associer un mode d'utilisation
par ouverture d'un menu spécifique. Compte tenu de la structure hiérarchique de cette liste,
le mode d'utilisation sélectionné pour une vue donnée est par défaut propagé automatiquement sur les niveaux inférieurs.