Accueil > Programmes > Hprimator > Algorithme 5 : La Ligne Magique
Algorithme 5 : La Ligne Magique
mercredi 18 décembre 2013, par
La ligne "Magique", est la ligne du texte qui contient les 3 champs Clefs
Si l’on a trouvé la ligne magique on a résolu notre problème
FORMATAGE
La ligne magique idéale ressemblerait à ceci :
Mme DUPONT Marie née le 14/07/1789, |
Règles de base :
Elle contient
Balise de Nom | Mme |
Balise de Date de Naissance | née le |
Le Nom tout en Majuscules | DUPONT |
Le Prénom en Capitales | Marie |
Une date bien formatée, avec 3 séries de chiffres séparés par un signe / | 14/07/1789 |
Algorithmes pour trouver la ligne magique
Ligne qui contient une des Balises de NOM |
Ligne qui contient une des Balises de DDN |
Pour diminuer les risques d’égarement,puisque la ligne magique doit être unique, il est préférable de toujours associer 2 critères
Ligne qui contient une des Balises de NOM ET qui contient une des Balises de DDN |
L’algorithme Bayésien à 2 critères (A sachant B) devient particulièrement performant en l’absence totale de balises
Si la première passe (recherche des balises) ne trouve rien, il suffit le plus souvent de chercher :
La Ligne qui contient un Prénom et une Date |
Il est donc indispensable de savoir reconnaitre dans un texte
- un prénom
- Et une date
La date se reconnait par son format
Le Prénom se reconnait surtout parce qu’il est mémorisé quelque part dans une "Banque de Prénoms" usuels.
- Cette Banque va s’enrichir au fur et à mesure de l’utilisation du programme
- 25 ans de pratique, sur une dizaine de milliers de dossiers, donne une liste qui n’atteint pas 800 unités, ce qui est assez facile à gérer pour un processeur puissant.
- Reste le Pb des accents, qui peut être contourné par des fonctions d’approximation phonétiques comme "SoundEx")