BlueGEEK Journal

Accueil > Programmes > Hprimator > Algorithme 5 : La Ligne Magique

Algorithme 5 : La Ligne Magique

mercredi 18 décembre 2013, par bluegyn_spip

- La ligne "Magique", est la ligne du texte qui contient les 3 champs Clefs

- Si l’on a trouvé la ligne magique on a résolu notre problème

FORMATAGE

- La ligne magique idéale ressemblerait à ceci :

Mme DUPONT Marie née le 14/07/1789,

Règles de base :

- Elle contient

Balise de Nom Mme 
Balise de Date de Naissance née le
Le Nom tout en Majuscules DUPONT
Le Prénom en Capitales Marie
Une date bien formatée, avec 3 séries de chiffres séparés par un signe / 14/07/1789


Algorithmes pour trouver la ligne magique

Ligne qui contient une des Balises de NOM
Ligne qui contient une des Balises de DDN

- Pour diminuer les risques d’égarement,puisque la ligne magique doit être unique, il est préférable de toujours associer 2 critères

Ligne qui contient une des Balises de NOM ET qui contient une des Balises de DDN

- L’algorithme Bayésien à 2 critères (A sachant B) devient particulièrement performant en l’absence totale de balises
- Si la première passe (recherche des balises) ne trouve rien, il suffit le plus souvent de chercher :

La Ligne qui contient un Prénom et une Date

- Il est donc indispensable de savoir reconnaitre dans un texte

  • un prénom
  • Et une date

- La date se reconnait par son format
- Le Prénom se reconnait surtout parce qu’il est mémorisé quelque part dans une "Banque de Prénoms" usuels.

  • Cette Banque va s’enrichir au fur et à mesure de l’utilisation du programme
  • 25 ans de pratique, sur une dizaine de milliers de dossiers, donne une liste qui n’atteint pas 800 unités, ce qui est assez facile à gérer pour un processeur puissant.
  • Reste le Pb des accents, qui peut être contourné par des fonctions d’approximation phonétiques comme "SoundEx")