BlueGEEK Journal

Accueil > Programmes > Hprimator > Algorithme 4 : Les passes multiples

Algorithme 4 : Les passes multiples

mercredi 18 décembre 2013, par bluegyn_spip


UN SEUL PASSAGE


- Il est toujours possible qu’avec un texte particulièrement bien conformé, au balisage rigoureux, à l’écriture sans pâté, la première lecture retrouve d’emblée l’ensemble 3 champs clefs


MULTIPASSE


- Mais parfois il n’en trouve qu’un ou 2 et parfois aucun

- S’il en retrouve 1, l’algorithme probabiliste, possède maintenant un joker et peut appliquer la loi de Bayès,

Que devient A sachant B

- Le champ trouvé devient donc une nouvelle "Balise" pour le passage suivant.

- C’est comme un jeu de Poker à plusieurs tours, chaque tour apporte son nouvel indice, et nous rajouterons autant de tours de passe qu’il est nécessaire pour dénicher dans un texte nos 3 champs clefs.


EXEMPLES

  • En principe si je ne trouve pas le NOM, je ne trouverai pas non plus le Prénom, car le NOM est la balise implicite du Prénom
  • Supposons donc que je n’ai que la Date de Naissance,
    • C’est sans doute le champ le plus facile a trouver, car même si on ne possède pas de balise "née le", la présentation des dates est très particulières (mis à part le côté fantaisiste du formatage des dates, en tous cas, c’est souvent fantaisiste, mais c’est aussi toujours formaté : Jour Mois Année)
  • Si je n’ai pas le nom, c’est qu’il n’est pas balisé (La ligne ne commence pas par "Mme" ou "Mr" par exemple, le plus souvent la ligne commence directement par le NOM,
  • Il suffit donc, de pointer la ligne dans laquelle figure la date de naissance, puis d’aller lire son début pour trouver le NOM

- Un autre exemple serait de retrouver une date de rédaction

  • Un grand nombre de courriers commencent par :
    • Lorient le
    • Brest le,
    • Rennes, le

L’algorithme probabiliste dit qu’il suffit de trouver la ligne qui contient la Ville pour trouver la date !

Cet algorithme probabiliste sera développé dans le concept de la

LIGNE MAGIQUE