BlueGEEK Journal

Accueil > Programmes > Hprimator > Algorithme 3 : Hiérarchie des boucles

Algorithme 3 : Hiérarchie des boucles

jeudi 12 décembre 2013, par bluegyn_spip

- Analyser le document, ligne par ligne, en cherchant dans chaque ligne s’il existe une balise
- Ou analyser les balises l’une après l’autre, dans l’ordre de pertinence, et tester ensuite si elles apparaissent dans le document

Ne donne pas du tout les mêmes résultats

- Dans la hiérarchie des boucles, l’énumération des balises représente la boucle mère, l’énumération des lignes, la boucle fille.

- Grâce à cette hiérarchie des boucles, l’ordre de classement des balises prend toute sa pertinence
- l’ordre Le plus pertinent de classement étant a priori le classement du plus long, vers le plus court.

- soit trois balises permettant de repérer la date de naissance (né, ,née le, née le :)

le classement par ordre alphabétique :

  1. née le
  2. née le :

- risque d’égarer le moteur de recherche, s’il commence par la plus courte

  • étant peu spécifique, risque de se retrouver à plusieurs endroits dans le texte

- Alors que le classement par taille décroissante

  1. née le :
  2. née le

- Trouvera neuf fois sur 10 la bonne information dès le premier tour de boucle,
- le troisième tour étant considéré comme un pis allé, le moteur de recherche, rentrant bredouille en fin de chasse, se contente de menu fretin.


- Dans l’algorithme HPRIMATOR, la boucle s’arrête dès que l’occurrence est trouvée, ce qui souligne encore l’importance du classement des balises.

if Balise <> ’’ then Break ;

- l’algorithme ne tient pas compte de la casse de la balise.

  • il utilise la fonction :
AnsiContainsText
  • et non la fonction :
System.Pos

- Pourtant plus rapide et beaucoup plus précise, mais trop "casse dépendante".