Accueil > Programmes > Hprimator > Algorithme 3 : Hiérarchie des boucles
Algorithme 3 : Hiérarchie des boucles
jeudi 12 décembre 2013, par
Analyser le document, ligne par ligne, en cherchant dans chaque ligne s’il existe une balise
Ou analyser les balises l’une après l’autre, dans l’ordre de pertinence, et tester ensuite si elles apparaissent dans le document
Ne donne pas du tout les mêmes résultats
Dans la hiérarchie des boucles, l’énumération des balises représente la boucle mère, l’énumération des lignes, la boucle fille.
Grâce à cette hiérarchie des boucles, l’ordre de classement des balises prend toute sa pertinence
l’ordre Le plus pertinent de classement étant a priori le classement du plus long, vers le plus court.
soit trois balises permettant de repérer la date de naissance (né, ,née le, née le :)
le classement par ordre alphabétique :
- né
- née le
- née le :
risque d’égarer le moteur de recherche, s’il commence par la plus courte
- né étant peu spécifique, risque de se retrouver à plusieurs endroits dans le texte
Alors que le classement par taille décroissante
- née le :
- née le
- né
Trouvera neuf fois sur 10 la bonne information dès le premier tour de boucle,
le troisième tour étant considéré comme un pis allé, le moteur de recherche, rentrant bredouille en fin de chasse, se contente de menu fretin.
Dans l’algorithme HPRIMATOR, la boucle s’arrête dès que l’occurrence est trouvée, ce qui souligne encore l’importance du classement des balises.
if Balise <> ’’ then Break ; |
l’algorithme ne tient pas compte de la casse de la balise.
- il utilise la fonction :
AnsiContainsText |
- et non la fonction :
System.Pos |
Pourtant plus rapide et beaucoup plus précise, mais trop "casse dépendante".