Le PR d'un index peut-il être diff. de celui de son ndd ?

emartin.kh · 13 Avril 2006

Bonjour tout le monde,

Voilà. Au détour d'une recherche de site pour faire mes courses en ligne, je suis arrivé sur Houra.fr et voici un cas que je trouve intéressant car il réunit pas mal de questions que je me posais par ailleurs...

Voici ma 1ère question : comment se fait-il que le PageRank de www.houra.fr/index.php soit de 1 alors que celui de www.houra.fr est de 6 ?
Le PR de l'index d'un site peut-il être différent de celui de son ndd ??? Comment ? 8O

D'autre part, pensez-vous que les robots soient en mesure de passer par un lien nécessitant le remplissage d'une textbox comme c'est le cas ici (http://www.houra.fr/index.php?c=h en est la cible. Son PR est de 0 sur IE, 2 sur Mozilla (d'ailleurs, là non plus, j'y comprends rien !), alors que celui du ndd est de 6... Comment se faisse ?!) ? Sinon, comment expliquer que 13 000 de leurs pages soient indexées par Google ?

Enfin, d'une manière générale, un robot peut-il emprunter les liens Javascript (Googlebot notamment) ? Sinon, comment expliquer les 13 000 pages du site indexées par ce dernier au vu des liens "rayons" à l'intérieur du site ?

Quelqu'un pour éclairer ma lanterne ?

A +,

Ed.

spidetra · 13 Avril 2006

Re: Le PR d'un index peut-il être diff. de celui de son ndd

emartin.kh a dit:
Voici ma 1ère question : comment se fait-il que le PageRank de www.houra.fr/index.php soit de 1 alors que celui de www.houra.fr est de 6 ?
Le PR de l'index d'un site peut-il être différent de celui de son ndd ??? Comment ? 8O

Oui, ces 2 pages sont différentes.
Les liens pointent vers houra.fr et non pas vers houra.fr/index.php ce qui explique la différence de PR

emartin.kh a dit:
D'autre part, pensez-vous que les robots soient en mesure de passer par un lien nécessitant le remplissage d'une textbox comme c'est le cas ici (http://www.houra.fr/index.php?c=h en est la cible. Son PR est de 0 sur IE, 2 sur Mozilla (d'ailleurs, là non plus, j'y comprends rien !), alors que celui du ndd est de 6... Comment se faisse ?!) ? Sinon, comment expliquer que 13 000 de leurs pages soient indexées par Google ?

Les robots ne sont pas capable de remplir les textbox. je parle pour les moteurs de recherches.
Le PR n'est pas attribué à un NDD, mais à des pages individuelles.

emartin.kh a dit:
Enfin, d'une manière générale, un robot peut-il emprunter les liens Javascript (Googlebot notamment) ? Sinon, comment expliquer les 13 000 pages du site indexées par ce dernier au vu des liens "rayons" à l'intérieur du site ?

Quelqu'un pour éclairer ma lanterne ?

A +,

Ed.

Oui, Googlebot est capable de suivre quelques liens javascript, pas tous.
Il peut au moins suivre les windows.open

Toutou-Fr · 13 Avril 2006

Re: Le PR d'un index peut-il être diff. de celui de son ndd

Bonjour ,

emartin.kh a dit:
Bonjour tout le monde,
Voici ma 1ère question : comment se fait-il que le PageRank de www.houra.fr/index.php soit de 1 alors que celui de www.houra.fr est de 6 ?
Le PR de l'index d'un site peut-il être différent de celui de son ndd ??? Comment ? 8O

le "/" et le "/index.php" sont deux url différentes, donc oui c'est normal, c'est tout simplement parcequ'il y a plus de liens qui pointent vers le nom de domaine de ce site que vers son fichier index.

A savoir : le fichier "index.php" n'est pas forcémment la page principale d'un site par défaut,si tu veux que lorsque l'on tappe le nom de domaine de ton site on obtienne la page cestuntest.php c'est tout à fait possible.

emartin.kh a dit:
D'autre part, pensez-vous que les robots soient en mesure de passer par un lien nécessitant le remplissage d'une textbox comme c'est le cas ici (http://www.houra.fr/index.php?c=h en est la cible.

Un bot ne va pas remplir un formulaire, mais si celui ci est envoyé avec la méthode GET , il est tout à fait possible de référencer la page résultante en référencant l'url obtenue après envoi du formulaire. (les variables sont contenues dans l'adresse)

emartin.kh a dit:
Son PR est de 0 sur IE, 2 sur Mozilla (d'ailleurs, là non plus, j'y comprends rien !), alors que celui du ndd est de 6... Comment se faisse ?!) ?

Peut être n'es tu pas tombé sur le meme data center.

emartin.kh a dit:
Sinon, comment expliquer que 13 000 de leurs pages soient indexées par Google ?

Qu'y a t'il de louche ? certains sites ont plusieurs millions de pages indexées.

emartin.kh a dit:
Enfin, d'une manière générale, un robot peut-il emprunter les liens Javascript (Googlebot notamment) ?

pas à ma connaissance en tout cas..mais qui sait, ils bossent certainement dans cette optique ?

emartin.kh a dit:
Sinon, comment expliquer les 13 000 pages du site indexées par ce dernier au vu des liens "rayons" à l'intérieur du site ?

certainement par la présence d'un sitemap

emartin.kh a dit:
Quelqu'un pour éclairer ma lanterne ?

la fonction rechercher du forum est bien pratique

spidetra : sorry pour le croisement ;-)

spidetra · 13 Avril 2006

@Toutou-Fr : nos réponses se complètent c'est bien

emartin.kh · 13 Avril 2006

Je trouve aussi oui. Merci !

Cependant, si je suis votre raisonnement, ce site n'a donc aucune chance de diffuser un PR convenable auprès de ses autres pages, puisque c'est celui de son index qui constituera la base de la transmission, et non pas celui du ndd.

Ou alors, puisqu'un ndd ne peut avoir de PR, cela reviendrait-il à dire que index.php n'est pas en réalité l'index "de base" de Houra.fr ?? Ce serait une explication car, par exemple, pour Fnac.com, on voit bien que le PR de www.fnac.com est identique à celui de www.fnac.com/default.asp...
De plus, la commande Google link:www.fnac.com renvoie le même nombre de BLs que link:www.fnac.com/default.asp, alors que link:www.houra.fr renvoie 121 Bls là où link:www.houra.fr/index.php n'en renvoie aucune...

Ou alors, je viens d'avoir une autre idée : dans le cas où index.php est bien l'index "racine", cela peut-il venir du fait qu'il est en réalité une page tunnel et qu'aucune page de l'intérieur du site ne renvoie vers lui ?? D'où un PR qui se diffuse mal...

spidetra · 13 Avril 2006

la base du site c'est bien : houra.fr

La page par défaut, dans ce cas la, c'est /index.php

Ces 2 urls correspondent exactement à la même page.

emartin.kh · 13 Avril 2006

Si index.php est bien l'index "racine" de Houra.fr, alors comment expliquer la différence de PR entre le ndd et index.php ?

Je ne crois pas que le fait que index.php comporte moins de BLs que houra.fr soit la raison. Selon moi, dans le cadre des BLs, ndd.com équivaut à ndd.com/index.html par exemple. Cela se vérifie (avec la comparaison des résultats de la commande "link:" pour chacune des 2 URLs) pour tous les exemples qui me sont passés par la tête...

Est-il possible que Googlebot n'ait pas "compris" que, en termes de BLs et PR, www.houra.fr = www.houra.fr/index.php (on peut se poser la question quand on voit les résultats de la commande "link:" différents d'une URL à l'autre, ce qui ne devrait d'après moi, pas être le cas...).

Qu'est ce qui occasionne cette différence ?!... :roll:

spidetra · 13 Avril 2006

emartin.kh a dit:
Si index.php est bien l'index "racine" de Houra.fr, alors comment expliquer la différence de PR entre le ndd et index.php ?

Les 2 urls sont bien différentes :
http://www.example.com/
http://www.example.com/index.php

mais ces deux urls correspondent à la même ressource : index.php

Les BL vers les 2 urls sont bien différents => différence de PR

emartin.kh · 13 Avril 2006

mais ces deux urls correspondent à la même ressource : index.php

En effet, c'est bien ce qui différencie une page d'index des autres pages d'un site web. Et c'est pourquoi je pense que les informations relatives au PR et BLs devraient être identiques, sauf si index.php n'est pas l'index de base du ndd en question...

Aurais-tu un exemple de site web dont la page index renvoie un PR et un nombre de BLs différent de son nom de domaine seul ?

spidetra · 13 Avril 2006

emartin.kh a dit:
Aurais-tu un exemple de site web dont la page index renvoie un PR et un nombre de BLs différent de son nom de domaine seul ?

Au hasard :
site:.fr dans google

- le premier : 3 pour le index.php, 7 pour la racine

emartin.kh · 13 Avril 2006

Excuse-moi mais je n'ai pas bien compris : site.fr et site.fr/index.php dis-tu ?

spidetra · 13 Avril 2006

non :

tu fait la recherche : site:.fr dans google

tu prend le premier resultat :
--www.meetic.fr
et
--www.meetic.fr/index.php

emartin.kh · 13 Avril 2006

Ah sorry. je réside au Cambodge, on interroge probablement pas les mêmes data centers... Moi le résultat n°1 pour cette requête est Free.fr.

Sinon, effectivement, c'est dingue... Les informations n'ont rien à voir. Cela peut-il être lié à la nécessité de s'identifier pour accéder au contenu de Meetic.fr, tout comme Houra.fr en indiquant son code postal dès la page d'accueil ?

Allez, il se fait tard, je me rentre. Je reprendrai cette petite discussion dès mardi car demain et lundi sont fériés ici (nouvel an Khmer) et je vais me promener.

Bonne année à tous donc et à l'année prochaine, sous le signe du chien !

spidetra · 13 Avril 2006

Bonne année

Toutou-Fr · 13 Avril 2006

emartin.kh c'est simple : la racine du site et le fichier index.php correspondent en toute logique à la même page, mais google n'a aucun moyen de le savoir, lui il voit deux urls différentes, il croit donc bêtement que ceux sont deux pages différentes.