Nouveauté sur le nombre de paramètres dans une url

WRInaute passionné
Bonjour

Ca y est, Google a commencé à suivre des pages à 3 paramètres ( celle-ci h**p://membres.lycos.fr/suede/show_photos.php?id_photo=359&main_back=photo10&lang=en )
Je n'ai aucun PR>5. Les pages qui mènent à la page crawlée sont depuis peu dans google mais apparaissent encore en grisé dans la GB.
Jusqu'à présent, je n'avais eu que des pages à deux paramètres crawlées.

François
 
WRInaute occasionnel
Info complémentaire mais concernant les autres moteurs, j'ai fait une petite recherche des pages crawlées, d'autres moteurs se sont mis à 2 paramètres (désolé, je n'ai pas de page à 3 params, pas pu tester plus). en voici une première liste :
slurp@inktomi.com
ia_archiver
Pompos
D'autres ne dépassent pas 1 param :
almaden

Je pense qu'à terme l'astuce de l'Url rewriting deviendra moins intéressante si les moteurs accèptent les paramètres.
 
WRInaute accro
je ne m y connais pas du tout dans ce domaine mais il me semble que l url rewritting restera intersante dans la mesur ou l URL meme pourra comporter des termes plus explicites que des variables, non ?
 
WRInaute occasionnel
Les moteurs peuvent également donner plus de poids aux valeurs qu'aux variables, non ? C'est ce qui se passe également avec l'URL rewriting, sauf que ce dernier présente une URL plus sexy. Mais je doute que les internautes donnent beaucoup d'importance aux URL autres que répertoires.
Comparé à la charge de travail que le rewriting représente, je ne pense pas qu'au final cela restera une bonne affaire. Les moteurs de recherche ont bien plus intérêt de donner du poids au contenu des pages qu'à la façon dont est formée l'URL.
 
WRInaute accro
c est sur !! est tu en train de dire qu'une structure en répertoires a un impact favorable sur le referencement des pages par rapport au memes pages qui seraient toutes a la racine du site ?
 
WRInaute passionné
herveG a dit:
c est sur !! est tu en train de dire qu'une structure en répertoires a un impact favorable sur le referencement des pages par rapport au memes pages qui seraient toutes a la racine du site ?

Pas la structure, mais plutôt les mots présent dans l'url.

François
 
WRInaute occasionnel
Je précisait que c'étaient les internautes qui retenaient plus facilement les URL de répertoires que les pages, si j'en crois mes logs (erreurs 404 en accès direct). Je ne parlais pas de l'impact de la structure des réperotires du site sur le référencement.
 
WRInaute accro
Suede a dit:
herveG a dit:
c est sur !! est tu en train de dire qu'une structure en répertoires a un impact favorable sur le referencement des pages par rapport au memes pages qui seraient toutes a la racine du site ?

Pas la structure, mais plutôt les mots présent dans l'url.

François

donc par conséquence, les mots de la structure que l on retrouve dans l URL.....! ok. merci pour l info !
 
WRInaute discret
Quelqu'un d'autre que Suede aurait il remarqué des pages nouvelles indexées avec trois variables... Depuis la dernière Dance...

Avez vous des exemples de pages !
 
WRInaute passionné
BZHcool a dit:
Avez vous des exemples de pages !

Il essaye même de référéncer le login du forum :
forum/login.php?redirect=privmsg.php&folder=inbox&mode=post&u=9 -->crawler12
forum/login.php?redirect=privmsg.php&folder=inbox&mode=post&u=27 -->crawler11
forum/login.php?redirect=privmsg.php&folder=inbox&mode=post&u=10 -->crawler10
show_photos.php?id_photo=176&main_back=photo3&lang=fr --> crawl34
show_photos.php?id_photo=694&main_back=photo5&lang=fr --> crawl35
photo_theme.php?id_theme=53&back_theme=7&lang=fr --> crawl32
show_photos.php?id_photo=359&main_back=photo10&lang=en --> crawl35

show_photos.php?id_photo=502&theme_back=31&main_back=photo1 --> crawl35 show_photos.php?id_photo=502&theme_back=48&main_back=photo1 --> crawl34
show_photos.php?id_photo=502&theme_back=7&main_back=photo1 --> crawl31
show_photos.php?id_photo=502&theme_back=8&main_back=photo1 --> crawl31
etc

Donc excepté les 3 premiers 10-12-12, qui crawlent 4 paramètres, les bots qui crawlent 3 paramètres sont crawl31 à 36.

François
 
WRInaute passionné
En tout cas, ca m'a permis de détecter des erreurs dans le codage des urls et des paramètres de retour que je passais dans l'url. Du coup, supprimé en attendant.

François
 
Nouveau WRInaute
ia archiver

je suis un peu off topic, mais permettez moi d'attirer votre attention sur ia archiver, ce robot appartient à http://www.archive.org/ qui a pour ambition d'archiver tout l'Internet pour des années. Le site est américain, avec tout ce que cela comprend de mépris sur le respect de la vie privée des gens/webmasters et l'anonymat. Vous vous imaginez vous faire reprocher dans 10ans un post sur un forum ou que votre dulcinée découvre une de vos déclarations emflammées lors d'un amour cybernétique 2 ans auparavant ?

Qui plus est ce site ne se pose aucune question relative au copyright des sites.

Alors pour moi c'est clair : un grand coup de User-agent: ia_archiver
Disallow: / dans le robots.txt !
 
WRInaute passionné
Re: ia archiver

Ranklover a dit:
je suis un peu off topic, mais permettez moi d'attirer votre attention sur ia archiver, ce robot appartient à http://www.archive.org/ qui a pour ambition d'archiver tout l'Internet pour des années. Le site est américain, avec tout ce que cela comprend de mépris sur le respect de la vie privée des gens/webmasters et l'anonymat. Vous vous imaginez vous faire reprocher dans 10ans un post sur un forum ou que votre dulcinée découvre une de vos déclarations emflammées lors d'un amour cybernétique 2 ans auparavant ?

Qui plus est ce site ne se pose aucune question relative au copyright des sites.

Alors pour moi c'est clair : un grand coup de User-agent: ia_archiver
Disallow: / dans le robots.txt !

Dans ce cas, il faut que tu empeches tous les robots de mettre ta page en cache :

Code:
<META NAME="ROBOTS" CONTENT="NOARCHIVE">
<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE">

François
 
WRInaute accro
bon idem pour moi ce soir

36 /modules.php?name=News&file=article&sid=94 18:13:15 1 64.68.88.28 crawl31.googlebot.com

39 /modules.php?name=Web_Links&l_op=brokenlink&lid=456 18:18:26 1 64.68.88.22 crawl31.googlebot.com

40 /modules.php?name=Your_Account&op=userinfo&uname=sally 18:42:52 1 64.68.88.28 crawl31.googlebot.com

42 /modules.php?name=Surveys&op=results&pollID=2 19:42:23 1 64.68.88.28 crawl31.googlebot.com

45 /modules.php?name=Web_Links&l_op=viewlink&cid=6 20:47:11 1 64.68.88.18 crawl31.googlebot.com
 
WRInaute passionné
J'ai une pointe de googlebot en ce moment et c'est quasiment systématique : 3 paramètres dès qu'il y en a 3 dans l'url.

François
 
WRInaute occasionnel
mahefarivony a dit:
euh.. dites...

2 URL qui pointent sur la meme page, ca ne craint pas o moins ???

Dans le doute...
J'avais deux URL avec les mêmes paramètres mais pas dans le même ordre. J'ai constaté que le bot allait voir les deux. Pour éviter les duplicate content, éviter des hits inutiles du bot et éviter une éventuelle dillution du PR (s'il considère cela comme 2 pages) j'ai du nettoyer mon code pour avoir mes paramètres toujours dans le même ordre.
 
WRInaute occasionnel
mahefarivony a dit:
bon, a 4 parametres meme !

14 /login.php?redirect=privmsg.php&folder=inbox&mode=post&u=25 05:08:11 1 64.68.88.35 crawl32.googlebot.com

4 paramètres, qui dit mieux! (Je n'ai pas trouvé de pages indexées avec 5 paramètres
pour l'instant).

Katia
 
WRInaute passionné
Suede a dit:
Ca y est, Google a commencé à suivre des pages à 3 paramètres ( celle-ci h**p://membres.lycos.fr/suede/show_photos.php?id_photo=359&main_back=photo10&lang=en )
François

Bonjour François,

Il me semble que cela fait longtemp que Google crawle les pages avec plusieurs param dans les URLS.
J'avais publié une petite "étude" il y a plus d'un an sur le référencement des sites dynamiques (principalement PHP).

L'étude avait porté sur la présence de plus de 100.000 urls dans les différents moteurs de recherches.

A l'époque déjà, on trouvait plus de 3 params dans les urls de Google.

Personellement je ne suis pas favorable au fait d'avoir trop de param ( 2 me semble un max), mais il ne me semble que cela empêche l'indexation par Google.

A l'époque j'avais un site en phpnuke et Google avait indexé de nombreuses pages avec +de 3 params dans l'url.

Je pense qu'il faut quand même priviligier l'url rewriting quand c'est possible, mais un nombre "important" (3-5) de param dans l'url ne me semble pas bloquer Google.

Une remarque toutefois concernant le PHPSESSID: JAMAIS dans l'url.
(même si l'on trouve dans l'index de Google des urls avec des id sessions)

Je connais un site qui avait plus de 150 pages dans Google. Ils ont gérer leur session PHP dans l'URL. Il ne reste plus qu'une page dans Google (la page d'accueil). Tout est à refaire.
a+,
--
Philippe
 
Olivier Duffez (admin)
Membre du personnel
quel était le PR de ce site ? moi je n'avais vu ça que sur des sites au PR égal au moins à 7 ou 8
 
WRInaute passionné
Le PR du site en PHPNUKE ? à l'époque ce devait être 3 ou 4. Je parle au passé car le site n'existe plus, mais est toujours présent dans google !

Chaque semaine dans mon index j'ai 15 millions de lignes 8)
ça aide pour faire des stats !

dans tout les cas, il vaut mieux limiter le nombre de param dans l'url.
Un site avec trop de param dans l'url est un site mal programmé (aie, aie. non pas taper) :wink:

Je dis ça en priorité pour moi :roll:
A une époque j'avais une dizaine de param dans les urls d'un site. Affolant !
a+,
--
Philippe
 
WRInaute passionné
spidetra a dit:
dans tout les cas, il vaut mieux limiter le nombre de param dans l'url.
Un site avec trop de param dans l'url est un site mal programmé (aie, aie. non pas taper) :wink:

Boum, si tapé très fort :)

10 paramètres est en effet affolant...
Mais plus de deux est parfois nécessaire. Dans mon cas, trois sont nécessaires. Avec uniquement deux, je serais obligé de créer des pages suppléméntaires de manière régulière.
C'est vrai, que je suis dans le cas d'un site à peu près trilingue (surtout en français) et que je suis obligé d'avoir un paramètre de langue.
Je pourrais bien sur simuler de l'url rewriting mais je ne suis pas sur que côté programmation ce soit le plus élégant.

François
 
WRInaute passionné
3, 4 param c'est vraiment peu, et le site est donc bien programmé. Ouf ! sauvé.
Je te rassure les 10 param ont été remplacé par des cookies.
En cherchant un peu on trouve vraiment des urls ésotériques, mais alors vraiment ésotériques. Malheureusement j'ai pas d'exemple sous la main.
Certains développeurs adorent se compliquer la vie.
a+,
--
Philippe
 
WRInaute discret
bonjour,

je ne comprends pas pourquoi c'est affolant d'avoir des var. dans l'url. Pour ma part, lorsque ce sont des variables non 'importantes', je les mets dans l'url.
C'est un plaisir lorsque l'on regarde un site, de pouvoir manipuler l'url directement. Donc pourquoi pas laisser la possibilité aux autres de pouvoir le faire ?
http://www.labonneadresse.com/annuaire. ... ar_page=30
ca fait si barbare que ca ?
Par contre, je pose la question : une url comme ceci :
http://lemontdetranset.labonneadresse.com
ca pose des problemes ou pas ?
Parce que j'ai proposé cette url, et mon site a disparu de google...(il n'y était pas bien classé, mais tout de meme !!)

Voilà, A+, Nico.
 
WRInaute occasionnel
Peut-être est-ce tout simplement lié aux erreurs HTML :
- un script entre head et body
- des meta tags qui ne sont pas corrects
- des liens mal formés (a href="index.php?&page=accueil")
- un non respect des standards html
- des erreurs dans les formulaires (name=keypass[] ) et mauvais placement des balises par rapport à la table
- une structure de table erronnée (</td></td>)
etc.

Googlebot est très permissif, mais je pense qu'il aura des difficultés à analyser la page.
 
WRInaute passionné
mahefarivony a dit:
oui ok d'accord mais quelle est la page a 5 parametres qu'il a indexé chez toi ?

Il vient de la crawler h**p://membres.lycos.fr/suede/show_photos.php?id_photo=37&theme_back=27&main_back=phototheme&back_theme2=15&lang=en
plus plusieurs du même type.
je n'ai pas trouvé de pages à plus de deux paramètres indexés dans google.
Est-ce que ce crawl sert vraiment à l'indexation ou à affiner d'autres choses?

François
 
WRInaute discret
Bonjour,
il y a une file de discussion sur les url avec id comme parametre, tel que :
......*******histomob/forum3.asp?level=2&<b>id=1383</b>
Il semblerait que google ne prenne pas l'url en compte dans la mesure où il pense (si,si,..) que ce pourrait etre un 'id de session'. Il faudrait changer le nom de ce parametre en ... &num=1383 par exemple, ou &id_mess=1383. Jettes un oeil dans les dernieres discussions, tu retrouveras le sujet, les messages et les conseils.

A+, Nico.
 
WRInaute discret
Je trouve sur ton site des : h**p://www.histomobile.com/histomob/dirige.asp?ID=50055908&lan=1

Normallement GG ne prendra pas cette adresse en référencement car il y a ID=

Maintenant ce n'est peut etre pas ce genre de page que tu veux faire référencer...
 
WRInaute discret
Dirige n'est qu'une page de calcul qui débouche sur une page html, mais petit à petit je vais changer tous les id,id1,id2 et id3.

J'aimes les idées ;-)

Mais d'abord vérifier que le forum rentre sur Google et BOUM je change le reste.
 
Discussions similaires
Haut