Google bot c'est vraiment une logique binaire ^^

WRInaute accro
J'ai un petit problème, j'ai fait une premiere version d'url rewriting de mon forum, avec par exemple des liens comme ceci:

monsite.com/forum/message_XXXX.html


comme on peut retrouver sur WRI (je crois), et ca envoyait à l'endroit PILE d'un post sur le forum. Donc environ 70 000 liens comme ça ont existait sur mon forum, et google les as déjà crawlé.


Mais depuis quelques temps, j'ai viré tous ces liens, plsu auccun n'apparait sur mon forum j'ai voulu privileger ce type d'url:

monsite.com/forum/xxx_titre_du_topic.html


mais googlebot à bonne mémoire et il se souvient des anciennes pages, et il continu à les crawler très fortement, et le pire c'est que ces pages en pratique existent, donc il va continuer at vitae eternam? Meme si plus aucune page ne les link?

Ca me fait du contenu dupliqué ça.


Comment l'en empecher à votre avis?
 
WRInaute occasionnel
Pourquoi les anciennes pages existent -elles en pratique? Vire le rewriting des anciennes pages et elles n'existeront plus. Enfin, c'est mon avis...

Arnaud
 
WRInaute accro
je ne vois pas se que je pourrai mettre dans le robots.txt pour emepcher de visiter ces pages, car c'est des pages url rewrités.


Virer la réécriture en message_xxx.html ca voudrait dire comme sous entend mahe 70 000 pages en 404 c'est pas très pro.


Je voudrais simplement qu'il arrete de les crawler, et ensuite je virerai la regle de réécriture.


Il a bien arreté de crawler directement mes anciennes anciennes pages viextopic.php?t=xxxx il a comprit que il n'y avait plus de liens vers ce genre de pages mais pour les messages_xxx.html malgré le fait qu'il n'y ai plus de lien il continu.

Et je suis vert quand je vois des milliers et des milliers de crawls sur des pages que je ne vois plus apparaitre.


Y a pas de solutions? :-( Sans faire des 404 à gogo. Juste lui dit d'arreter de crawler ça.
 
WRInaute occasionnel
Si tu fait une redirection 301 des anciennes url vers les nouvelles? Je pense que ça doit pas être trop dur à faire.

Arnaud
 
WRInaute accro
Et bien si... Car message_xxx.html est le lien vers un post sur un forum alors que les urls que j'ai sont des topics sur un forum.


Faire une corelation entre post et topic avec en plus gestion des différentes pages quand un topic depasse 15 posts.


T'imagine tout se qu'il faut coder, autant j'aime bien coder, j'ai fait l'url rewritting avec mot clef dans le titre moi meme, autant ça ce serait de la folie.
 
WRInaute accro
oui mais meme dans ma premiere version je n'aurai jamais du faire une page message_xxx.html pour les "post" car ca fait des duplicate contents avec les viewtopic de toute façon.

Y a qu'a voir Wri, il a viré le petit lien qui se trouvé normalement juste avant chacun de nos post avant le: "Posté le : Ven Déc 03" Normalement il y a une image à cet endroit avec un lien vers le post exact.

(je comprend du reste pas pourquoi Olivier à viré l'image, il aurait pu virer le lien en laissant l'image blanche ou orange en fonction du fait que oui ou non on a déjà vu le post).
 
WRInaute passionné
Une page et ses extraits, ca ne fait pas vraiment de duplication en fait.
Sinon le robots.txt ne met pas la page en 404, il conseille aux robots de ne plus y aller, donc ca peut aider.
Tu peux aussi protéger par des meta noindex (surtout si ce sont des pages "message" distinctes des pages "topic", bref sans empiéter sur les pages a garder).
Ou aussi bannir les IPs des robots cherchant a voir ces pages?
S'il n'y a plus du tout (meme dans les messages postés) de liens vers ces URLs, ca devrait aller. Mais si elles se font des liens entre elles, c'est pas gagné...
Voir la FAQ de Google pour supprimer des pages de l'index
 
Discussions similaires
Haut