Ajout indésirable derrière .html

WRInaute discret
Bonjour

Google génère des 404 en masse !!!!!

Exemple il génère ce genre d'url http://www.mon-domaine.com/dossier1/page.html/nom-de-page-inventer-par-google.htm

Ce qui est rouge n'existe pas et Google génère ça tout seul !!

Pour réecrite l'url de la page en Vert, j'utilise cette règle

RewriteRule ^dossier1/page\.htm$ index.php?action=page.php [L]

Etant donné que j'ai bien le drapeau [L] à la fin de ma règle je comprends pas comment Google peut détecter et essayer de mettre un truc derrière en rouge.
 
WRInaute occasionnel
Bonjour,

J'ai eu des soucis similaires mais Google n'invente rien. Il trouve ces pages sur des scrapers ou ailleurs encore sur le web et, du coup, les indexe.

A toi de faire en sorte que ces url renvoient un code 404 et non un code 200 (et là dessus je ne saurais t'aider)
 
WRInaute discret
Oui cela renvoi bien du 404 mais comme cela génère plus de 5000 pages qui n'existent pas, Google Webmaster Tools est en "warning" !
 
WRInaute accro
Non. Dans votre question initiale, vous indiquez des urls incorrectes.

La question de Loubet était : où Google vous indique t il avoir trouvé ces liens ?
 
WRInaute discret
Désolé de ne pas avoir été assez clair, je vais tenté d'être plus clair..

Marie-Aude a dit:
Non. Dans votre question initiale, vous indiquez des urls incorrectes.

La question de Loubet était : où Google vous indique t il avoir trouvé ces liens ?

MonWeb a dit:
Oui cela renvoi bien du 404 mais comme cela génère plus de 5000 pages qui n'existent pas, Google Webmaster Tools est en "warning" !

C'est dans Google Webmaster Tools que je trouve plus de 5000 pages qui n'existe pas :?
 
WRInaute accro
MonWeb a dit:
C'est dans Google Webmaster Tools que je trouve plus de 5000 pages qui n'existe pas :?

J'ai bien compris... moi y'en a pas bouchée :)

Quand GWMTools te liste les urls en erreur, quand tu cliques sur une url, tu as une pop up avec deux onglets :
- information sur l'erreur
- référencée sur

le deuxième onglet te dis où Google a trouvé cette url en erreur. Ce qui te permet de savoir d'où elle vient.
Si elle vient d'une page où l'url n'apparait pas dans le texte, c'est peut être ta réécriture, il suffit alors de tester la règle en essayant d'afficher l'ancienne url pour le voir.
 
WRInaute discret
J'ai bien compris... moi y'en a pas bouchée :)

hahaha bonne nouvelle :D

Si elle vient d'une page où l'url n'apparait pas dans le texte, c'est peut être ta réécriture, il suffit alors de tester la règle en essayant d'afficher l'ancienne url pour le voir.

mais pourquoi tu parle d'ancienne url ! :D

C'est simple 8O google génère : (et me dis dans WMT)

http://www.example.com/vodka/c-bon-avec-un-jus-pomme.html/alcoolique.html

avec la réecriture dans mon htaccess :

RewriteRule ^vodka/c-bon-avec-un-jus-pomme\.html$ index.php?action=c-bon-avec-un-jus-pomme.php [L]

qui devrait normalement donner

http://www.example.com/vodka/c-bon-avec-un-jus-pomme.html sans [alcoolique.htm]

Pas parce que je suis pas alcoolique, mais parce il ne doit pas générer alcoolique.html avec ma réecriture d'url dans mon htaccess.

Je suis très clair cette fois ci :roll:
 
WRInaute accro
Google ne génère pas, il suit des liens. Ces liens se trouvent
- sur une page du site
- sur un sitemap
- sur une page externe

Ils peuvent être "en dur" ou généré à partir d'un script (bouton de recherche)

Dans l'exemple que tu donnes, si il est réel, il est absolument IMPOSSIBLE que Google trouve comme un grand le "alcoolique.html" à partir de la règle de réécriture . Totalement impossible.

Donc :
- ton script action merde, et c'est lui qui va chercher quelque part dans la base de données une catégorie
- ton template merde et génère des urls, et c'est pour voir ça que ça serait intéressant de voir quelles sont les urls indiquées dans l'onglet "référencée sur" (s'il te plait... dis moi que tu es allé voir)
- tu as un concurrent qui te fait du negative seo (et pareil, tu verras la source dans l'onglet "référencée sur" dans GW)
- ton générateur de sitemap merde, et fait de mauvaises url

Tout le reste relève de la pensée magique
 
WRInaute accro
Pas mieux, dans ce cas de figure aller en premier lieu dans "Référencée par", qui donne la source de l'url erronée (et par source on entend le site / page où Google l'a trouvée).
 
WRInaute discret
UsagiYojimbo a dit:
Pas mieux, dans ce cas de figure aller en premier lieu dans "Référencée par", qui donne la source de l'url erronée (et par source on entend le site / page où Google l'a trouvée).

La source de ces Urls bizarre c'est mon propre site, et cela ne vient pas de mes liens internes :?
 
WRInaute discret
Je crois que j'ai fini par trouver !

Dans mon htaccess il y a une redirection

RedirectPermanent /alcoolique /alcoolique/vodka

Pour rediriger

http://www.example.com/alcoolique/la-vodka-c-bon-avec-un-jus-pomme.html
http://www.example.com/alcoolique/la-vodka-c-bon-aussi-avec-du-coka.html
http://www.example.com/alcoolique/la-vodka-c-bon-aussi-avec-du-jus-d-orange.html
Vers
http://www.example.com/alcoolique/vodka/c-bon-avec-un-jus-pomme.html
http://www.example.com/alcoolique/vodka/la-vodka-c-bon-aussi-avec-du-coka.html
http://www.example.com/alcoolique/vodka/la-vodka-c-bon-aussi-avec-du-jus-d-orange.html
avec la réecriture dans mon htaccess :

et une autre
RedirectPermanent /alcoolique /alcoolique/gin

Pour rediriger
http://www.example.com/alcoolique/le-gin-c-pas-bon.html
http://www.example.com/alcoolique/le-gin-donne-mal-a-la-tete.html
Vers
http://www.example.com/alcoolique/gin/c-pas-bon.html
http://www.example.com/alcoolique/gin/ca-donne-mal-a-la-tete.html

Ces 2 RedirectPermanent sont en collision et boucle entre elles pour faire genre

http://www.example.com/alcoolique/vodka/c-bon-avec-un-jus-pomme.html/c-pas-bon.html
ou
http://www.example.com/alcoolique/vodka/c-bon-avec-un-jus-pomme.html/alcoolique.html

J'ai changé ces 2 redirections avec
RewriteRule ^alcoolique/(.*)\.htm$ /alcoolique/vodka/$1\.htm [R=301,L]
RewriteRule ^alcoolique/(.*)\.htm$ /alcoolique/gin/$1\.htm [R=301,L]

Elles ne pourront plus boucler entre elles, enfin j'espère..... :p

Ci dessous tu as 100% raison, c'est toi qui m'a mis sur la piste de mes RedirectPermanent :wink:

Marie-Aude a dit:
Google ne génère pas, il suit des liens. Ces liens se trouvent
- sur une page du site
- sur un sitemap
- sur une page externe

Ils peuvent être "en dur" ou généré à partir d'un script (bouton de recherche)

Dans l'exemple que tu donnes, si il est réel, il est absolument IMPOSSIBLE que Google trouve comme un grand le "alcoolique.html" à partir de la règle de réécriture . Totalement impossible.

Donc :
- ton script action merde, et c'est lui qui va chercher quelque part dans la base de données une catégorie
- ton template merde et génère des urls, et c'est pour voir ça que ça serait intéressant de voir quelles sont les urls indiquées dans l'onglet "référencée sur" (s'il te plait... dis moi que tu es allé voir)
- tu as un concurrent qui te fait du negative seo (et pareil, tu verras la source dans l'onglet "référencée sur" dans GW)
- ton générateur de sitemap merde, et fait de mauvaises url

Tout le reste relève de la pensée magique

Je vais maintenant attendre de voir ce que me dit WMT...

Est que quelqu'un connais un soft (windows ou linux) capable de simuler les urls dans un htaccess tel que GoogleBot le fait ?
C'est un outil qui serait génial pour détecter les erreurs de réécriture générés
 
WRInaute accro
Google ne simule rien dans le .htaccess, il n'y a pas accès, il ne fait que suivre des liens et des redirections.

Pour crawler un site comme un robot, il y a le très bon Xenu Link Sleuth que tu peux utiliser
 
Discussions similaires
Haut