Google et les très très vieilles URLs, comment purger ?

WRInaute passionné
Bonjour à tous,

Je ne sais pas si c'est vraiment un problème mais ça me semble bizarre quand même... Je m'explique :

J'ai une boutique en ligne qui a plusieurs années et qui est bien référencée dans Google. Avant, les URLs étaient non rewritées et de type osCommerce. Depuis au moins un an, ces URLs sont rewritées, les liens internes 100% changés, les redirections 301 par .htaccess bien en place, aucun problème de ce coté la. Mes sitemaps ne comportent que les URLs rewritées également.

Pourtant, je vois dans une interface de l'admin de mon site que Google arrive fréquemment sur mon site avec une URL non rewritée du type /index.php?cPath=21_52 pour les catégories ou /product_info.php?products_id=500 pour les fiches produits.

D'où les questions :
_ D'où cela peut-il venir ?
_ Comment cela se fait-il qu'il ne purge pas ces URLs au bout d'aussi longtemps ?
_ Pensez-vous que cela peut-nuire à mon ref ? Car GG se prend des 301 fréquemment du coup
 
Olivier Duffez (admin)
Membre du personnel
a priori c'est parce qu'il existe sur le web des liens vers ces pages, essaie de vérifier via GWT rubrique liens vers ton site
 
WRInaute passionné
Merci d'avoir déplacé le sujet et merci pour la réponse,

J'ai regardé dans GWT, je n'ai aucun lien vers une URL non rewritée, mais vu que les non rewritées sont en 301 vers les rewritées, GG ne me mettrais pas l'URL non rewritées dans cette rubrique "Liens vers votre site", si ?

Je ne comprends pas pourquoi il fait ça, il faut que je résolve ce problème. Comment pourrais-je voir les backlinks de mon domaine ? Car avec Backlinkwatch je n'ai que ceux vers la page d'accueil.

C'est important je dois trouver, car le NDD est très ancien et il doit y avoir un problème quelque part, je sens que Google a plus de mal avec ce site qu'avec les autres
 
Olivier Duffez (admin)
Membre du personnel
essaie par exemple avec majesticseo : c'est gratuit pour ton site, tu n'as qu'un fichier à uploader pour prouver que c'est ton site
ensuite tu peux télécharger tous les backlinks de ton site et dans excel tu cherches ceux qui pointent vers tes mauvaises url
mais ça ne résoudra pas ton pb car en général c'est difficile de faire corriger ces vieux liens

googlebot consulte + souvent les mauvaises URL que les bonnes ?
 
WRInaute passionné
Ok je vais regarder du coté de majesticseo et je retient au courant.

Je viens de regarder une adresse que GG test avec votre outil HTTP Headers, il y a 2 "status 301" pour ce test, c'est peut-être une piste ?

J'ai testé l'entête HTTP

googlebot consulte + souvent les mauvaises URL que les bonnes ?
Non mais ça arrive quand même tous les jours
 
WRInaute passionné
Vraiment pas mal Majesticseo ! Il trouve vraiment tous les liens on dirait, je n'avais jamais eu un rapport de backlinks aussi précis et vrai. J'ai donc trouvé quelques backlinks vers les URLs non rewritées de mes pages "fabricants" et à peine vers mes pages "categories" (moins de 15), mais aucun vers mes fiches produits (rewritées ou non d'ailleurs :( )

Autre chose : Quand je tape la commande "link:" sur google, il me met quelques pages avec backlinks et 2 pages de mon site, c'est normal ? Il ne devrait pas sortir des pages du même NDD, si ? Je suis persuadé qu'il y a un truc quelque part il faut que je trouve quoi
 
WRInaute passionné
il suffit de lire les explications sur la commande link ou mon article qui détaille qu'elle est officiellement bridée
Oui merci, mais ça ne parle pas du tout du fait que pour mon site, j'ai 2 résultats qui sont des pages... de mon site. Je trouvais ça bizarre, comment une page du même site peut-elle être considérée comme faisant un backlink ?

Je viens de regarder une adresse que GG test avec votre outil HTTP Headers, il y a 2 "status 301" pour ce test, c'est peut-être une piste ?
Un explication pour ça ?
On avance pas, c'est pas le 1er topic que je pose là dessus et personne ne me répond jamais, on est que 2 ici ?
 
Olivier Duffez (admin)
Membre du personnel
un backlink peut être interne ou externe et la commande link: ne permet pas de filtrer pour n'afficher que les externes

tu n'as pas 2 redirections 301 qui s'enchainent, tu as seulement un entête passé 1 fois de trop.

cela dit je ne vois pas ce qu'il y a d'étonnant au fait que googlebot vienne consulter des URL qu'il a trouvées en suivant des liens présents sur le web.
 
WRInaute passionné
cela dit je ne vois pas ce qu'il y a d'étonnant au fait que googlebot vienne consulter des URL qu'il a trouvées en suivant des liens présents sur le web.
J'ai donc trouvé quelques backlinks vers les URLs non rewritées de mes pages "fabricants" et à peine vers mes pages "categories" (moins de 15), mais aucun vers mes fiches produits (rewritées ou non d'ailleurs :( )
Il n'y a aucun backlink vers mes anciennes URLs de fiche produit.

Pour donner un exemple, Google est arrivé hier sur mon site avec cette adresse:
/product_info.php?cPath=&products_id=2290&osCsid=1cadc7fee0649604a4c29672fc31c5b0

C'est n'importe quoi ! La variabe "cPath" n'a JAMAIS été sur les fiches produits et il n'y a JAMAIS eu de lien vers ce genre de truc ! Et ce n'est qu'un exemple.
 
WRInaute passionné
Non, et quand bien même ça ne serais pas ces variables puisque ce sont des variables GET de navigation.

Y'a PERSONNE qui donne son avis à par vous ? C'est facile de démonter quelqu'un qui pose une question idiote ou qui fait un topic sur le PR, là on tape facilement les 10 pages de réponses, par contre dès que ça devient un tant soi peu technique/sérieux y'a pu personne...
 
WRInaute accro
>> Non, et quand bien même ça ne serais pas ces variables puisque ce sont des variables GET de navigation.
que Google indexe.

si tu ne sais pas d'où ça vient, tant pis, tu peux déjà corriger, en mettant en place un système qui repère l'url de la page, et via un "moteur de 301" va récupérer l'url correcte (la ré-écrite) et redirige en 301 vers la bonne url.

ps : on n'engueule pas les gens de pas aider, c'est la pire des choses à faire
 
WRInaute passionné
si tu ne sais pas d'où ça vient, tant pis, tu peux déjà corriger, en mettant en place un système qui repère l'url de la page, et via un "moteur de 301" va récupérer l'url correcte (la ré-écrite) et redirige en 301 vers la bonne url.
Si il n'y avait que ça, je ne créerais pas un topic sur WRI. Toutes, et je dis bien toutes, les mauvaises URL sont redirigées en 301 vers les bonnes. Voir mon 1er message :
Depuis au moins un an, ces URLs sont rewritées, les liens internes 100% changés, les redirections 301 par .htaccess bien en place, aucun problème de ce coté la.
ps : on n'engueule pas les gens de pas aider, c'est la pire des choses à faire
Oui je sais, mais je passe mon temps à résoudre des tas de topic sur WRI, et à chaque fois que j'ai une malheureuse question, personne ne répond, évidement mes questions ne sont plus "C'est quoi un sitemaaaaaaap ?" La dernière question que j'ai posé, j'ai fait 200 VU pour 0 réponses, pas mal.

Si je réitère à chaque fois, c'est parce qu'en résolvant ce problème, je sais (par expérience) que ce site peut tout déchirer. Je suppose que Google a un espèce d'historique des URLs d'un site, et qu'il les teste surement encore un peu après leur changement, mais là ça fait 1 an minimum, et encore hier il se pointe avec :
/product_info.php?products_id=772&osCsid=e7aa4f57c326e520978835b58cf216ac

Au moins, cette adresse a le mérite d'être correcte (contrairement à celle que j'ai mis plus haut), mais elle est en 301 vers la rewritée depuis plus d'un an et il n'y a AUCUN lien vers elle. Alors, qui est capable de m'aider ?

EDIT: Quelqu'un peut supprimer mes liens vers les tests des headers HTTP dans les 2 message précédents ? Parce que pour le coup ça me fait un lien vers une ancienne URL
 
Olivier Duffez (admin)
Membre du personnel
Dans le fond, quel est réellement le problème ? J'ai l'impression que ce n'est pas si grave que ça. A moins qu'il y ait vraiment beaucoup d'accès à des URL de ce genre ?

PS: j'ai presque l'impression de me faire engueuler de t'aider, c'est assez particulier comme situation
 
WRInaute passionné
PS: j'ai presque l'impression de me faire engueuler de t'aider, c'est assez particulier comme situation
^^ Dsl, c'est pas ça, mais je sais encore comment le topic va finir: sans réponse. C'est super à toi de m'aider, surtout que c'est difficile de se faire une idée pour un site qu'on a pas développé soi-même, mais on est pas que 2 sur WRI quand même...

Dans le fond, quel est réellement le problème ? J'ai l'impression que ce n'est pas si grave que ça. A moins qu'il y ait vraiment beaucoup d'accès à des URL de ce genre ?
Le problème c'est que Google continue de tester ces URLs, chose qu'il ne devrait pas faire, et de se prendre des 301 dans la face toutes les 5 minutes. Par exemple, il vient en testant ceci :
Pour donner un exemple, Google est arrivé hier sur mon site avec cette adresse:
/product_info.php?cPath=&products_id=2290&osCsid=1cadc7fee0649604a4c29672fc31c5b0
URL qui n'existe pas et qui ne peut pas exister, donc 301 (ou 404 suivant les cas), il ne se prend que ça dans la face. Donc mon site est mal crawlé, mal indexé, j'ai des tas d'erreurs d'exploration, d'inaccessibilité, etc. Je passe mon temps à faire des fonctions PHP de redirection pour des URLs qui n'existe plus ou pas, sinon il indexe tout, y'a DC, ça m'est arrivé y'a pas plus d'une semaine pour ma page d'accueil, donc j'aimerais bien, pour une fois, résoudre le problème.
 
WRInaute passionné
Si ça intéresse quelqu'un, les exemples d'aujourd'hui :

/product_info.php?products_id=772&osCsid=e7aa4f57c326e520978835b58cf216ac
/product_info.php?products_id=1179&osCsid=85f823eadccb0965ea33fab3b30877c2
/product_info.php?cPath=22&products_id=1179&osCsid=d7b51f588ea8f660c316ab3da1f6ddf2
/product_info.php?products_id=1519&osCsid=7b1395bc61b28652fc6ab567e5eeaae3
 
WRInaute occasionnel
Tu prends les anciennes urls, tu ouvres ton htaccess, tu y mets toutes les anciennes adresses et tu les rediriges vers les nouvelles pages de ton site. Si par exemple, tu as une ancienne url "produit XXXXX" que tu ne vends plus actuellement, tu rediriges cette url vers ta home.

J'ai fait cela il y a un an, et pas de problèmes.
 
WRInaute accro
Il est à mon sens plus que possible d'avoir des règles de redirection dans ces cas de figure, pas besoin de faire du cas par cas.

As-tu des infos, sur GWT, sur la provenance de ces url ? Ne s'agirait-il pas d'un oubli sur ton site, après réécriture de tes url ? (un type de listing un peu particulier, un sitemap pas à jour, un fichier RSS, etc. ) ? As-tu essayé de crawler ton site avec un outil comme Xenu pour voir si tu parviens à les trouver de cette façon ?
 
WRInaute passionné
Enfin des réponses, merci à vous !

@philyd : Comme dit plus haut, toutes mes anciennes URLs sont redirigées vers les bonnes URLs réécrites en 301 par .htacces et/ou en 301/404 en PHP vers la home pour les URLs qui n'existent pas ou qui n'existent plus (produit plus vendu, catégorie supprimée, etc...). Aucun soucis de ce coté là.

@liens-geeks.com : Je n'ai aucun accès à mes logs apache mais je peux toujours demander à mon hébergeur, qu'est ce qu'il faudrait que je demande ?

@UsagiYojimbo : Tu m'avais déjà conseiller Xenu dans un ancien topic, et je l'ai toujours ! J'ai tester le site à 100% avec Xenu, aucun lien mal construit n'est présent. J'ai TOUT vérifié, ils sont 100% vers les URLs réécrites. Sinon dans GWT, aucune URL non réécrite n'est présente. J'ai testé le site avec Majestic SEO comme me l'a conseiller WRI plus haut dans le topic, j'ai donc trouvé des liens (tous de la même manière) dans une série d'annuaire appartenant à l'ancien "référenceur" du site. Ils pointent vers l'ancienne page fabricant, à savoir /index.php?manufacturer_id=xxx. Ils sont bien redirigés en 301 vers les URLs réécrites. Nous n'avons trouvés aucun liens vers les anciennes URLs des pages produits comme les exemples que je site et que Google teste encore et toujours. Aucun fichier sitemap/rss ou autres ne contient d'anciennes adresses.

Je ne sais vraiment pas quoi faire pour arrêter cela, pensez-vous que comme ces URLs ont été indexées ainsi pendant plusieurs années, Google continue de les tester et qu'il les a sauvegardées dans un espèce d'historique? Parce que là ça fait au moins 1 an qu'elles sont en 301 vers les réécrites, et encore hier :

/product_info.php?cPath=22_73&products_id=1537
/product_info.php?cPath=&products_id=1537&osCsid=a95c806cb08b4ccbc737faf18116d6de

Sur la 2ème on peut même voir que le cPath est vide, c'est n'importe quoi !
 
WRInaute discret
Bonjour,
Dans le access.log tu peux retrouver toutes les requêtes http (pages, *.js, images, ...) executées par ton serveur apache.
Celles qui concernent ta page contient le referant.

Tu es chez quel hébergeur?
 
WRInaute passionné
La nouvelle du jour, trouvée dans GWT > Suggestions HTML > Balises title en double.

Google me sors les 2 URLs ayant le même titre :

/ (ma page d'accueil) et
/?iframe=true&width=100%&height=100%

D'OU SORS CETTE M***E ??? J'en ai vraiment marre de Google, je passe mon temps à traiter des URLs qui n'existent pas et n'ont jamais existées !

HELP HELP HELP HELP HELP HELP HELP HELP HELP HELP HELP HELP
 
Olivier Duffez (admin)
Membre du personnel
tu devrais plutôt en avoir marre des internautes ou webmasters car ça m'étonnerait que Google l'ait inventé de toutes pièces. Il ne fait que te rapporter que cette URL a été trouvée par un lien.

essaie de voir si par hasard tu vois des referrers vers cette URL ?
 
WRInaute passionné
Je n'ai pas accès aux referers, je suis sur un mutualisé sous-traité par une agence web, il faut que je leur demande un accès.

Pour ne plus avoir de problèmes de DC (au niveau des URLs) sur ma page d'accueil, j'aimerais récupérer l'URL courante de l'internaute et en PHP je ferais :

Si $url_courante != $mon_NDD, redirection vers $mon_NDD en 301

Ca serais une bonne solution non ?
 
Discussions similaires
Haut