Outils: recherche des 404 à partir de google

pouloupoupo

WRInaute discret
Bonjour à tous!
Voici ma petite contribution pour le forum

J'utilise un cms avec un module d'url rewriting
Donc en un clic on peut changer l'url de ses pages et se retrouver avec des 404 partout.
Je ne suis pas codeur mais j'ai réussi à me faire un script qui récupère la liste des pages indexées pour un site donné via la commande site de google.
Il détecte ensuite les 404.

Ce script ne marche pas pour les sites qui ont plus de 999 pages indexées et n'affiche pas plus que 600 résultats

Le résultat ne s'affiche que quand tout est fini donc c'est un peu long!
Peut être je pourrais rajouter de l'ajax?je ne sais pas.....

si vous voulez le tester ça marche plutôt bien pour les sites avec peu de pages indexées

->http://essai.zero-frais.com/check.php<-
 

spout

WRInaute accro
pouloupoupo a dit:
qui récupère la liste des pages indexées pour un site donné via la commande site de google.
Il détecte ensuite les 404.

pouloupoupo a dit:
C'est trop tard pour moi je veux les connaître avant google!

Tu utilises quand même l'indexation de Google donc c'est pas avant...
 

pouloupoupo

WRInaute discret
spout a dit:
pouloupoupo a dit:
qui récupère la liste des pages indexées pour un site donné via la commande site de google.
Il détecte ensuite les 404.

pouloupoupo a dit:
C'est trop tard pour moi je veux les connaître avant google!

Tu utilises quand même l'indexation de Google donc c'est pas avant...

mais si!
Google indexe mes pages
Si je viens à changer une règle du module rewrinting de mon cms je ne sais pas quelles url peuvent avoir changer.
Je le découvre soit dans gwt et c'est pas bon ou soit dans les logs de mes visiteurs et c'est encore moins bon.

Mon script me permet d'anticiper
 

WebRankInfo

Olivier Duffez (admin)
Membre du personnel
pour faire encore mieux, il faut soit éviter de modifier tes URL, soit gérer des redirections 301 des anciennes vers les nouvelles

cela dit un détecteur de 404 est toujours bon à prendre. Sur un petit site mieux vaut utiliser Xenu je pense.
 

pouloupoupo

WRInaute discret
Oui je suis d'accord avec toi j'évite le plus possible de modifier mes urls
Mail dans mon cas j'utilise un cms et quand je change le nom d'une catégorie ça me change mon url...
Xenu vérifie les liens d'un site? moi je vérifie les liens indexés par google ce qui est différent
car je trouve très pénalisant de tomber sur une 404 surtout au lancement d'un site

++
 

Suede

WRInaute passionné
pouloupoupo a dit:
Oui je suis d'accord avec toi j'évite le plus possible de modifier mes urls
Mail dans mon cas j'utilise un cms et quand je change le nom d'une catégorie ça me change mon url...
Xenu vérifie les liens d'un site? moi je vérifie les liens indexés par google ce qui est différent
car je trouve très pénalisant de tomber sur une 404 surtout au lancement d'un site

++

Tu ne peux pas gerer les noms des pages autrement que par le nom de la catégorie?
Par exemple nom-catégorie-c1234/ ? Après tu fais une verification que le nom de ta categorie est correcte sinon tu rediriges en 301. C'est un peu pres ce que permet de faire phpbb-seo pour phpbb
 

WebRankInfo

Olivier Duffez (admin)
Membre du personnel
comme on te l'a dit, si tu veux les détecter avant Google, il faut crawler ton site et non pas se baser sur l'indexation Google...
 

pouloupoupo

WRInaute discret
Merci mais vous inquiétez pas pour moi :)
ce tool est aussi un défi et j'aimerais avoir quelques retour sur son fonctionnement
Je n'ai pas trouvé de tel script et j'aimerais pourquoi pas l'améliorer

Merci ++
 

Fnnyaert

WRInaute discret
Confonds pas GWT et tes outils google pour webmasters
GWT est un framework écrit en JAVA pour développer ses pages internet
Ca n'a rien à voir

Sinon c'est sympa et pratique, on peut afficher seulement les erreurs ? ou de le faire à partir d'un sitemap ?
 

jeanluc

WRInaute accro
pouloupoupo a dit:
Oui je suis d'accord avec toi j'évite le plus possible de modifier mes urls
Mail dans mon cas j'utilise un cms et quand je change le nom d'une catégorie ça me change mon url...
Je ne comprends pas ta méthode de travail. Tu fais quoi quand tu as détecté une URL qui est passée en 404 parce que tu as changé le rewriting ? Une redirection 301 ?

Ton CMS ne te permet-il pas de savoir quelles pages appartiennent à une catégorie donnée et donc, par conséquent, quelles URL vont changer quand tu changeras le nom de cette catégorie ?

Jean-Luc
 

pouloupoupo

WRInaute discret
Fnnyaert a dit:
Confonds pas GWT et tes outils google pour webmasters
GWT est un framework écrit en JAVA pour développer ses pages internet
Ca n'a rien à voir

Sinon c'est sympa et pratique, on peut afficher seulement les erreurs ? ou de le faire à partir d'un sitemap ?

GWT = google webmaster tools :lol:

Je note tes remarques, pas con l'histoire du sitemap!

pouloupoupo a écrit:
Oui je suis d'accord avec toi j'évite le plus possible de modifier mes urls
Mail dans mon cas j'utilise un cms et quand je change le nom d'une catégorie ça me change mon url...
Je ne comprends pas ta méthode de travail. Tu fais quoi quand tu as détecté une URL qui est passée en 404 parce que tu as changé le rewriting ? Une redirection 301 ?

Ton CMS ne te permet-il pas de savoir quelles pages appartiennent à une catégorie donnée et donc, par conséquent, quelles URL vont changer quand tu changeras le nom de cette catégorie ?

Jean-Luc

Oui je fais une redirection 301 mais tu peut être vite dépassé si tu changes une règle comme "suppression des mots courts" ou changement de certains caractères comme l'espace devient un "-" et le "-" est supprimé....

Mon site en question est un annuaire et le titre des pages correspond au nom de l'entrée.
 

Discussions similaires

Haut