Crawl anormal, augmentation de 50%, pages fantômes

WRInaute accro
Bonjour,

Je ne sais pas si d'autres ont constaté comme moi une augmentation anormale du nombre de crawl et en particulier le 17 sur un de mes sites.

Le site statique n'avait pas bougé depuis 1an et j'avais malgré tout un taux de crawl de 20 pour 94 pages, en moyenne sur 90 jours. Je trouve que c'était déjà bien pour un site qui n'évolue pas d'une virgule.

J'ai commencé à remplacer le thème, page par page, à partir du 31 mai. Aussitôt le nombre de crawl s'est mis à augmenter. Jusque là rien d'anormal. Je trouve que Google a été très réactif sur ce coup.

Mais voilà, mon taux a quand même augmenté de 50% en seulement 20 jours pour passer à une moyenne de pages visitées de 20 à 30 sur les 90 derniers jours. Il y a notamment le 17 où j'ai carrément eut 488 visites du bot pour 94 pages (dont seulement une cinquantaine ont été mises à jour sur le serveur). Ca m'interpelle.

En vérifiant mes autres sites je remarque pour chacun un pic dans le nombre le crawl. Il y en a un c'était le 18 mai avec un nombre de crawls deux fois plus élevé que le max jusque là. Pour un autre c'était le 10 juin mais c'est moins flagrant. Ces autres sites n'ont pas bougé depuis également un an.

Ma seconde réaction a été de me demander si les scripts que j'avais ajouté (du Jquery notamment) n'avaient pas ajouté à mon insu des urls fantômes. La commande site:www.example.com me donne aussitôt la réponse en m'annonçant 95 urls dans l'index au lieu de 94.
J'ai vite fait de trouver l’intruse, il s'agit de l'url www.example.com/?18264
Elle correspond à une copie en DC de ma page d'accueil.
Mais ça vient d'où ce truc ?
Du coup je balise et je me demande si mon augmentation anormale de crawl ne viendrait pas d'une multitude d'url imaginaires. Mais c'est troublant que cette url n'apparaisse qu'après 20 jours seulement. Il y a encore quelques jours elle n'existait pas dans la commande site:
Et pourquoi l'augmentation subite du nombre de visites le 17 juin et pas plus tôt ? Depuis le 31 mai j'avais bien une augmentation du nombre de crawls mais je trouvais cette augmentation assez naturelle du fait que je remplaçais mes pages une à une.
La date du cache de la page fantôme est du 13 juin. Alors pourquoi pas avant alors que c'est la page d'accueil ?

Est-ce qu'en ajoutant une balise canonical sur chaque page vers elle-même va résoudre le problème ?
Difficile en effet de faire des redirections 301 sachant que je ne connais pas les urls fantômes et que je ne sais même pas s'il y en aura d'autres.
 
WRInaute accro
Le problème semble être résolu en ajoutant ces deux lignes dans le htaccess

Code:
RewriteCond %{QUERY_STRING} ^([0-9]+)$
RewriteRule (.*) 				/$1? [R=301]

Les pros du htaccess, vous me confirmez que c'est la bonne technique ?
 
WRInaute accro
Le changement de page crawlé c'est sûrement ta refonte de design (donc de code) c'est mieux de faire ça en une seule fois pas par petit bout, quoi qu'il en soit tu a aussi des crawls plus important parfois a certaines périodes mais bon c'est pas "dangereux".
Pour tes urls avec paramètre je ne pense pas que ce soit fondamentalement dangereux si tu redirige proprement là ou il faut en 301.
Le htaccess je ne peux rien te dire perso je teste en live pour voir car c'est pas un truc que je manipule pas tous les jours a ceci prêt que le membre de droite de la Rewriterule n'a aucun usage du $1 car tu ne récupère rien tu redirige tout sur l'accueil du moment qu'il y a une query string.
 
WRInaute accro
zeb a dit:
le membre de droite de la Rewriterule n'a aucun usage du $1 car tu ne récupère rien tu redirige tout sur l'accueil du moment qu'il y a une query string.

Non, je souhaite rediriger chaque page avec query string vers la page identique sans query string et pas tout vers la home.
Par exemple contact.html?12345 sera redirigé vers contact.html
Je me limite aux chiffres car si un jour j'ai une vraie query string à moi elle sera sans doute du type ?id= et ne contiendra pas uniquement des chiffres comme pour le cas que j'ai constaté.
Mon htaccess à l'air de fonctionner mais je me demande s'il n'y a pas un énorme volume de telles pages qui ont été générées. Je n'ai toujours pas trouvé l'origine du truc.
 
WRInaute accro
regarde si tu n'as pas des liens a la con qqu part (externe ou interne). Après ça peut arriver avec un plantage serveur aussi (cas vécu) et tu te rerouve avec des tonnes d'urls merdiques.

WRI a remonté une info concernant le crawl de pages lié a des scripts JS qui induisent des urls relatives fausses aussi je sais plus ou. C'est peut être la cause surtout que tu parle de JQuery il me semble.
 
Discussions similaires
Haut