Limites du fichier robots.txt

WRInaute discret
Bonjour à tous,

Suite a une refonte complète d'un site d'actualités, il est est apparu dans les listes des erreurs d'exploration de Google Webmaster Tools un grand nombre de pages en erreur 404.

Afin de nettoyer ce désordre et ne plus faire apparaitre ces pages dans les moteurs, je souhaite supprimer ces urls de Google. J'aimerais beaucoup utiliser l'outil de suppression d'url disponible via GWT mais celui-ci m'oblige à ajouter mes urls un à un. Bien entendu, j'en ai plusieurs milliers.

Je me retranche donc vers le Disallow du fichier robots.txt. Cependant, est-ce que le fait d'avoir un fichier robots.txt de 2 Mo comportant plusieurs milliers de lignes peut gêner les moteurs ?

Quel alternative(s) me proposez-vous ?

Merci d'avance,
 
WRInaute accro
Tu peux aussi gérer ça directement en en-tête de ton code, en php/asp/jsp/.... Si l'url est inexistante, tu rediriges vers l'url la plus proche via une redirection 301.
 
WRInaute discret
C'est déjà le cas, redirection vers la home. Mais en fait, ça ne résout qu'à moitié le problème. L'url est absent de Google mais il reste bel et bien présent dans GWT et ce depuis plusieurs mois.
 
WRInaute accro
GWT a ce niveau ne semble pas mis à jour en temps réel. J'ai sur certains sites des 404 qui ont été corrigé il y a plus d'un an.
 
Discussions similaires
Haut