Problème avec la commande site:

Nouveau WRInaute
Bonjour à tous,

Je ne parviens pas à nettoyer mon index avec la commande site car je n'arrive pas à accéder à la liste des urls.
Je m'explique, lorsque je tape site:www.example.com alors Google me dit qu'il y a 320 résultats (je n'ai que 80 pages sur mon site) et lorsque je clique sur la 10ème page alors Google me propose "relancer la recherche en incluant les pages ignorées." ce que je fais et lorsque je re-clique sur la 10ème page alors le résultat est que Google me propose plus que 9 pages et je n'ai que 2 urls à supprimer. Je ne sais pas si je suis suffisamment clair mais est-ce que quelqu'un aurait une idée ?

Pour info : l'index est pollué par des urls avec des paramètres alors que j'ai paramétré dans GWT pour qu'aucune url avec paramètre ne soit indexée mais apparemment cela ne fonctionne pas.

Merci d'avance pour vos réponses,
 
WRInaute discret
Bonsoir,

Pas très clair, non :lol:

Sinon pour tes URL avec paramètres, d'une part GWT est parfois long à la détente, mais en plus si ces URL sont des liens provenant d'autres sites, elles seront indexées à moins d'être redirigées en htaccess il me semble.

Johann
 
WRInaute discret
Moi, j'ai compris.

Le coté j'annonce X page dans les SERP, mais j'en affiche que y, j'ai déjà vu aussi.

Sinon, as tu renseigné les GWT avant que ses pages ne soient créée et indexées ?
Si non, faut patienter.
Si oui, tu a surement du faire une erreur en les déclarant.

Maintenant, c'est peut-être GG qui n'est pas à jour entre son index et ce qu'il prétend est à déjà commencé à supprimer les URL "invalides".
Dans ce cas, patiente et les dernières devraient disparaitre.
 
Nouveau WRInaute
Merci pour vos réponses,

@K-mi-k-z : Qu'est ce que tu entends par "renseigné les GWT" ? si c'est du sitemap dont tu parles je l'ai ajouté bien après que mes pages soient indexées.
 
Nouveau WRInaute
Oui j'ai utilisé la nouvelle fonctionnalité "Paramètres d'URL" mais pour l'instant cela n'empêche pas les robots d'indexer des urls avec des paramètres. Je vais donc patienter, merci encore pour tes réponses.
 
Nouveau WRInaute
Le problème c'est que je ne connais pas les urls vu que la commande site ne me permet pas d'y accéder, je ne peux donc pas nettoyer mon index et je ne peux pas faire de redirection. De temps en temps j'arrive à avoir une dizaine d'url mais depuis quelques jours je suis bloqué à 254 pages alors que je n'ai que 80 pages. J'ai également l'impression que tout mes efforts de référencement sont pénalisés par ce problème. J'utilise déjà une balise d'url canonique mais les urls sont quand même indéxées.

En tout cas merci pour ta réponse, je vais vérifier ces prochains jours si j'arrive à accéder à ces urls.
 
Nouveau WRInaute
Bonne idée ! malheureusement yahoo site explorer n'indexe que 22 de mes 80 pages. Je penses que mes urls en "erreur" sont dans l'index secondaire de Google et je penses qu'il y a quand même un impact sur le référencement.

Merci pour l'idée
 
Nouveau WRInaute
En fait je viens de m'apercevoir que les urls sont indexées alors qu'elles sont bloquées par un fichier robots.txt (Disallow: /*?* ).
Est-ce que quelqu'un a déjà eut ce genre de problème, de plus j'ai des erreurs d'exploration dans les GWT (URL à accès restreint par un fichier robots.txt).

Merci pour votre aide !
 
WRInaute discret
Le fichier robots.txt n'empêche pas l'indexation, il empêche seulement le crawl ce n'est pas pareil. S'il existe un lien vers la page elle sera indexée (mais le googlebot ne pourra pas la lire d'où le conflit avec le fichier robots signalé dans GWT), il faut mettre la balise meta robots de la page en question en noindex pour qu'elle ne soit pas indexée (et laisser en follow pour qu'elle transmette quand même du jus si elle a des liens sortants, à condition de la virer du fichier robots.txt bien sûr).

Johann
 
Discussions similaires
Haut