Difficulté à empêcher les moteurs de référencer une section

Nouveau WRInaute
Bonjour,

J'essaye en vain d'empêcher Google de passer sur une certaine partie de mon site. Mon site est www.meow.fr et contient une section ou il y a des caractères chinois. En fait elle est seulement inaccessible via un clic sur le caractère chinois (à gauche en dessous du menu) ou par utilisation d'un formulaire. Il y a un grand nombre de caractères sur le site, et vu que le contenu n'a aucun intérêt et désavantage les autres pages, je veux que cette partie ne soit pas référencée.

La manière simple d'empécher le référencement de ces pages a été de rajouter dans le header la meta qui indique le non référencement.

<meta name="robots" content="noindex, nofollow" />

Mais avec ça, je vois que GoogleBot va encore charger ces pages.

L'autre moyen est le "robots.txt". Exclure par le répertoire, j'ai essayé mais ça me pose trop de problèmes, tous mes liens, les images, mes références deviennent fausses... Et exclure par fichier, le problème c'est que mon site entier utilise seulement un seul fichier qui est l'index.php. J'ai tenté l'url rewriting de cette manière :

RewriteRule ^chinese\.php\!id=([0-9]{1,5})&answer=(.*)$ index.php?rubrik=chinese&answer=$2&id=$1 [L]

Cela aurait permit d'avoir un semblant de fichier chinese.php (qui n'existe en fait pas), et qui aurait transformer une requête "virtuelle" en une vrai. Pas de chance, l'url rewriting à priori, quand il voit un "?" considère que ce qui est derrière doit être gardé, et il ne s'occupe que ce qui est devant, en fait du nom du fichier... Je savais pas ça, et j'ai pas trouvé de technique pour contourner ce problème.

La seule technique que j'ai trouvé, c'est de faire une copie pure et simple de mon index.php en ask.php, et de refaire les liens de ma section chinoise vers ask.php, et d'exclure ce fichier dans le robots.txt. Cela reste malpropre d'utiliser un fichier doublon, bref ça me dérange un peu :)

Que pensez-vous de cette solution ? Est-ce la meilleure ? Voyez-vous une solution avec l'url rewriting, comme je voulais faire ? (peut-être je ne sais pas tout... et sûrement pas d'ailleurs !)

Merci :wink:
 
Nouveau WRInaute
Hein ? Mais c 'est pas le but, justement je me bat pour un meilleur référencement, alors si je supprime mon site... :(
 
Nouveau WRInaute
Le problème c'est que c'est trop tard :) Google n'arrête pas depuis 2 jours d'indexer des pages qui n'ont plus lieu d'être... J'ai l'impression qu'il a une sauvegarde des liens d'avant et qu'il les parcoure tous ! Alors qu'ils ont tous changé...
 
WRInaute accro
Bonsoir,

C'est normal qu'avec la meta "robots" avec "noindex, nofollow", Googlebot continue de visiter ces pages, mais elles disparaîtront de l'index. Il faut bien que Googlebot visite ces pages pour y lire la meta et ainsi savoir que la page ne doit plus apparaître dans les résultats de recherche. Je suppose qu'après quelques passages à un rythme normal, ces passages vont s'espacer, parce que je serais étonné que Googlebot consacre beaucoup de ressources à des pages qu'il ne peut pas exploiter.

Si tes URL concernées sont de la forme /index.php?rubrik=chinese&answer=azerty&id=123, tu peux mettre la ligne suivante dans robots.txt :
Code:
Disallow: /index.php?rubrik=chinese
Ceci indique aux robots de ne pas visiter de page dont l'adresse commence par /index.php?rubrik=chinese.

Jean-Luc
 
Nouveau WRInaute
Merci bien, à priori Google à arrêter de référencer ces pages ! Par contre, j'ai du faire une erreur et dans mon robots.txt j'ai mis :
Disallow: ask.php
Ne serait-ce pas plutôt ceci :
Disallow: /ask.php
En fait je m'en suis aperçu aujourd'hui, et j'ai vu que Google référençait ces pages maintenants... donc j'espère que ce "/" est important.

Sinon autre question, tous les combien Google va voir le fichiers robots.txt ?
 
WRInaute accro
Oui, le "/" du début est nécessaire.

Considère que Google lit le robots.txt au moins une fois toutes les 24 heures. Puis, il lui faudra, au pire, quelques jours avant que tous les Googlebots en tiennent compte.

Jean-Luc
 
Discussions similaires
Haut