Robots.txt et validation

WRInaute discret
Bonjour,

deux questions :

1) je voudrais éviter que googlebot n'indexe les pages avec des paramètres, uniquement sur l'index du site, exemple : /index.php?random=5454&nump=255
j'ai mis dans mon robots.txt les valeurs suivantes :
Code:
User-agent: googlebot
Disallow: /?
Disallow: /index.php?
mais googlebot ne semble pas en avoir tenu compte. Est-ce que la syntaxe que j'utilise est correcte pour ce que je veux faire ? Quelle est le délais de prise en compte de robots.txt par googlebot ? À quelle fréquence googlebot lit ce fichier ? Avant chaque crawl ?

2) j'ai des erreurs de validation HTML en utilisant le validator HTML de w3.org , mais pour moi, ce ne sont pas vraiement des erreurs, puisque ce validator essaie de valider du code HTML intégré dans du code Javascript. Y-a-t-il une solution pour valider le code malgré tout ?
L'adresse de mon site se trouve en référence sur mon profil.

Merci de votre aide et bonne chance à tous en référencement,

Stéphane
 
WRInaute impliqué
met plutot sa c'est preferable

User-agent: *
Disallow: /?
Disallow: /index.php

pour que sa s'applique a tout les moteurs qui reconnaisent cette commande

mais sois aussi patient car google ne verifie pas le fichier robots.txt a chacun de ses passages donc attend un peu sa devrait faire effet
 
WRInaute discret
Non en fait je veux qu'il indexe /index.php et mais pas /index.php?toto=456&tata=123
Est ce que c'est possible en utilisant Disallow ?

Stéphane
 
WRInaute impliqué
si c'est faisable ce que tu as mis doit normalment fonctionner car tu a rajouter le ? derrien index.php don il n'y a pas de pb a part si je me gourre completement d'autre membre peuvent confirmer mes dires
 
WRInaute accro
stefh a dit:
j'ai mis dans mon robots.txt les valeurs suivantes :
Code:
User-agent: googlebot
Disallow: /?
Disallow: /index.php?
mais googlebot ne semble pas en avoir tenu compte.
Bonjour,

Je pense que ton fichier est correct. Quand tu dis que Googlebot n'en tient pas compte, tu veux dire qu'il continue de visiter ces adresses (ce qui serait anormal) ou qu'il n'a pas effacé les anciens contenus des pages concernées de son index (ce qui est fréquent) ?

A la base, le fichier robots.txt interdit au robots de visiter certaines adresses, pas de conserver en mémoire ce qu'ils savent déjà... :roll:

Jean-Luc
 
WRInaute discret
En fait je vois dans mes log que googlebot contine de visiter les pages que je lui interdis.

Quand tu dis qu'à la base le robots.txt sert à interdire de visiter certaines adresses, ca ne veut pas dire que le robot désindexe les pages qu'ils avaient déjà crawlé et que maintenant on interdit ?

Merci,

Stéphane
 
Nouveau WRInaute
Si tu galères avec ton fichier robots.txt, regarde peut-être du côté de la balise :

<meta name="robots" content "index,follow">
ou noindex, nofollow
ou une combinaisons des 2

index : le moteur indexera la page
noindex : le moteur de l'indexera pas
follow : le moteur suivra les liens contenus dans la page
nofollow : le moteur de les suivra pas

:wink:
 
WRInaute accro
stefh a dit:
En fait je vois dans mes log que googlebot contine de visiter les pages que je lui interdis.
Ce n'est pas normal. Google prétend qu'il ne lit pas le robots.txt chaque fois quand il fait plusieurs accès au site le même jour, mais qu'il le relit le jour suivant (donc délai maximum d'environ 24 heures avant la prise en compte). En fait, sur mes sites, je vois Googlebot lire les robots.txt plusieurs fois par jour.

à la base le robots.txt sert à interdire de visiter certaines adresses
C'est certain.

ca ne veut pas dire que le robot désindexe les pages qu'ils avaient déjà crawlé et que maintenant on interdit ?
Ce n'est pas très clair. Cela ne fait pas partie de la "spécification" du robots.txt. Google semble dire qu'il supprime les pages que le robots.txt lui interdit de lire, mais ce n'est pas dit de façon très précise.

Peut-être que le <meta name="robots" content="noindex"> est la solution, mais pour cela il faut que Googlebot lise la page, sinon il ne verra jamais qu'elle contient cette ligne... :wink:

Jean-Luc
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut