Fichier robots.txt

WRInaute passionné
Bonjour,

Je viens de voir que malgré mon fichier robots.txt http://www.photos-suede.com/robots.txt
Code:
User-agent:  *
Disallow: /forum/login.php 
Disallow: /forum/modcp.php 
Disallow: /forum/posting.php 
Disallow: /forum/printview.php 
Disallow: /forum/privmsg.php 
Disallow: /forum/search.php 
Disallow: /forum/viewonline.php

Je suis quans même dans Google :
https://www.google.fr/search?as_q=&num=1 ... itesearch=

Le fichier est là depuis mars.

A priori, il respecte le standard du fichier robots.txt ( https://www.webrankinfo.com/dossiers/indexation/20-ans-robots-txt par exemple)

D'autres cas ?

François
 
WRInaute discret
Suède,

Oui, ça arrive souvent ces temps ci. Il parait qu'un nouveau robot** Google est arrivé, il est peut être mal configuré.

** peut être une robote vu le résultat du mot clé Jaimemaboite ; conférer ancien message
 
WRInaute accro
Bonjour Suede,

La réponse est que ton robots.txt interdit à Google de lire /forum/login.php et Google respecte cette interdiction.

Par contre, dans d'autres pages dont tu autorises la visite, il trouve des liens vers /forum/login.php et, sans visiter la page, il en connaît l'existence. C'est ainsi que cette page - non lue, donc sans mise en cache - se retrouve dans les résultats Google.

C'est contrariant, mais logique ... :wink:

Jean-Luc
 
WRInaute passionné
Oui,
Le standard parle de visite mais google utilise les termes visites et index quand ils parlent de meta et robots.
Le probleme est que même sans être visitée, la page est indexée et apparait sur des recherches. Dans mon cas, ce n'est pas un probleme, mais dans d'autres cas, si le nom du fichier est plus explicite, ca peut etre un probleme.

François
 
WRInaute accro
Suede a dit:
Le probleme est que même sans être visitée, la page est indexée et apparait sur des recherches. Dans mon cas, ce n'est pas un probleme, mais dans d'autres cas, si le nom du fichier est plus explicite, ca peut etre un probleme.

Voir -https://www.google.fr/intl/fr/webmasters/3.html#B2 pour un peu plus d'info. Pas de solution avec robots.txt, mais bien avec les tags META:

<META NAME="ROBOTS" CONTENT="NOINDEX"> empêche l'indexation de la page.

<META NAME="ROBOTS" CONTENT="NOARCHIVE"> empêche la mise en cache de la page.

<META NAME="ROBOTS" CONTENT="NOFOLLOW"> empêche de suivre les liens de la page.

Jean-Luc
 
WRInaute passionné
Ca dépend ce qu'on apelle indexation. Pour moi indexation = présente dans la base et ressortant sur une requete de google. Après que l'indexation soit faite sur le contenu ou uniquement le nom de fichier, c'est autre chose.

François
 
WRInaute discret
Mais, je crois, que l'importance pour la visibilité d'une certaine web c'est nule. Ces 'indexations' sont uniquement outiles pour la gestion du site. Ca veut dire, pour nous, les fous (webmasters). :lol:
 
WRInaute discret
jeanluc a dit:
<META NAME="ROBOTS" CONTENT="NOINDEX"> empêche l'indexation de la page.
<META NAME="ROBOTS" CONTENT="NOARCHIVE"> empêche la mise en cache de la page.
<META NAME="ROBOTS" CONTENT="NOFOLLOW"> empêche de suivre les liens de la page.

Peux-t-on mettre :

meta name="robots" content="index,follow,all,noarchive"

ou faut-il mettre :

meta name="robots" content="index"
meta name="robots" content="follow"
meta name="robots" content="all"
meta name="robots" content="noarchive"

Merci.
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut