google référence les parties qu'il ne dois pas de mon forum

WRInaute passionné
j'ai suivi les topic sur l'url rewriting et le patch à appliquer à phpbb pour le féférencement, mais là, google référence aussi des parties qu'il ne devrai pas, car dans mon robots.txt j'ai ça
Code:
Disallow: sutra*.html$
Disallow: ptopic*.html$
Disallow: ntopic*.html$

et sur google, j'ai trouvé des page : sutre-##.html, ntopic-##.html ... ??
 
WRInaute accro
Bonjour aladdin,

Le problème est que, dans robots.txt, "*" ne veut pas dire n'importe quel caractère.

Code:
Disallow: /zut
interdit l'accès à tout ce qui commence par /zut, comme /zut.html ou /zut55.php?abc=34 ou /zut/abcd.php.

Dans ton exemple,
Code:
Disallow: sutra*.html$
interdit l'accès à ce qui commence par "sutra*.html$". :roll:

Jean-Luc
 
WRInaute impliqué
Tu auras beau interdire, Google continuera à indexer ces pages, c'est comme ça. Par contre, il n'affichera plus de titre ni de description. C'est la même chose pour le meta no-index.

Si une page est dans robots.txt, nous n'allons pas la crawler, mais nous pouvons l'afficher dans les résultats de recherche si nous avons des raisons de penser qu'elle est pertinente par rapport à la requête. Dans ce cas, nous n'afficherons que l'URL (pas de titre, pas de description et pas de cache). " ( GoogleGuy )
 
WRInaute passionné
ok, donc si j'ai bien compris, je ne risque pas le "duplicate content" meme si ces pages sont crawler (vu que ni le titre ni la description ne sont pris en compte)

:)
 
WRInaute accro
Ton robots.txt tel qu'il est est inutile, car incorrect. Si tu le corriges, tu peux interdire à Google de visiter certaines URL.

Comme le dit shrom, même si Google ne visite pas une adresse, il sait qu'elle existe dès qu'il rencontre ailleurs un lien vers cette adresse. Google se permettra alors d'afficher cette adresse dans les résultats, mais sans jamais l'avoir visitée (uniquement sur base de l'URL de la page et des liens vers celle-ci).

Si Google crawle une page, il la lit et, tôt ou tard, il l'indexera sauf si elle contient une META "robots" avec "noindex".

Jean-Luc
 
WRInaute passionné
j'ai verifié et google comprend bien la syntaxe ?!
Code:
Disallow: sutra*.html$

quelcun peut le confirmer plz ?
 
Discussions similaires
Haut