Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?

Vinyl · 22 Janvier 2012

Bonjour,

Je travaille sur un site en construction et je m'aperçois que Google a indéxé des pages de ce site normalement inaccessible sauf en lien direct. J'ai plein d'autres dossiers sur mon serveur avec des sites en construction et ce n'est pas le cas.
J'en déduis qu'il y a un lien quelque part sur le web qui pointe vers ces pages. Peut-être mon client à fait un lien.

Je vais donc mettre un protection htpasswd + configurer robots.txt

Je n'arrive pas à trouver d’où vient le lien ? Vous avez une suggestion pour avoir cette information ?

Je me demande aussi : Le lien a été transmis pas mail sur une boîte GMAIL Est ce possible que Google ait indéxé les pages suite à ce mail ?

Merci.

zeb · 22 Janvier 2012

Vinyl a dit:
Je n'arrive pas à trouver d’où vient le lien ? Vous avez une suggestion pour avoir cette information ?

log du serveur avec recherche du "referer" foireux.

padadam22 · 22 Janvier 2012

Si tes pages ne sont pas bloquées d'une certaine façon (noindex, htpsswd, etc...) cela n'a rien de surprenant, même sans lien

Vinyl · 22 Janvier 2012

Merci pour vos réponses.

zeb a dit:
log du serveur avec recherche du "referer" foireux.

Merci, bonne idée. Je vais regarder les logs.

padadam22 a dit:
Si tes pages ne sont pas bloquées d'une certaine façon (noindex, htpsswd, etc...) cela n'a rien de surprenant, même sans lien

J'avais déjà entendu parlé de ce type de problème mais c'est la première fois que je le constate. J'ai vu des pages du backoffice en construction dans l'index google !!

Est ce qu'un paramétrage du robots.txt est suffisant ?

zeb · 22 Janvier 2012

Vinyl a dit:
Est ce qu'un paramétrage du robots.txt est suffisant ?

Non la seule et unique solution c'est login plus mot de passe avec htaccess.
Sinon pour info tes barres d'outils du navigateur peuvent aussi être la cause du souci.

Vinyl · 22 Janvier 2012

Merci pour vos réponses.

J'ai donc mis en place une protection htpassword. C'est une procédure obligatoire maintenant pour mes sites en construction. J'ai été très imprudent de laisser mon site en "accès libre".

Quand tu dis que le robots.txt n'est pas suffisant. Comment faire dans les cas ou te ne veux pas que le moteurs indexe un dossier et que tu ne peux pas le protéger par htpassword. Je pense au dossier modules par exemple sur un site ecommerce comme prestashop . Récemment, j'ai eu un soucis. Le robots.txt était mal configuré et j'ai une une alerte envoyée par google comme quoi il y avait un risque de phishing (Phishing notification).

C'est du au fait que Google a indexé un fichier du module paypal qui contient une redirection.

J'ai paramétré le robots.txt comme ça :

Code:

Disallow: /modules/

C'est pas suffisant alors ?

zeb · 22 Janvier 2012

Vinyl a dit:
Quand tu dis que le robots.txt n'est pas suffisant. Comment faire dans les cas ou te ne veux pas que le moteurs indexe un dossier et que tu ne peux pas le protéger par htpassword. Je pense au dossier modules par exemple

Il faut faire la distinction en le crawl et l'indexation.

Dans le cas de ton site en cours de dev c'est le crawl + l'indexation qui pose un souci la seule solution viable est le htaccess.
Dans le cas d'un site en production il ne faut pas empêcher le crawl et l'indexation mais restreindre son champ d'action, là le fichier robots.txt est la bonne solution.

zeb · 22 Janvier 2012

J'ajoute qu'il va falloir surveiller les pages déjà indexées et voir si l'interdiction d'accès engendre la dés-indexation (pas certains)

Vinyl · 24 Janvier 2012

Merci Zeb pour toutes ces explications.

Effectivement, crawl et indexation sont 2 choses différentes.

Je vais surveiller.

Je viens aussi de demander la suppression des urls indexées avec GoogleWebmasterTools.
Je ne sais pas si c'est efficace.

Je viens de faire un fichier robots.txt

Juste pour avoir ton avis, c'est correct comme robots.txt :

Code:

User-agent: *
Allow: /

# Exclusion Dossiers
Disallow: /projets/dossier/
Disallow: /blog/administrator/

zeb · 24 Janvier 2012

Vinyl a dit:
Juste pour avoir ton avis, c'est correct comme robots.txt

Aucune idée j'utilise pas le robots.txt je fais toujours en sorte que tout ce qui est visible soit indexable (et du coup j'ai rien a masquer), néanmoins tu peux essayer, il y a un bon outil de test dans GWT qui te dis en fonction du contenu de ton fichier si une url est impactée ou pas.
De plus pour la petite histoire le fichier robots.txt est un très bon indicateur pour connaitre "les dessous" d'un site web donc j'aime pas trop.

Vinyl · 24 Janvier 2012

Pour infos, j'ai trouvé dans l'aide Google :

Même si le contenu des pages bloquées par le fichier robots.txt n'est ni exploré, ni indexé, il est possible que nous indexions les URL de ces pages si nous les rencontrons sur d'autres sites Web. Cela signifie que l'URL de la page et, éventuellement, d'autres informations accessibles au public, notamment le texte d'ancrage des liens qui pointent vers le site ou le titre créé par l'ODP (Open Directory Project, www.dmoz.org) peuvent apparaître dans les résultats de recherche Google.

Pour empêcher totalement l'ajout du contenu d'une page à l'index Google, même si d'autres sites proposent des liens vers celle-ci, utilisez une une balise Meta noindex. Tant que Googlebot détecte la page, il prendra en compte la balise Meta noindex et empêchera l'ajout de la page à l'index Google.

Source :

https://support.google.com/webmasters/bin/answer.py?hl=fr&answer=156449

zeb · 24 Janvier 2012

Vinyl a dit:
Pour infos, j'ai trouvé dans l'aide Google :

Même si le contenu des pages bloquées par le fichier robots.txt n'est ni exploré, ni indexé, il est possible que nous indexions les URL de ces pages si nous les rencontrons sur d'autres sites Web. ...

Cliquez pour agrandir...

C'est un vicelard ce google

ni indexé, il est possible que nous indexions

En plus il est maître du contresens

Vinyl · 25 Janvier 2012

Oui, tu as vu, cette explication est finalement un peu floue.

Hier j'ai demandé la suppression de 3 url via GWT et aujourd'hui elles sont supprimées. Supprimées en 24h, très rapide !

En revanche, je vois encore une autre URL indésirables. Dans GWT, je vois que l'on peut demander la suppression d'un répertoire. C'est ce que je vais faire mais pour le répertoire, il est précisé :

Pour que sa suppression soit définitive, le contenu doit être bloqué par un fichier robots.txt

Encore ce robots.txt !

Et je suis de ton avis aussi :

De plus pour la petite histoire le fichier robots.txt est un très bon indicateur pour connaitre "les dessous" d'un site web donc j'aime pas trop.

C'est un bon moyen de connaitre les répertoires cachés d'un site web...

Vinyl · 25 Janvier 2012

Juste pour infos, j'ai envoyé mon robots.txt pour pouvoir supprimer dans GWT le répertoire ou des pages indésirables étaient indexées.

Ce soir, je me reconnecte à GWT et j'ai des gros warning en rouge :

Des problèmes importants ont été détectés sur votre site
Une page importante est bloquée par un fichier robots.txt.

+ un gros message sur fond rouge :

En fait, ça concerne justement une page à supprimer. Comme c'est embêtant de les supprimer une par une, j'ai décidé de supprimer le répertoire mais GWT prévient que pour un répertoire :

Pour que sa suppression soit définitive, le contenu doit être bloqué par un fichier robots.txt

donc ces avertissement n'ont pas lieu d'être... Enfin vaut mieux sans doute trop d’avertissement que pas assez... :roll: