Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?

Discussion dans 'Crawl et indexation Google, sitemaps' créé par Vinyl, 22 Janvier 2012.

Tags:
  1. Vinyl
    Vinyl WRInaute discret
    Inscrit:
    19 Mars 2009
    Messages:
    182
    J'aime reçus:
    0
    Bonjour,

    Je travaille sur un site en construction et je m'aperçois que Google a indéxé des pages de ce site normalement inaccessible sauf en lien direct. J'ai plein d'autres dossiers sur mon serveur avec des sites en construction et ce n'est pas le cas.
    J'en déduis qu'il y a un lien quelque part sur le web qui pointe vers ces pages. Peut-être mon client à fait un lien.

    Je vais donc mettre un protection htpasswd + configurer robots.txt

    Je n'arrive pas à trouver d’où vient le lien ? Vous avez une suggestion pour avoir cette information ?

    Je me demande aussi : Le lien a été transmis pas mail sur une boîte GMAIL Est ce possible que Google ait indéxé les pages suite à ce mail ?

    Merci.
     
  2. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 196
    J'aime reçus:
    1
    log du serveur avec recherche du "referer" foireux.
     
  3. padadam22
    padadam22 WRInaute accro
    Inscrit:
    23 Octobre 2010
    Messages:
    3 117
    J'aime reçus:
    0
    Si tes pages ne sont pas bloquées d'une certaine façon (noindex, htpsswd, etc...) cela n'a rien de surprenant, même sans lien ;)
     
  4. Vinyl
    Vinyl WRInaute discret
    Inscrit:
    19 Mars 2009
    Messages:
    182
    J'aime reçus:
    0
    Merci pour vos réponses.

    Merci, bonne idée. Je vais regarder les logs.

    J'avais déjà entendu parlé de ce type de problème mais c'est la première fois que je le constate. J'ai vu des pages du backoffice en construction dans l'index google !!

    Est ce qu'un paramétrage du robots.txt est suffisant ?
     
  5. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 196
    J'aime reçus:
    1
    Non la seule et unique solution c'est login plus mot de passe avec htaccess.
    Sinon pour info tes barres d'outils du navigateur peuvent aussi être la cause du souci.
     
  6. Vinyl
    Vinyl WRInaute discret
    Inscrit:
    19 Mars 2009
    Messages:
    182
    J'aime reçus:
    0
    Merci pour vos réponses.

    J'ai donc mis en place une protection htpassword. C'est une procédure obligatoire maintenant pour mes sites en construction. J'ai été très imprudent de laisser mon site en "accès libre".

    Quand tu dis que le robots.txt n'est pas suffisant. Comment faire dans les cas ou te ne veux pas que le moteurs indexe un dossier et que tu ne peux pas le protéger par htpassword. Je pense au dossier modules par exemple sur un site ecommerce comme prestashop . Récemment, j'ai eu un soucis. Le robots.txt était mal configuré et j'ai une une alerte envoyée par google comme quoi il y avait un risque de phishing (Phishing notification).

    C'est du au fait que Google a indexé un fichier du module paypal qui contient une redirection.

    J'ai paramétré le robots.txt comme ça :

    Code:
    Disallow: /modules/
    C'est pas suffisant alors ?
     
  7. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 196
    J'aime reçus:
    1
    Il faut faire la distinction en le crawl et l'indexation.

    Dans le cas de ton site en cours de dev c'est le crawl + l'indexation qui pose un souci la seule solution viable est le htaccess.
    Dans le cas d'un site en production il ne faut pas empêcher le crawl et l'indexation mais restreindre son champ d'action, là le fichier robots.txt est la bonne solution.
     
  8. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 196
    J'aime reçus:
    1
    J'ajoute qu'il va falloir surveiller les pages déjà indexées et voir si l'interdiction d'accès engendre la dés-indexation (pas certains)
     
  9. Vinyl
    Vinyl WRInaute discret
    Inscrit:
    19 Mars 2009
    Messages:
    182
    J'aime reçus:
    0
    Merci Zeb pour toutes ces explications.

    Effectivement, crawl et indexation sont 2 choses différentes.

    Je vais surveiller.

    Je viens aussi de demander la suppression des urls indexées avec GoogleWebmasterTools.
    Je ne sais pas si c'est efficace.

    Je viens de faire un fichier robots.txt

    Juste pour avoir ton avis, c'est correct comme robots.txt :

    Code:
    User-agent: *
    Allow: /
    
    # Exclusion Dossiers
    Disallow: /projets/dossier/
    Disallow: /blog/administrator/
     
  10. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 196
    J'aime reçus:
    1
    Aucune idée j'utilise pas le robots.txt je fais toujours en sorte que tout ce qui est visible soit indexable (et du coup j'ai rien a masquer), néanmoins tu peux essayer, il y a un bon outil de test dans GWT qui te dis en fonction du contenu de ton fichier si une url est impactée ou pas.
    De plus pour la petite histoire le fichier robots.txt est un très bon indicateur pour connaitre "les dessous" d'un site web donc j'aime pas trop.
     
  11. Vinyl
    Vinyl WRInaute discret
    Inscrit:
    19 Mars 2009
    Messages:
    182
    J'aime reçus:
    0
    Pour infos, j'ai trouvé dans l'aide Google :

    Source :

    https://support.google.com/webmasters/bin/answer.py?hl=fr&answer=156449
     
  12. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 196
    J'aime reçus:
    1
    C'est un vicelard ce google :D

    En plus il est maître du contresens :D
     
  13. Vinyl
    Vinyl WRInaute discret
    Inscrit:
    19 Mars 2009
    Messages:
    182
    J'aime reçus:
    0
    Oui, tu as vu, cette explication est finalement un peu floue.

    Hier j'ai demandé la suppression de 3 url via GWT et aujourd'hui elles sont supprimées. Supprimées en 24h, très rapide !

    En revanche, je vois encore une autre URL indésirables. Dans GWT, je vois que l'on peut demander la suppression d'un répertoire. C'est ce que je vais faire mais pour le répertoire, il est précisé :

    Encore ce robots.txt !

    Et je suis de ton avis aussi :

    C'est un bon moyen de connaitre les répertoires cachés d'un site web...
     
  14. Vinyl
    Vinyl WRInaute discret
    Inscrit:
    19 Mars 2009
    Messages:
    182
    J'aime reçus:
    0
    Juste pour infos, j'ai envoyé mon robots.txt pour pouvoir supprimer dans GWT le répertoire ou des pages indésirables étaient indexées.

    Ce soir, je me reconnecte à GWT et j'ai des gros warning en rouge :

    + un gros message sur fond rouge :

    [​IMG]

    En fait, ça concerne justement une page à supprimer. Comme c'est embêtant de les supprimer une par une, j'ai décidé de supprimer le répertoire mais GWT prévient que pour un répertoire :

    donc ces avertissement n'ont pas lieu d'être... Enfin vaut mieux sans doute trop d’avertissement que pas assez... :roll:
     
Chargement...
Similar Threads - indexées voulu Connaitre Forum Date
[Resolu] Pages indexées non voulu Crawl et indexation Google, sitemaps 7 Août 2009
Pages crawlées mais non indexées Crawl et indexation Google, sitemaps Lundi à 12:57
Sitemap envoyé mais pages non indexées Crawl et indexation Google, sitemaps 26 Octobre 2019
WordPress Pages indexées mais introuvables sur Google Débuter en référencement 23 Octobre 2019
Après refonte, 3000 pages indexées qui ne fonctionnent plus Problèmes de référencement spécifiques à vos sites 22 Octobre 2019
Très peu de pages indexées par Google Problèmes de référencement spécifiques à vos sites 8 Octobre 2019
Comment supprimer des pages indexées Crawl et indexation Google, sitemaps 26 Septembre 2019
Search Console Avis sur des pages explorées et non indexées par Google (pages zombies) Problèmes de référencement spécifiques à vos sites 12 Avril 2019
Anciennes URLs toujours indexées malgré 301 Netlinking, backlinks, liens et redirections 24 Février 2019
URL incompréhensibles crawlées non indéxées Crawl et indexation Google, sitemaps 30 Janvier 2019
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice