Robots.txt et liens follow

Discussion dans 'Débuter en référencement' créé par Camille_413, 16 Juin 2014.

  1. Camille_413
    Camille_413 Nouveau WRInaute
    Inscrit:
    19 Mars 2014
    Messages:
    34
    J'aime reçus:
    0
    Bonjour,

    Je me pose actuellement une question sur le fonctionnement de google et de l'impact potentiel sur le SEO.

    Voilà ma question :
    Si j'indique dans le fichier robots.txt à google ne pas aller crawler ma page http://www.example.fr/femme/maillot-de-bain/rougeX251454548787777788.html > c'est une page que je ne souhaite pas que google indexe.
    Le fait d'inscrire cette page dans fichier robots.txt indique à google de ne pas aller crawler cette page.
    Mais est ce que si sur mon site je fais un lien en follow depuis ma page : http://www.example.fr/femme/maillot-de-bain/ vers http://www.example.fr/femme/maillot-de-bain/rougeX251454548787777788.html est ce que google va aller consulter ma page ? (même si il est indiqué dans le fichier robots.txt que cela n'a pas d'intérêt)

    J'ai potentiellement 150 000 pages de mon site concernées.
    D'avance merci pour vos retours.

    Camille
     
  2. loubet
    loubet WRInaute impliqué
    Inscrit:
    19 Février 2003
    Messages:
    788
    J'aime reçus:
    0
    non, il ne va pas aller consulter la page.
     
  3. Camille_413
    Camille_413 Nouveau WRInaute
    Inscrit:
    19 Mars 2014
    Messages:
    34
    J'aime reçus:
    0
    Merci pour ta réponse loubet.

    Si je résume : que mon lien soit en follow ou en nofollow cela n'a pas d'impacts Google ne va pas aller consulter la page (puisque elle est présente dans le robots.txt ) C'est bien cela ?

    Cependant ça m'inquiète car j'ai pu observer que sur googlewebmastertools le nombre d'URL bloquées augmentent très très fortement depuis le 09 mars ? est ce normal ?
    est ce que ca peut avoir un impact sur le nombre de pages indexées ?

    Merci d'avance pour vos retours,
     
  4. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 875
    J'aime reçus:
    0
    Oui, il est certain que les robots de Google n'iront pas voir les pages que tu interdis dans robots.txt.

    Pour le reste, on n'est plus dans les certitudes techniques, mais dans le référencement. A mon humble avis, interdire la visite de liens internes (robots.txt) ou le suivi de liens internes (nofollow), c'est une sorte de gaspillage de la force des liens disponible. Parfois on ne peut pas faire autrement, mais, en soi, ça n'aide pas le référencement.

    Jean-Luc
     
  5. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 662
    J'aime reçus:
    748
    oui et tu peux le vérifier en utilisant la fonctionnalité dans GWT (Exploration > URL bloquées) pour tester une URL

    si tu fais des liens follow vers des nouvelles URL, Google vérifie s'il a le droit de les crawler. Comme ce n'est pas le cas, le nb d'URL bloquées au crawl augmente. Comme le dit Jean-Luc, tu devrais te demander s'il n'y a pas une meilleure solution sur ton site.
    en fait, il manque des infos dans ton post. Tu ne parles que de blocage de crawl, mais si les pages à bloquer ont déjà été indexées, tu ne vas pas réussir à les faire désindexer comme ça. Donc ma question est "ces pages sont-elles actuellement indexées ?"
     
  6. Camille_413
    Camille_413 Nouveau WRInaute
    Inscrit:
    19 Mars 2014
    Messages:
    34
    J'aime reçus:
    0
    En fait il y a 2 choses :

    -j'ai des pages (résultats de recherche) qui sont renseignées dans le fichier robots.txt et qui ont meta noindex, nofollow. Si je fais un lien en follow vers cette page google ne vas pas aller la consulter puisqu'elle est bloquée dans robots.txt. C'est bien ça ?

    -j'ai un d'autres pages qui ne sont pas dans le fichier robots.txt mais qui ont la meta noindex, nofollow. Si je fais un lien en follow vers cette page google est ce que Google va aller consulter la page ?


    Ensuite j'observe une hausse des pages bloquées : en mars : 100 000 pages bloquées en juin 18 millions de pages bloquées : est ce normal ???

    En parallèle j'observe sur les 15 derniers jours une baisse du nombre de pages indexées (-30% de pages indexées). Est ce qu'il peut y avoir un lien entre les 2 ?

    Merci d'avance pour vos retours,
     
  7. usulfr
    usulfr WRInaute discret
    Inscrit:
    9 Décembre 2006
    Messages:
    134
    J'aime reçus:
    0
    Oui, pas de crawl vers ces pages (robots.txt l'interdit)

    Oui, il va aller la consulter mais il ne la mettra pas dans son index (noindex) et les liens sortants de cette page n'auront pas de poids en référencement (nofollow).

    Ce doit être des pages dupliquées par les paramètres d'url (même url, seuls les paramètres changent). C'est bien que ces pages soient bloquées, elles poseraient des pb sinon.


    Possible, difficile à dire, mais c'est probable.
     
  8. Camille_413
    Camille_413 Nouveau WRInaute
    Inscrit:
    19 Mars 2014
    Messages:
    34
    J'aime reçus:
    0
    Un grand merci pour vos retours, j'y vois plus clair.

    Juste un dernier cas de figure :
    j'ai une page en noindex, follow (qui n'est pas présente dans le fichier robots.txt) > si je fais un liens en follow vers cette page alors google va aller la consulter et les liens présents sur cette page sont importants pour le référencement puisque dans la meta robots on a follow ? C'est bien ça ?
     
  9. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 662
    J'aime reçus:
    748
    18M de pages bloquées, je me demande si c'est vraiment normal...

    en effet. tu te rends compte peut-être que le nofollow dans la balise meta robots n'a a priori aucun intérêt
     
  10. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    4 101
    J'aime reçus:
    176
    Je n'en suis pas certain.

    Comme on te l'a déjà dit plus haut, si une url est présente dans robots.txt, google ne va pas aller la crawler et il ne verra pas que cette page contient un NOINDEX ni que cette page contient un FOLLOW ou un NOFOLLOW.

    Si cette page a déjà été indexée par google il ne va pas la désindexer car il ne peut plus la crawler et donc il ne peut pas savoir que la page est maintenant en noindex.

    Ce n'est pas naturel d'avoir des urls dans robots.txt sauf cas vraiment exceptionnel (tu ne veux absolument pas qu'on trouve ces urls car elles sont privées ou n'ont aucun rapport avec le thème du site)

    Pour ne pas qu'une page soit indexée il faut lui mettre une balise noindex et il ne faut pas que cette page soit dans robots.txt pour que google sache qu'elle est en noindex
     
Chargement...
Similar Threads - Robots liens follow Forum Date
Page de liens spécifiées disallow dans le robots.txt Netlinking, backlinks, liens et redirections 18 Mars 2014
Les robots indexent t'ils les liens intérieurs à une image ? Débuter en référencement 23 Août 2012
Liens affichés par javascript sont-t-ils lus par les robots des moteurs de recherche ? Netlinking, backlinks, liens et redirections 16 Juin 2011
Page interdite par robots.txt liens suivis? Débuter en référencement 2 Avril 2009
Bloquer l'accés à des "sous-liens" en utilisant robots.txt Problèmes de référencement spécifiques à vos sites 5 Mars 2009
Abondance de liens externes ? les robots les ignorent Netlinking, backlinks, liens et redirections 6 Janvier 2009
N autoriser que les robots et les liens Refer google URL Rewriting et .htaccess 15 Mars 2008
les robots suivent les liens dans les xml ? Débuter en référencement 24 Janvier 2007
Liens externes créés par visiteurs vers pages robots.txt ? Débuter en référencement 10 Octobre 2006
Liens OnMouseOver suivi par les robots des moteur ? Demandes d'avis et de conseils sur vos sites 9 Avril 2006
liens sans texte et robots Netlinking, backlinks, liens et redirections 11 Janvier 2006
Echange liens en php visible que par les robots Référencement Google 17 Avril 2005
Pourquoi les robots ne suivent-ils pas mes liens ? Problèmes de référencement spécifiques à vos sites 15 Avril 2005
Pourquoi ne pas utiliser le robots.txt pour interdire l'indexation ? Débuter en référencement 14 Avril 2022
canonical et robots=index sur une même page Débuter en référencement 7 Décembre 2021
le noindex dans le robots.txt Débuter en référencement 19 Novembre 2021
suppression des pages bloquées par robots.txt Débuter en référencement 18 Octobre 2021
Faut-il déclarer le sitemap dans le robots.txt ou search console ? Crawl et indexation Google, sitemaps 14 Juillet 2021
Les mots-clés de mon site ne sont pas détectés par les robots de référencement Problèmes de référencement spécifiques à vos sites 7 Juillet 2021
Wordpress et le robots.txt Débuter en référencement 21 Juin 2021