Majorité de page en "noindex"

Discussion dans 'Débuter en référencement' créé par maloc, 22 Juillet 2016.

Tags:
  1. maloc
    maloc WRInaute discret
    Inscrit:
    27 Novembre 2012
    Messages:
    181
    J'aime reçus:
    0
    Bonjour,

    La question est assez basique, mais j'ai un doute, donc je préfère demander votre avis.

    Est-ce qu'il y a une contre indication à avoir une majorité de page en noindex ?

    Je m'explique, des pages sont créés chaque jour par centaine (justifié), seulement, leur durée de vie est très courte, et je ne souhaite pas référencer ces pages, mais en gros, la catégorie qui les contient oui. Seulement, pour une raison pratique, mes membres préfèrent une page à part plutôt qu'une fausse page AJAX ou équivalent.

    Bref, le site a beaucoup de page (plusieurs dizaines de milliers), aurait facilement 30 fois plus de page en "noindex". Est-ce que c'est dérangeant pour Google d'avoir un très grand nombre de page "noindex" par rapport à ceux que je laisse indexé ?

    (dès lors qu'elles sont trop expirés, donc supérieur à 3 mois en général, je pourrai mettre ses pages en 301 vers la page à référencer, par exemple).

    Merci de votre avis !
     
  2. Bigb06
    Bigb06 WRInaute impliqué
    Inscrit:
    21 Mars 2007
    Messages:
    842
    J'aime reçus:
    1
    Bonjour,

    je pense qu'il n'y a aucun problème concernant le positionnement, par contre coté crawl ca peut etre problématique pour Google qui doit crawler les urls pour s'apercevoir qu'elles sont en noindex. Le mieux est de rajouter un attribut rel="nofollow" sur les liens vers des pages noindex pour éviter à Google de crawler des pages inutilement.
     
  3. Madrileño
    Madrileño Membre Honoré
    Inscrit:
    7 Juillet 2004
    Messages:
    32 105
    J'aime reçus:
    283
    Bonjour,

    +1 rel nofollow et robots.txt pour aider le bot.

    Cordialement.
     
  4. NicolasH
    NicolasH WRInaute occasionnel
    Inscrit:
    4 Mai 2016
    Messages:
    312
    J'aime reçus:
    22
    Bonjour,

    Tu peux par exemple mettre tes pages dans un dossier (exemple : /pages/) et bloquer ce dossier au crawl dans le robots.txt.

    Pour être certain de ne pas avoir ces pages indexées dans les moteurs de recherche mais aussi pour désindexer celles qui le sont déjà tu peux ajouter la balise meta suivante :
    <meta name="robots" content="noindex"> sur l'ensemble des pages concernées.
     
  5. maloc
    maloc WRInaute discret
    Inscrit:
    27 Novembre 2012
    Messages:
    181
    J'aime reçus:
    0
    Ok, merci de votre avis, c'est ce que j'avais fais, mais effectivement, je n'avais pas pensé au nofollow, je vais m'y atteler :)
     
  6. Madrileño
    Madrileño Membre Honoré
    Inscrit:
    7 Juillet 2004
    Messages:
    32 105
    J'aime reçus:
    283
    Bonjour,

    Si vous souhaitez d'autres avis, vous pouvez présenter l'URL du site.

    Cordialement.
     
  7. patrick_lejeune
    patrick_lejeune WRInaute occasionnel
    Inscrit:
    1 Avril 2016
    Messages:
    426
    J'aime reçus:
    0
    La règle de base en liens internes est INDEX et liens FOLLOW. Une autre approche est plus directe: une page qui ne doit plus être reprise reprend un lien vers une nouvelle page à contenu équivalent (ou vers la catégorie supérieure).
    Rappelle quand même le noindex ... ca ne bloque pas le robot d'indexation, juste qu'il n'en tient pas compte dans les résultats. La solution est plutôt d'utiliser le fichier robot.txt et ses règles pour qu'il ne les lise pas du tout! (ou redirection ci-dessus)
     
  8. NicolasH
    NicolasH WRInaute occasionnel
    Inscrit:
    4 Mai 2016
    Messages:
    312
    J'aime reçus:
    22
    Bonjour,

    patrick_lejeune >> Je pense qu'il faut utiliser les 2 (robots.txt + noindex).
    Eventuellement la 301 à la place mais il faut que cela soit justifié mais vu ce que dit l'auteur dans le 1er message je ne pense pas que la 301 le soit.
     
  9. maloc
    maloc WRInaute discret
    Inscrit:
    27 Novembre 2012
    Messages:
    181
    J'aime reçus:
    0
    L'idée de mettre un canonical vers la catégorie supérieur vous semble-t-il approprié ? (à la place du noindex par conséquent).
     
  10. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 850
    J'aime reçus:
    457
    si tu as 30x plus de pages en noindex que les index, il me semble évident que la meilleure solution est d'empêcher Google de les crawler (ainsi que de les indexer, cela va sans dire)

    je suppose qu'elles ne sont pas indexées pour l'instant, donc il ne te reste qu'à les bloquer via le fichier robots.txt
     
  11. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 906
    J'aime reçus:
    14
    Il faut quand même que ces pages ne soient pas accessibles par GG lorsqu'il visite le site. Sinon il va quand même les indexer en mettant un message dans la meta pour signaler qu'il n'a pas pu les crawler. Ca me semble pas génial non plus.
     
  12. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 850
    J'aime reçus:
    457
    tu mélanges les choses... s'il ne peut pas les crawler (jamais), il ne pourra pas les indexer.
    c'est dans le cas inverse, quand on bloque le crawl et qu'on cherche malgré tout à faire apparaitre ces pages dans les SERP, par exemple avec une commande site:
     
  13. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 906
    J'aime reçus:
    14
    Je parle du cas de figure expliqué sur cette page, dans le paragraphe suivant : Google connait des pages sans pourtant y accéder !
    https://www.webrankinfo.com/dossiers/indexation/crawl-respect-robots-txt

    Parler d'indexation n’est peut être pas tout à fait juste mais du moment que des pages sont likées sur notre site ou ailleurs, même si elles sont bloquées par le robots.txt elles peuvent parfois être "indexées" (visible dans les serps).

    On peut même lire dans l'article : Conclusion : Google peut vous générer du trafic grâce à des pages qu'il n'a jamais crawlées !

    Après effectivement je ne sais pas si le problème persiste lorsque GG a pu avant le blocage du crawl, crawler la page et vérifier qu'elle était en noindex.
    L’idéal serait vraiment dans le robots.txt de bloquer le crawl et "l'indexation". Il y a d'ailleurs une commande noindex non officielle pour le robots.txt il me semble.

    Si je parle de ça ici, c’est que j'avais rencontré pas mal de soucis avec le robots.txt

    Quoi qu'il en soit il me semble que dans certains cas, meme si on bloque le crawl, vu qu'il ne peut avoir aucune info sur la page, il ajoute la page dans les serps (index) mais ajoute une META et un Title par défaut.
     
  14. patrick_lejeune
    patrick_lejeune WRInaute occasionnel
    Inscrit:
    1 Avril 2016
    Messages:
    426
    J'aime reçus:
    0
    > Olivier, c'est moi qui m'y colle :mrgreen:
    > Noren :wink:
    On commence par les différentes possibilités pour empécher qu'une page soit vue (moteurs et visiteurs).
    1. htaccess avec redirection vers une autre page ou message d'erreur
    - message d'erreur: erreur 404 (page n'existe pas), 303 (interdit)
    2. en PHP pour quelques CMS et développements "maison" dans le header (ou avant)
    sur la page: interdit l'accés à tout le monde
    Code:
    header("HTTP/1.1 403 Forbidden");
     exit();
    
    ou renvoyer une redirection
    3. robot.txt: permet d'interdire la page aux robots qui suivent les directives
    - tous les robots ne suivent pas ces directives (les vrais moteurs oui)
    - interdire les robots pour une page déjà crawlée ne supprime pas la page des résultats: d'où les premières solutions (erreurs 404 ou redirection)
    ... dans tous ces cas (les parasites)
    tu peux bloquer la page /http ... a-pas-visiter.htm et un lien vers a-pas-visiter.htm/XXXX passe dans beaucoup de cas. Même aussi spécifique: http://exemple.com/referencement.WRI peut passer avec des blocages sur http://www.exemple.com/referencement.WRI
     
Chargement...
Similar Threads - Majorité noindex Forum Date
Google a désindexé la grande majorité des pages de mon site pour une raison inconnue Problèmes de référencement spécifiques à vos sites 24 Octobre 2018
Le patron de Google pense que les jeunes changeront de nom à la majorité Google : l'entreprise, les sites web, les services 17 Août 2010
Contenu Obsolète supprimer ou noindex ? Débuter en référencement 16 Octobre 2020
WordPress Mettre les pages catégories en NOINDEX ? Débuter en référencement 25 Août 2020
Backlink vers une page en Noindex ? Débuter en référencement 7 Août 2020
Astuce URL + paramètres VS balise noindex Demandes d'avis et de conseils sur vos sites 13 Mai 2020
URL canonique - Coupler ou non avec une balise noindex ? Débuter en référencement 26 Avril 2020
suppression de page noindex Crawl et indexation Google, sitemaps 12 Mars 2020
Pages zombies mises en Noindex indiquées en erreur 4xx Référencement Google 17 Février 2020
htaccess ou noindex Netlinking, backlinks, liens et redirections 23 Janvier 2020