SEO et moteur de recherche interne selon Google ?

Dharius · 12 Juin 2014

Bonjour,

J'ai lu à plusieurs reprises sur des forums comme WRI que Google interdisait (ou déconseillait ?) le référencement de pages générées par un moteur de recherche interne à un site ou ses tags...

Cependant je n'arrive pas à mettre la main sur des déclarations officielles de la part de Google à ce sujet. Pouvez-vous m'aider à trouver un texte qui en parle ?

Surtout que Google sur son propre blog ne se préoccupe pas de cela...

MERCI !

WebRankInfo · 12 Juin 2014

Google ne veut pas qu'on fasse indexer des pages de résultats de recherche ayant un champ ouvert, car ça génère potentiellement un nb infini de pages sans contenu éditorial inédit.
C'est décrit à peu près sur https://support.google.com/webmasters/answer/2721306?hl=fr mais surtout sur https://support.google.com/webmasters/answer/35769?hl=fr :

Utilisez le fichier robots.txt pour empêcher l'exploration des pages de résultats de recherche ou d'autres pages générées automatiquement qui n'offrent aucun intérêt particulier pour les utilisateurs des moteurs de recherche.

Dharius · 13 Juin 2014

Merci ! En effet j'étais passé à côté.

Neoxy · 13 Juin 2014

Bloquer l'indexation, pourquoi pas, mais pourquoi bloquer l'exploration ?

Est ce que Google n'a pas besoin d'explorer les pages sans les indexer afin de se faire une idée de l'expérience utilisateur ?

D'ailleurs, ça rentre en contradiction avec la citation de John Mueller :

Best Robots.txt is no robots.txt

Plus d'info : http://www.seroundtable.com/google-robotstxt-advice-12759.html

WebRankInfo · 13 Juin 2014

je ne vois pas bien le rapport entre le crawl de Google et l'analyse de l'expérience utilisateur. Si Google veut étudier cette dernière, il peut utiliser les données issues de Chrome ;-)
faire crawler 3 tonnes d'URL sans intérêt pour le référencement, ce n'est franchement pas une super idée je trouve

Neoxy · 13 Juin 2014

Hello
Donc tu pense qu'il est plus judicieux de bloquer l'exploration des URLs qui ne seront pas indexés ?

En gros, on laisse Google Explorer uniquement les URL qu'on veux voir dans l'index ?

Que pense tu de la citation de John Mueller sinon ?

WebRankInfo · 13 Juin 2014

Neoxy a dit:
Que pense tu de la citation de John Mueller sinon ?

voilà ce qu'il a apparemment dit :

I would recommend going even a bit further, and perhaps removing the robots.txt file completely. The general idea behind blocking some of those pages from crawling is to prevent them from being indexed. However, that's not really necessary -- websites can still be crawled, indexed and ranked fine with pages like their terms of service or shipping information indexed (sometimes that's even useful to the user ).

en effet, bloquer ou pas 2 ou 3 pages ne va rien changer.
mais si jamais on a 3 tonnes d'URL qui ne servent qu'aux internautes, il vaut mieux les bloquer au crawl pour éviter que Google ait ces 3 tonnes d'URL à crawler pour rien

Neoxy · 13 Juin 2014

Hello,

Merci pour ce retour de ta part

Donc pour éviter d'épuiser le moteur de recherche, il est préférable d'éviter le crawl d'url inutiles ?
Pages de résultats de recherches, url relatifs à des tris de produits... etc etc

WebRankInfo · 13 Juin 2014

oui, c'est ce que j'appelle la gestion de la "masse noire" !

Neoxy · 13 Juin 2014

Bienvenue dans le monde de l'espace du SEO

hassan1488 · 16 Juin 2014

Pour cela il vaux mieux mettre ces page en noindex nofollow... c'est ça?

Leonick · 16 Juin 2014

plutôt en noindex, follow

Neoxy · 16 Juin 2014

Mettre en noindex follow est une solution ...

Mais pour éviter que le robot de Google s'épuise à explorer des pages qui ne seront pas affichés dans l'index, il est préférable de lister les url dans un fichier : Robots.txt
#Optimisation #Crawl

Leonick · 16 Juin 2014

sauf que si tes requêtes sont effectuées en get, tu ne peux connaitre de façon exhaustive toutes tes url

WebRankInfo · 17 Juin 2014

ça n'empêche pas de les bloquer au crawl, en tout cas pour Google

indigene · 20 Juin 2014

plutot que d'avoir "no robots.txt" il est préférable de toujours en avoir un mais vide
Ca évite les erreurs 404 renvoyées par le serveur

Pour les résultats de recherche, au lieu de se poser la question de mettre du noindex et/ou du nofollow, il serait peut-être préférable de ne pas générer de liens vers ces pages.

Ce contre quoi veut lutter google, ce sont les sites qui publient une page qui contient la liste des dernières recherches effectuées dans le moteur de recherche. Cette liste génère des liens vers les pages de résultats de recherche et même si le lien disparait du site après quelques jours, la page indexée par google sera crawlée à vie une fois qu'elle figure dans l'index GG

Leonick · 21 Juin 2014

indigene a dit:
Pour les résultats de recherche, au lieu de se poser la question de mettre du noindex et/ou du nofollow, il serait peut-être préférable de ne pas générer de liens vers ces pages.

ça ne t'es jamais arrivé de mettre, sur un forum, un lien vers une page de recherches gg ? ni vers une page de recherches d'un autre site ?
de toutes façons, avec adsense, ga et chrome, sans compter gmail, gg a plein de manière de découvrir de nouvelles url, donc si, le noindex il le faut

zeb · 21 Juin 2014

Neoxy a dit:
Donc pour éviter d'épuiser le moteur de recherche, il est préférable ...

Surtout pour préserver la planète :wink: Google a la limite tu t'en contrefiche c'est qu'un élément de l'équation.