Référencement de pages de résultats de recherche

vinset · 10 Juillet 2007

Bonjour,

nous avons un moteur de recherche interne dans notre site Internet, pratique pour rechercher parmis plus de 3000 produits.

J'ai lu je ne sais plus où que Google allait désindexer toutes les pages de résultats de recherche. Je suis d'accord car parfois c'est vraiment lourd quand elles ne sont pas pertinentes et qu'il ne s'agit que de liens externes.

Mais si la page est placée de façon intelligente, admettons que ma page ne parle que de chaussures et que je fais un lien sur le mot "chaussures" vers la page de résultats de notre moteur de recherche interne pour que les internautes voient toutes nos chaussures, pensez-vous que cette page a une chance d'être indexée ?

HawkEye · 10 Juillet 2007

C'est à toi de trouver la limite raisonnable entre "tagging" et "spamdexing".

J'ai fait l'expérience (et les frais) d'un hyper-tagging, qui consistait en fait un une mise à disposition de pages de résultats de recherches, bien évidemment hyper-optimisées de par leur structure et leur contenu...

--> Black List

Personnellement, je ne permettrais pas l'indexation de pages générées "on the fly", et je ne ferais pas de liens vers ces pages.
Si c'est en faible quantité, tu ne risques rien, mais si on veut te nuire, c'est une porte d'entrée très facile.

Imagine qu'on identifie que tes pages de recherches indexables soient sous la forme blabla.com/guide/{mot-clé}...
Une personne mal intentionnée aura tôt fait de générer des millions de liens vers des recherches "bateau", voire nuisibles à ton site: si tu n'as pas le contrôle là dessus, tu prends un risque important.

L'alternative à ça, c'est le "tagging": tu attribues quelques mots-clés à chaque produit, manuellement ou via un script qui identifie les termes de ton contenu qui correspondent à une liste te tags "reconnus", et tu permets des recherches "facilitées", un peu à la manière d'un index à la fin d'un bouquin.

L'important est bien évidemment le contrôle du tag demandé par le visiteur: si le tag n'est pas présent dans la liste des tags "reconnus", aucun contenu ne doit être fourni (404, ou 301 vers la page la plus adéquate).

vinset · 10 Juillet 2007

Merci HawkEye, je sens que ça va encore être des discussions à n'en plus finir avec notre webagency...

HawkEye · 10 Juillet 2007

Pas forcément, vinset.
L'important, c'est d'avoir le contrôle du contenu.

Le moins qu'ils puissent faire, c'est de faire en sorte par exemple que si la recherche qui est faite par l'internaute ne fait pas partie des "requêtes reconnues" (une simple liste), il soit renseigné la balise <meta name="robots" content="none" />.

--> seules les recherches "autorisées" génèrent des pages "indexables".

Il faut savoir que certains moteurs, dont Google et Yahoo, font des tests en essayant de "deviner" quelles sont les pages créées "à la volée" par vagues de tests de ce genre, où ils injectent des valeurs au hasard pour vérifier si la réponse est une 404 ou un code d'état 200.

vinset · 10 Juillet 2007

Merci beaucoup HawkEye de cette solution qui me parait simple en effet.
Il va quand même falloir demander ce développement spécifique à la société qui s'occupe de notre moteur de recherche interne (C-e-l-e-b-r-o-s) pour 7 pays différents...
Déjà que ce n'est pas simple de leur faire comprendre qu'une redirection 302 pour compter les recherches, j'en veux pas et que je voudrais des redirections 301 sur chaque produit de la page "?ID=xxx" vers l'URL rewrité...

vinset · 13 Juillet 2007

Bon, en repensant à cette discussion, je me suis demandé 2 choses :
> Quelle est la différence entre
<META NAME="ROBOTS" CONTENT="NOINDEX">
et
<META NAME="ROBOTS" content="none">
?

S'il faut renvoyer un 404 aux moteurs de recherche, pour indiquer qu'il ne s'agit pas de pages crées "on the fly", l'utilisation d'une de ces balises convient-elle et renverra-t-elle vraiment un code 404 ???
Pour moi la page devrait quand même renvoyer un code 200, tout en indiquant aux moteurs de ne pas l'indexer...?

Monty973 · 13 Juillet 2007

La page existe, il n'y a donc effectivement pas lieu de renvoyer une 404 (et ce n'est pas le but de la balise META ROBOTS de toute façon.)

Pour qu'elle ne soit pas indéxée, tu peux utiliser cette balise :

Code:

<META NAME="ROBOTS" content="none">

La page ne sera pas indexée et les liens ne seront pas suivis. Mais le mieux est sans doute d'interdire les pages via le fichier robots.txt, c'est d'ailleurs ce qui est recommandé dans les guidelines :

Utilisez robots.txt pour éviter l'exploration des pages de résultats de recherche ou d'autres pages générées automatiquement qui n'offrent pas d'intérêt particulier pour les internautes provenant de moteurs de recherche.

https://www.google.com/support/webmaster ... swer=35769

vinset · 13 Juillet 2007

Merci,

mais quelle est la différence avec la balise META ROBOT NOINDEX ?

Et si on met la page de recherche dans le robot.txt, on pourra en effet mettre l'url de la home du moteur de recherche interne domaine.fr/recherche.php, mais comment empêcher toutes les URL qui peuvent se créer à la volée du genre domaine.fr/recherche.php?query=mot-clé ou domaine.fr/recherche.php?query=autre-exemple-de-mot-clé ?

Bobez · 16 Juillet 2007

La seule manière que je vois de faire ça, c'est d'utiliser une url dotée d'un répertoire "virtuel", par exemple domaine.fr/recherche/mot-cle.
Comme ça, tu peux faire un simple Disallow: /recherche/
Et pour les pages que tu veux faire indexer, choisir une autre syntaxe d'url via urlrewriting... Bref, c'est un peu le bordel.

Sur mon site, je passe par la balise meta.

Et pour ta première question, le "none" signifie en fait noindex + nofollow + noarchive. :wink:

HawkEye · 16 Juillet 2007

vinset a dit:
mais quelle est la différence avec la balise META ROBOT NOINDEX ?

Et si on met la page de recherche dans le robot.txt, on pourra en effet mettre l'url de la home du moteur de recherche interne domaine.fr/recherche.php, mais comment empêcher toutes les URL qui peuvent se créer à la volée?

La balise <meta name="robots" supporte différents content="":

- noindex (ne pas indexer la page)
- nofollow (ne pas considérer les liens)
- noarchive (ne pas mettre en cache)

et "none", qui correspond à "noindex, nofollow, noarchive".

les réponses "positives" existent également (index, follow, archive), mais comme ce sont les valeurs par défaut, il n'est pas nécessaire de les renseigner (cette balise n'a de valeur que restrictive

).

Pour robots.txt, si tu fais un Disallow: /recherche.php, recherche.php?foo=bar est bloqué aussi !

Zipoups · 1 Août 2008

Bonjour,

Je suis quasiment dans la même configuration que vinset. En résumé, je travaille sur un site e-commerce avec plus de 5500 produits en vente et environ 26 000 pages référencés. En terme de SEO, on est plutôt bien placé sur notre coeur de métier, et le site en lui même est optimisé selon les règles.

Dans cette continuité, on souhaite créer un annuaire de requête hierarchisé et structuré (on ne souhaite pas faire une page avec 14 000 mots clés au singulier, pluriel, avec fautes d'ortographe etc... le but est d'avoir une url propre pour chaque famille et sous famille de produit, ex : Cheval > Cheval Blanc > Cheval blanc à roulette). pour référencer les pages search interne au site.

Le développement de l'outil est déjà fait, il n'est pas encore en ligne mais il est opérationnel.

On alimenterait donc progressivement cette base en fonction de la pertinence des pages de recherche que l'on ferait nous même, afin que les moteurs puissent mieux indexer ces "tags" et accessoirement cet annuaire de pages search pourrait aussi servir à l'internaute. Il serait présenté sous forme de glossaire ou de lexique, trié par lettre (A, B, C, D, E etc...). On limiterait évidemment le nombre de lien par page (à combien ? si on suit les conseils de Google). Ma crainte est de générer des pages avec une liste de liens qui s'enchaînent, et que les moteurs n'apprécient pas la démarche.

Quels conseils donneriez-vous pour que cela se fasse de la manière la plus naturelle possible ? Le but étant d'améliorer le linking interne et par conséquent le référencement à terme, pas de le plomber

Zipoups · 5 Août 2008

Personne n'a d'élément de réponse à ce sujet ?

WebRankInfo · 5 Août 2008

pourquoi serais-tu obligé de créer des pages (sans aucun contenu qui ne soit déjà publié ailleurs) ? tu ne peux pas lier les pages actuelles entre elles ?

darmond.j · 8 Août 2008

vinset a dit:
mais comment empêcher toutes les URL qui peuvent se créer à la volée du genre domaine.fr/recherche.php?query=mot-clé ou domaine.fr/recherche.php?query=autre-exemple-de-mot-clé ?

Hello

En faisant comme ça :

Code:

User-Agent: *
Disallow: /recherche.php?query=*
Allow: /

Mais pour être sûr tu peux tester dans ton WT

UsagiYojimbo · 8 Août 2008

WebRankInfo a dit:
pourquoi serais-tu obligé de créer des pages (sans aucun contenu qui ne soit déjà publié ailleurs) ? tu ne peux pas lier les pages actuelles entre elles ?

+1

Ou alors mettre en place des systèmes, sur la page d'accueil, d'affichage des derniers produits entrés, des meilleurs ventes, etc... tout ce qui permet dès la page d'accueil de favoriser l'indexation des pages internes.

darmond.j · 8 Août 2008

Bonjour.

Je me permets de poster ma question dans ce topic afin de ne pas avoir a en créer un nouveau pour pas grand chose

Pour désindexer des pages, suffit il simplement de les indiquer dans le robots.txt ?

Merci pour vos réponses

dedemutas · 12 Septembre 2008

Bonjour,

Est-ce dangereux de référencer des pages qui représentent des résultats de recherche ? J'ai un moteur de recherche qui fonctionne avec des flux RSS et j'essaie de faire référencer les résultats de recherche de type :

monsite.com/ma-requete.html

Le problème est que d'un jour à l'autre, le contenu est totalement différent et je crois que Google m'a blacklisté.

Avez-vous plus d'information là dessus ?

Merci d'avance.

Madrileño · 13 Septembre 2008

darmond.j a dit:
Pour désindexer des pages, suffit il simplement de les indiquer dans le robots.txt ?

Vous pouvez aussi utiliser le Google Webmaster Tools pour Google Search.

dedemutas a dit:
Est-ce dangereux de référencer des pages qui représentent des résultats de recherche ?

Les utilisateurs ne recherchent pas des résultats de recherche.
Google a aussi améliorer son algorithme concernant le duplicate content.
Complément : Indexation des résultats d'un moteur de recherche.

N'hésitez pas à participer sur le forum pour en savoir plus sur le référencement en réalisant des échanges avec la communauté.

Zecat · 5 Août 2010

Re:

HawkEye a dit:
C'est à toi de trouver la limite raisonnable entre "tagging" et "spamdexing".

J'ai fait l'expérience (et les frais) d'un hyper-tagging, qui consistait en fait un une mise à disposition de pages de résultats de recherches, bien évidemment hyper-optimisées de par leur structure et leur contenu...

--> Black List

T'aurais du me demander denis, même cause même motif même résultat que le sous domaine "recherche.yag" ... c'était il y a 3 ou 4 ans ... bienvenue au club :wink: