"Similar pages"

WRInaute occasionnel
Lorsque le résultat d'une recherche sur google donne : url et en dessous "Similar pages"; S'agit-il d'un duplicate content ?
 
WRInaute occasionnel
Il s'agit de pages que Google estime similaire :) Donc leur taux de ressemblance est supérieure à un taux défini par google :)
 
WRInaute occasionnel
Je viens de lire dans un sujet du forum que ces url ne sont pas indexés dans google pour la recherche. Ils seraient pris en compte pour gonfler les statistiques de nombre de liens vis à vis de leur concurrent.

A priori, il n'y pas de risque d'être pénalisé par google avec ce type lien (dans mon cas ils figurent dans robots.txt).

Pouvez-vous confirmer ou infirmer ?
 
Olivier Duffez (admin)
Membre du personnel
je crois que vous confondez plusieurs choses...
en anglais sur google.com (puisque c'est l'exemple donné dans le 1er post), Google indique parfois à la fin d'une requête :
In order to show you the most relevant results, we have omitted some entries very similar to the 40 already displayed.
If you like, you can repeat the search with the omitted results included.

Par contre à côté de la plupart des résultats, il y a écrit
Similar pages

"Similar pages" est un lien vers des pages que Google considère comme étant "similaires", son algo étant peu connu, sans doute basé sur les liens (mais pas le contenu textuel)
 
WRInaute occasionnel
En fait, j'évoquais le cas où le résultat a le format :
www.monsite.com/forum/viewtopic.php?t=14
Similar pages

Il n'y a pas de titre et pas de description.

J'ai mis en place un règle dans le fichier robots.txt pour que ce lien ne soit pas référencé mais pourtant il apparaît.
Je souhaitais savoir pourquoi.
 
WRInaute impliqué
e-atlantide a dit:
En fait, j'évoquais le cas où le résultat a le format :
www.monsite.com/forum/viewtopic.php?t=14
Similar pages

Il n'y a pas de titre et pas de description.

J'ai mis en place un règle dans le fichier robots.txt pour que ce lien ne soit pas référencé mais pourtant il apparaît.
Je souhaitais savoir pourquoi.

Si une page est dans ton robots.txt, elle serai quand meme crawler par google, la seule difference est qu'aucune informations en dessous de ton URL ne seront affichées. (Pas de titre, ni descritpion, ni cache).
Si tu souhaites que cette page ne soit pas indexée du tout, la seule solution est de mettre dans la balise robot, "noindex".
 
WRInaute occasionnel
hyadex a dit:
Si une page est dans ton robots.txt, elle serai quand meme crawler par google, la seule difference est qu'aucune informations en dessous de ton URL ne seront affichées. (Pas de titre, ni descritpion, ni cache).
Si tu souhaites que cette page ne soit pas indexée du tout, la seule solution est de mettre dans la balise robot, "noindex".

Le lien en question a été réécrit en utilisant de l'url-rewriting. Y-a t'il dans ce cas un risque que le moteur de recherche considère qu'il y 2 liens différents (1 lien avec des variables et 1 lien réécrit) pour la même page ?
 
WRInaute impliqué
e-atlantide a dit:
Le lien en question a été réécrit en utilisant de l'url-rewriting. Y-a t'il dans ce cas un risque que le moteur de recherche considère qu'il y 2 liens différents (1 lien avec des variables et 1 lien réécrit) pour la même page ?

C'est une très bonne question, mais là franchement, je n'en ai pas la moindre idée.
Si quelqu'un connait la réponse, ca m'intéresse aussi...
 
WRInaute passionné
Il verra que ce sont 2 pages similaire mais bon si tu mets un noindex dans celle non-rewritée, y'a pas de problème...

De + c'est pas la fin du monde 2 pages similaires.
 
WRInaute occasionnel
rottman a dit:
Il verra que ce sont 2 pages similaire mais bon si tu mets un noindex dans celle non-rewritée, y'a pas de problème...

Je pense que ce n'est pas possible de dissocier les deux (noindex figurera dans les deux liens).
 
WRInaute accro
rottman a dit:
Il verra que ce sont 2 pages similaire mais bon si tu mets un noindex dans celle non-rewritée, y'a pas de problème...

De + c'est pas la fin du monde 2 pages similaires.

non, mais ca peut poser probleme.en effet, tant que la page non rewrittée aura au moins un lien pointant vers elle, elle sera indexée et raffraichie apr les bots.

Donc, en sitaution de duplicate content, google a l habitude d'au moins pénalisé un des deux pages parfois meme les deux. tant que c est la page non rewrittée qui est pénalidée (traduire repousséee dans les resultats), ca va. mais la pluaprt du temps (c est la loi de murphy), google favorise la page que l on ne voulait pas et pénalise la page que l onsouhaitait garder dans les resultats !!

Donc, à éviter quand meme.....
 
WRInaute passionné
Pour revenir au probleme, ca n'a rien a voir avec les pages similaires, c'est juste qu'il n'a pas de titre, ni description, ni version en cache a proposer... Donc il ne reste que le lien "pages similaires", mais il n'y est pour rien :roll:
Ce sont des pages connues seulement par les liens existant vers elles. Effectivement, si elles sont interdites par robots.txt, ca peut favoriser ce comportement (qui devrait etre provisoire, mais on peut mettre un terme plus rapide en utilisant l'outil de suppression)
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Haut