"Similar pages"

e-atlantide · 19 Mars 2005

Lorsque le résultat d'une recherche sur google donne : url et en dessous "Similar pages"; S'agit-il d'un duplicate content ?

didjiridou · 19 Mars 2005

Il s'agit de pages que Google estime similaire

Donc leur taux de ressemblance est supérieure à un taux défini par google

e-atlantide · 19 Mars 2005

Je viens de lire dans un sujet du forum que ces url ne sont pas indexés dans google pour la recherche. Ils seraient pris en compte pour gonfler les statistiques de nombre de liens vis à vis de leur concurrent.

A priori, il n'y pas de risque d'être pénalisé par google avec ce type lien (dans mon cas ils figurent dans robots.txt).

Pouvez-vous confirmer ou infirmer ?

WebRankInfo · 19 Mars 2005

je crois que vous confondez plusieurs choses...
en anglais sur google.com (puisque c'est l'exemple donné dans le 1er post), Google indique parfois à la fin d'une requête :

In order to show you the most relevant results, we have omitted some entries very similar to the 40 already displayed.
If you like, you can repeat the search with the omitted results included.

Par contre à côté de la plupart des résultats, il y a écrit

Similar pages

"Similar pages" est un lien vers des pages que Google considère comme étant "similaires", son algo étant peu connu, sans doute basé sur les liens (mais pas le contenu textuel)

e-atlantide · 19 Mars 2005

En fait, j'évoquais le cas où le résultat a le format :

www.monsite.com/forum/viewtopic.php?t=14
Similar pages

Il n'y a pas de titre et pas de description.

J'ai mis en place un règle dans le fichier robots.txt pour que ce lien ne soit pas référencé mais pourtant il apparaît.
Je souhaitais savoir pourquoi.

hyadex · 19 Mars 2005

e-atlantide a dit:
En fait, j'évoquais le cas où le résultat a le format :

www.monsite.com/forum/viewtopic.php?t=14
Similar pages

Cliquez pour agrandir...

Il n'y a pas de titre et pas de description.

J'ai mis en place un règle dans le fichier robots.txt pour que ce lien ne soit pas référencé mais pourtant il apparaît.
Je souhaitais savoir pourquoi.

Si une page est dans ton robots.txt, elle serai quand meme crawler par google, la seule difference est qu'aucune informations en dessous de ton URL ne seront affichées. (Pas de titre, ni descritpion, ni cache).
Si tu souhaites que cette page ne soit pas indexée du tout, la seule solution est de mettre dans la balise robot, "noindex".

e-atlantide · 19 Mars 2005

hyadex a dit:
Si une page est dans ton robots.txt, elle serai quand meme crawler par google, la seule difference est qu'aucune informations en dessous de ton URL ne seront affichées. (Pas de titre, ni descritpion, ni cache).
Si tu souhaites que cette page ne soit pas indexée du tout, la seule solution est de mettre dans la balise robot, "noindex".

Le lien en question a été réécrit en utilisant de l'url-rewriting. Y-a t'il dans ce cas un risque que le moteur de recherche considère qu'il y 2 liens différents (1 lien avec des variables et 1 lien réécrit) pour la même page ?

hyadex · 19 Mars 2005

e-atlantide a dit:
Le lien en question a été réécrit en utilisant de l'url-rewriting. Y-a t'il dans ce cas un risque que le moteur de recherche considère qu'il y 2 liens différents (1 lien avec des variables et 1 lien réécrit) pour la même page ?

C'est une très bonne question, mais là franchement, je n'en ai pas la moindre idée.
Si quelqu'un connait la réponse, ca m'intéresse aussi...

rottman · 19 Mars 2005

Il verra que ce sont 2 pages similaire mais bon si tu mets un noindex dans celle non-rewritée, y'a pas de problème...

De + c'est pas la fin du monde 2 pages similaires.

e-atlantide · 19 Mars 2005

rottman a dit:
Il verra que ce sont 2 pages similaire mais bon si tu mets un noindex dans celle non-rewritée, y'a pas de problème...

Je pense que ce n'est pas possible de dissocier les deux (noindex figurera dans les deux liens).

rottman · 19 Mars 2005

e-atlantide a dit:
rottman a dit:

Il verra que ce sont 2 pages similaire mais bon si tu mets un noindex dans celle non-rewritée, y'a pas de problème...

Cliquez pour agrandir...

Je pense que ce n'est pas possible de dissocier les deux (noindex figurera dans les deux liens).

Ah oui effectivement :lol:

rottman · 19 Mars 2005

De toute façon la page non-rewritée ne sera plus indexée lorsqu'elle n'aura plus de baclinks

herveG · 19 Mars 2005

rottman a dit:
Il verra que ce sont 2 pages similaire mais bon si tu mets un noindex dans celle non-rewritée, y'a pas de problème...

De + c'est pas la fin du monde 2 pages similaires.

non, mais ca peut poser probleme.en effet, tant que la page non rewrittée aura au moins un lien pointant vers elle, elle sera indexée et raffraichie apr les bots.

Donc, en sitaution de duplicate content, google a l habitude d'au moins pénalisé un des deux pages parfois meme les deux. tant que c est la page non rewrittée qui est pénalidée (traduire repousséee dans les resultats), ca va. mais la pluaprt du temps (c est la loi de murphy), google favorise la page que l on ne voulait pas et pénalise la page que l onsouhaitait garder dans les resultats !!

Donc, à éviter quand meme.....

e-atlantide · 20 Mars 2005

Google propose un système automatique de suppression d'URL en 24 heures. Ceci peut s'effectuer à l'aide d'un fichier robots.txt ou directement en saisissant l'url périmé.
Un suivi pour vérifier l'état des demandes est disponible.

Le lien :
http://services.google.com:8882/urlconsole/controller

Je viens de faire la transaction. J'attends le résultat.

e-atlantide · 20 Mars 2005

Super, google a supprimé les liens avec variable dans sa base.

niceunef · 21 Mars 2005

Pour revenir au probleme, ca n'a rien a voir avec les pages similaires, c'est juste qu'il n'a pas de titre, ni description, ni version en cache a proposer... Donc il ne reste que le lien "pages similaires", mais il n'y est pour rien :roll:
Ce sont des pages connues seulement par les liens existant vers elles. Effectivement, si elles sont interdites par robots.txt, ca peut favoriser ce comportement (qui devrait etre provisoire, mais on peut mettre un terme plus rapide en utilisant l'outil de suppression)