probléme de pages similaires

bigguiz · 7 Octobre 2005

bonjour a tous,

j'ai un petit probléme technique. Je me suis proposé pour refaire a neuf le site du registre des citoyens du monde

seulement il y a une personne qui a créé un site chez free:

et qui a mis pratiquement le même texte que le site du recim. Cette personne est injoignable et ne repond pas a ses mails. :?

Pour l'instant ca ne semble pas poser de probléme pour google (voir referencement sur "citoyens du monde".

Mais bon deja le site de free est quand même pouri et j'ai peur que quand je vais mettre les pages a jour, j'ai un probléme de pages similaires.

Bref j'ai peur qu'a cause de ça le site du recim soit pénalisé.

D'aprés vous, est-ce qu'il y a un risque?

dixenet · 7 Octobre 2005

Je ne pense pas. D'abord parce que les designs et donc le code HTML qui le mets en page est different.

Ce n'est pas une copie complete de votre site.

Sur internet, bon nombre de site on les memes contenus, mais la mise en page differe. Et c'est la dessus que google se base.

Il ne faut pas confondre contenu proche et contenu identique

spidetra · 7 Octobre 2005

dixenet a dit:
Sur internet, bon nombre de site on les memes contenus, mais la mise en page differe. Et c'est la dessus que google se base.

Source ?

doic · 7 Octobre 2005

bigguiz a dit:
Mais bon deja le site de free est quand même pouri et j'ai peur que quand je vais mettre les pages a jour, j'ai un probléme de pages similaires.

Il y'a un dicton qui dit qu'il faut regarder la poutre qu'on a dans l'oeil avant de parler de la paille dans l'oeil de son prochain... Tu connais? :roll:

bigguiz · 7 Octobre 2005

Loin de moi l'idée de critiquer le travail de qui que ce soit

D'ailleurs son site est mieux référencé que le site "officiel"

Je ne sais pas qui a été le premier a faire un site, car je reprends tout juste le dossier.

La personne qui a fait ce site était surement pleine de bonnes intentions mais je me demande si sont initiative précipitée ne va pas s'avérer préjudiciable pour les citoyens du monde :roll:

Ce qui est domage c'est que la personne ne réponde plus.

amazigh25 · 7 Octobre 2005

Bonjour;
ne t'inquiète pas trop, si la mise en page et differente le risque de page similaires et mince.

Sinon t'a essayer de contacter free ?

@+

spidetra · 7 Octobre 2005

amazigh25 a dit:
Bonjour;
ne t'inquiète pas trop, si la mise en page et differente le risque de page similaires et mince.

Sinon t'a essayer de contacter free ?

@+

c le 2° post qui parle de mise en page ?
Google index du contenu pas de la mise en forme, non ?
Je suis surpris par ces affirmations, vous avez des sources ?

bigguiz · 7 Octobre 2005

ok merci,

vu que je sais pas trop comment marche les pages similaires j'ai préféré poser la question.

Oui j'ai essayé de contacter free, ça serait bien de créer un lien entre les deux sites par exemple.

Mais free ne veut pas me donner ses coordonnées a cause de la CNIL sans doute.

Je leur ai demandé de transmettre un message, mais je sais pas si ca va marcher.

bigguiz · 7 Octobre 2005

oui est-ce que quelqu'un a des sources?

spidetra · 7 Octobre 2005

amazigh25 a dit:
Bonjour;
ne t'inquiète pas trop, si la mise en page et differente le risque de page similaires et mince.

D'un point de vue simpliste c'est quoi un index :

- un identifiant unique pour chacune des urls crawlées. Par exemple, peut être une clé MD5, ou tout autres ago : ID = MD5(url) ;

- Un vecteur et/ou une matrice représentant le contenu de la page.
Dans cette matrice :
- la liste des mots de l'url, et pour chacun des mots la liste des positions, des pondérations diverses, etc....

je suppose que l'index rajoute : des checksum, des vecteurs de backlinks, etc....

un calcul de similarité pourrait se faire au niveau de la matrice mots/positions. J'suis pas assez calé en calcul matriciel, mais je suppose qu'il doit être possible d'extraire des parties de matrices identiques.
Je ne dit pas que c'est comme ça que cela fonctionne ( c'est juste une hupothèse )

aucun intérêt pour Google de prendre en compte la mise en page des sites web. Donc je suis assez surpris par ces affirmations.

bigguiz · 7 Octobre 2005

Ce que je voudrais savoir c'est si Google ne cherche que les pages exactement identiques on si il prend aussi celles qui ressemblement

dixenet · 8 Octobre 2005

Comment vous expliquer : google indexe en effet du contenu. mais en fait lui resoit du html et de ce html il sort le contenu pour qu'une page soit considere comme diuplicate, il faut simplement que le HTML soit identique pas le contenu. si le HTML est identique forcement que le contenu l'est aussi. vous voyez ?

spidetra · 8 Octobre 2005

bigguiz a dit:
Ce que je voudrais savoir c'est si Google ne cherche que les pages exactement identiques on si il prend aussi celles qui ressemblement

a mon humble avis, Google recherche de la similarité.
Toute la difficulté est de savoir à quel niveau Google place la barre.

spidetra · 8 Octobre 2005

dixenet a dit:
Comment vous expliquer : google indexe en effet du contenu. mais en fait lui resoit du html et de ce html il sort le contenu pour qu'une page soit considere comme diuplicate, il faut simplement que le HTML soit identique pas le contenu. si le HTML est identique forcement que le contenu l'est aussi. vous voyez ?

Comment t'expliquer : j'ai developper en moins d'une semaine, et avec quelques centaines de lignes Perl un programme qui va rechercher du contenu similaire ( duplicate content ) sur Internet.

Mon algo est simpliste, pas optimisé, mais je suis capable d'aller chercher deux contenus identiques ( ou fortement identique, je choisis le % de similarité que je désire ) dans deux sous-arbre html totalement différent.

Je part du postulat, a priori, que les ingénieurs de Google, soutenu par des milliards de dollars, sont, peut-être, meilleur que moi.

Si je suis capable de retrouver deux contenus similaire, dans deux pages HTML totalement différentes, tu ne penses pas que Google est est, peut-être, aussi capable.
Sinon, je suis prêt à leur vendre mes 100 lignes de perl

Oui, je récupére du HTML, et alors ? Quel est le rapport avec la mise en page.
J'ai peut-être tord, mais si google tient compte de la mise en page dans la recherche du duplicate content : quelles sont tes sources ?
Cela m'intéresse, et je suis prêt à me remettre en cause.

dixenet · 11 Octobre 2005

Oui je suis d'accord avec toi mais pour que la sanction duplicate soit mise en place il faut plus qu'un simple contenu sismilaire sinon bon nombre de site serais en duplicate.

Exemple: les sites qui propose des Marques Blanche pour des Informations.

HawkEye · 11 Octobre 2005

bigguiz a dit:
Ce que je voudrais savoir c'est si Google ne cherche que les pages exactement identiques on si il prend aussi celles qui ressemblement

Google n'a rien à f* du design des pages...

Ce qu'il interprète est une similarité du contenu textuel (certains l'évaluent à 80% de similarité).

Si google comparait le design des sites, je comprendrais pourquoi il met tant de temps à crawler... T'imagines le temps machine nécessaire à calculer une similarité graphique pixel par pixel ???

De plus, tous les sites construits sur des kits graphiques identiques seraient similaires... Or, ce n'est pas le cas !

Concerant le RECIM: Tu peux vérifier si on peut considérer ça comme du plagiat, en utilisant www.copyscape.com ...

@+

HawkEye · 11 Octobre 2005

dixenet a dit:
Comment vous expliquer : google indexe en effet du contenu. mais en fait lui resoit du html et de ce html il sort le contenu pour qu'une page soit considere comme diuplicate, il faut simplement que le HTML soit identique pas le contenu. si le HTML est identique forcement que le contenu l'est aussi. vous voyez ?

... dans ce cas, je te fais une copie conforme d'un site en utilisant un code html totalement différent (mise en page CSS par exemple), et je ne suis pas similaire ?

dixenet · 11 Octobre 2005

Bien sur que si. Le fait d'avoir le meme contenu sur une page n'est pas suffisant. il faut une grande majorité de page identique sur un meme site. tu vois ce que je veut dire ?

HawkEye · 11 Octobre 2005

Non, dixenet, le fait d'avoir un contenu textuel très similaire rendra tes pages similaires.

Le fait d'avoir deux pages à contenu textuel identique, mais contenu graphique différent rendra tes pages similaires.

Le fait d'avoir deux pages sensiblement différentes, au layout graphique parfaitement identique, ne rendra pas tes pages similaires.

C'est pur texte. GoogleBot n'interprète pas le contenu graphique.

dixenet · 11 Octobre 2005

tu ne m'as pas compris.

Je voulais dire que pour que ton site soit sanctionné. il ne faut pas que tu es juste une page identique mais plusieurs dans ton site ? tu vois ?

spidetra · 11 Octobre 2005

HawkEye_TpfH +6 - D'accord a 300%.

spidetra · 11 Octobre 2005

Voici mes expériences en terme de Duplicate Content :

Ce dont je suis a peu près sur :
Nom de domaine ancien : > 5 ans.

1. Ce n'est pas un site en entier qui est sanctionné, mais des pages individuelles.

2. En cas de tres fort duplicate content :
Quelques milliers de pages web strictement identique.
Chaque page web sous une quinzaine d'urls différentes. Google garde 2 à 3 copies max / pages web. Toutes les autres urls ne sont pas indexées.

3. Duplicate content fort :
Tjrs pareils quelques milliers de pages web. Chaque page web n'est présente que sous 3 ou 4 urls différentes.
La sanction de Google est moins évidente ( attention : je n'ai pas dit inexistente ).

Ce qui est du domaine de l'hypothétique :
- Sanction relativement forte en cas de duplicate content pour les nouveaux sites ( < 1 an ). J'ai l'impression qu'avec un taux de similarité faible ( autour de 50%), les nouveaux sites subissent l'effet du duplicate content.
Ce n'est qu'une hypothése.
D'autres facteurs peuvent expliquer la mauvaise indexation du site :
- PR faible
- Pb technique sur le site
- etc...