probléme de pages similaires

WRInaute discret
Je ne pense pas. D'abord parce que les designs et donc le code HTML qui le mets en page est different.

Ce n'est pas une copie complete de votre site.

Sur internet, bon nombre de site on les memes contenus, mais la mise en page differe. Et c'est la dessus que google se base.

Il ne faut pas confondre contenu proche et contenu identique
 
WRInaute impliqué
bigguiz a dit:
Mais bon deja le site de free est quand même pouri et j'ai peur que quand je vais mettre les pages a jour, j'ai un probléme de pages similaires.

Il y'a un dicton qui dit qu'il faut regarder la poutre qu'on a dans l'oeil avant de parler de la paille dans l'oeil de son prochain... Tu connais? :roll:
 
Nouveau WRInaute
Loin de moi l'idée de critiquer le travail de qui que ce soit :oops:
D'ailleurs son site est mieux référencé que le site "officiel" :D

Je ne sais pas qui a été le premier a faire un site, car je reprends tout juste le dossier.

La personne qui a fait ce site était surement pleine de bonnes intentions mais je me demande si sont initiative précipitée ne va pas s'avérer préjudiciable pour les citoyens du monde :roll:

Ce qui est domage c'est que la personne ne réponde plus.
 
WRInaute impliqué
Bonjour;
ne t'inquiète pas trop, si la mise en page et differente le risque de page similaires et mince.

Sinon t'a essayer de contacter free ?

@+
 
WRInaute passionné
amazigh25 a dit:
Bonjour;
ne t'inquiète pas trop, si la mise en page et differente le risque de page similaires et mince.

Sinon t'a essayer de contacter free ?

@+


c le 2° post qui parle de mise en page ?
Google index du contenu pas de la mise en forme, non ?
Je suis surpris par ces affirmations, vous avez des sources ?
 
Nouveau WRInaute
ok merci, :D vu que je sais pas trop comment marche les pages similaires j'ai préféré poser la question.

Oui j'ai essayé de contacter free, ça serait bien de créer un lien entre les deux sites par exemple.

Mais free ne veut pas me donner ses coordonnées a cause de la CNIL sans doute.

Je leur ai demandé de transmettre un message, mais je sais pas si ca va marcher.
 
WRInaute passionné
amazigh25 a dit:
Bonjour;
ne t'inquiète pas trop, si la mise en page et differente le risque de page similaires et mince.

D'un point de vue simpliste c'est quoi un index :

- un identifiant unique pour chacune des urls crawlées. Par exemple, peut être une clé MD5, ou tout autres ago : ID = MD5(url) ;

- Un vecteur et/ou une matrice représentant le contenu de la page.
Dans cette matrice :
- la liste des mots de l'url, et pour chacun des mots la liste des positions, des pondérations diverses, etc....

je suppose que l'index rajoute : des checksum, des vecteurs de backlinks, etc....

un calcul de similarité pourrait se faire au niveau de la matrice mots/positions. J'suis pas assez calé en calcul matriciel, mais je suppose qu'il doit être possible d'extraire des parties de matrices identiques.
Je ne dit pas que c'est comme ça que cela fonctionne ( c'est juste une hupothèse )

aucun intérêt pour Google de prendre en compte la mise en page des sites web. Donc je suis assez surpris par ces affirmations.
 
Nouveau WRInaute
Ce que je voudrais savoir c'est si Google ne cherche que les pages exactement identiques on si il prend aussi celles qui ressemblement
 
WRInaute discret
Comment vous expliquer : google indexe en effet du contenu. mais en fait lui resoit du html et de ce html il sort le contenu pour qu'une page soit considere comme diuplicate, il faut simplement que le HTML soit identique pas le contenu. si le HTML est identique forcement que le contenu l'est aussi. vous voyez ?
 
WRInaute passionné
bigguiz a dit:
Ce que je voudrais savoir c'est si Google ne cherche que les pages exactement identiques on si il prend aussi celles qui ressemblement

a mon humble avis, Google recherche de la similarité.
Toute la difficulté est de savoir à quel niveau Google place la barre.
 
WRInaute passionné
dixenet a dit:
Comment vous expliquer : google indexe en effet du contenu. mais en fait lui resoit du html et de ce html il sort le contenu pour qu'une page soit considere comme diuplicate, il faut simplement que le HTML soit identique pas le contenu. si le HTML est identique forcement que le contenu l'est aussi. vous voyez ?

Comment t'expliquer : j'ai developper en moins d'une semaine, et avec quelques centaines de lignes Perl un programme qui va rechercher du contenu similaire ( duplicate content ) sur Internet.

Mon algo est simpliste, pas optimisé, mais je suis capable d'aller chercher deux contenus identiques ( ou fortement identique, je choisis le % de similarité que je désire ) dans deux sous-arbre html totalement différent.

Je part du postulat, a priori, que les ingénieurs de Google, soutenu par des milliards de dollars, sont, peut-être, meilleur que moi.

Si je suis capable de retrouver deux contenus similaire, dans deux pages HTML totalement différentes, tu ne penses pas que Google est est, peut-être, aussi capable.
Sinon, je suis prêt à leur vendre mes 100 lignes de perl :D

Oui, je récupére du HTML, et alors ? Quel est le rapport avec la mise en page.
J'ai peut-être tord, mais si google tient compte de la mise en page dans la recherche du duplicate content : quelles sont tes sources ?
Cela m'intéresse, et je suis prêt à me remettre en cause.
 
WRInaute discret
Oui je suis d'accord avec toi mais pour que la sanction duplicate soit mise en place il faut plus qu'un simple contenu sismilaire sinon bon nombre de site serais en duplicate.

Exemple: les sites qui propose des Marques Blanche pour des Informations.
 
WRInaute accro
bigguiz a dit:
Ce que je voudrais savoir c'est si Google ne cherche que les pages exactement identiques on si il prend aussi celles qui ressemblement

Google n'a rien à f* du design des pages...

Ce qu'il interprète est une similarité du contenu textuel (certains l'évaluent à 80% de similarité).

Si google comparait le design des sites, je comprendrais pourquoi il met tant de temps à crawler... T'imagines le temps machine nécessaire à calculer une similarité graphique pixel par pixel ???

De plus, tous les sites construits sur des kits graphiques identiques seraient similaires... Or, ce n'est pas le cas !

Concerant le RECIM: Tu peux vérifier si on peut considérer ça comme du plagiat, en utilisant www.copyscape.com ...

@+
 
WRInaute accro
dixenet a dit:
Comment vous expliquer : google indexe en effet du contenu. mais en fait lui resoit du html et de ce html il sort le contenu pour qu'une page soit considere comme diuplicate, il faut simplement que le HTML soit identique pas le contenu. si le HTML est identique forcement que le contenu l'est aussi. vous voyez ?

... dans ce cas, je te fais une copie conforme d'un site en utilisant un code html totalement différent (mise en page CSS par exemple), et je ne suis pas similaire ?
 
WRInaute discret
Bien sur que si. Le fait d'avoir le meme contenu sur une page n'est pas suffisant. il faut une grande majorité de page identique sur un meme site. tu vois ce que je veut dire ?
 
WRInaute accro
Non, dixenet, le fait d'avoir un contenu textuel très similaire rendra tes pages similaires.

Le fait d'avoir deux pages à contenu textuel identique, mais contenu graphique différent rendra tes pages similaires.

Le fait d'avoir deux pages sensiblement différentes, au layout graphique parfaitement identique, ne rendra pas tes pages similaires.

C'est pur texte. GoogleBot n'interprète pas le contenu graphique.
 
WRInaute discret
tu ne m'as pas compris.

Je voulais dire que pour que ton site soit sanctionné. il ne faut pas que tu es juste une page identique mais plusieurs dans ton site ? tu vois ?
 
WRInaute passionné
Voici mes expériences en terme de Duplicate Content :

Ce dont je suis a peu près sur :
Nom de domaine ancien : > 5 ans.

1. Ce n'est pas un site en entier qui est sanctionné, mais des pages individuelles.

2. En cas de tres fort duplicate content :
Quelques milliers de pages web strictement identique.
Chaque page web sous une quinzaine d'urls différentes. Google garde 2 à 3 copies max / pages web. Toutes les autres urls ne sont pas indexées.

3. Duplicate content fort :
Tjrs pareils quelques milliers de pages web. Chaque page web n'est présente que sous 3 ou 4 urls différentes.
La sanction de Google est moins évidente ( attention : je n'ai pas dit inexistente ).

Ce qui est du domaine de l'hypothétique :
- Sanction relativement forte en cas de duplicate content pour les nouveaux sites ( < 1 an ). J'ai l'impression qu'avec un taux de similarité faible ( autour de 50%), les nouveaux sites subissent l'effet du duplicate content.
Ce n'est qu'une hypothése.
D'autres facteurs peuvent expliquer la mauvaise indexation du site :
- PR faible
- Pb technique sur le site
- etc...
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut