Similitude >90% entre plusieurs milliers de pages

Kijer · 27 Novembre 2007

Bonjour,

J'aurai besoin de votre expérience pour savoir ce que vous feriez pour éliminer ce duplicate content.

Disons pour résumer que j'ai 750 metiers presentés en tableau qui s'affichent sur autant de villes qu'il y a en france. seul hic ce tableau represente un % majeur sur ses pages, etant toutes dynamiques, je n'ai pas de textes supplementaires a poser sur chacune d'elle pour recuperer le probleme.

On m'a parlé d'une astuce qui consisterai a utiliser une iframe sur ce tableau afin que Google ne le lise pas en allant sur la page, et donc recupère ce pb de duplicate.

Info ? Intox ?

Je suis pas vraiment un adepte des frames, donc si vous connaissez des astuces plus efficaces ou plus respectables des standarts je prends,

Merci

Cendrillon · 27 Novembre 2007

Kijer a dit:
Info ? Intox ?

Info ! Lorsque la partie statique de la page est très importante par rapport à la partie dynamique, tu n'as pas d'autre choix que d'en soustraire une partie au moteur. Pour cela tu as plusieurs possiblité : en mettre une partie sous forme d'image, en déporter une partie dans un iframe, voire même faire écrire une partie de ce texte static en javascript. Toutefois il faut veiller à ce qu'il en reste suffisament sur la page pour qu'elle ne soit pas tout simplement ignorée par les moteurs.

l'idéal pour que les pages ne soient pas considérées comme duplicate content, il faut être en dessous de 70 voire 60% de similarité. Tu es à 90 c'est au minimum 20% de trop !

Leonick · 27 Novembre 2007

la solution est de na pas laisser indexer des pages sans contenu spécifique. Sinon, ça s'appelle du spamindex, et c'est ce que google est en train de nettoyer ces temps-ci

Kijer · 27 Novembre 2007

Ok, j'ecoute vos avis pour le moment avant de choisir une solution parmis vos réponses, par contre si je bascule ses pages en no index dans le meta de ses pages, google n'indexera pas la page mais suivra tout de meme les liens ?

ybet · 27 Novembre 2007

Leonick a dit:
la solution est de na pas laisser indexer des pages sans contenu spécifique. Sinon, ça s'appelle du spamindex, et c'est ce que google est en train de nettoyer ces temps-ci

Effectivement ....

L'autre solution est de rajouter un champ dans ta base de donnée où tu insère un texte spécifique pour chaque page.

Et oui, c'est beau le PHP couplé à une base de donnée. On crée en quelques minutes des centaines de pages, puis on songe à les remplir après .... et on se retrouve avec des centaines de pages ... vides.

HawkEye · 27 Novembre 2007

Kijer a dit:
Ok, j'ecoute vos avis pour le moment avant de choisir une solution parmis vos réponses, par contre si je bascule ses pages en no index dans le meta de ses pages, google n'indexera pas la page mais suivra tout de meme les liens ?

Code:

<meta name="robots" content="noindex,follow" />

Kijer · 27 Novembre 2007

Nickel, bon je vais mettre cette balise sur mes bases de transition !

Que vont devenir les milliers déjà indexés ?

ybet · 27 Novembre 2007

HawkEye a dit:
Code:

<meta name="robots" content="noindex,follow" />

Je jouerais pas trop à ça ..... Si GG considère que ces pages sont uniquement faites pour faire des liens ..... Ca va revenir strictement au même.

Code:

<meta name="robots" content="noindex,nofollow" />

Kijer · 27 Novembre 2007

Ouai mais non .. en finalité j'ai mes fiches clients, c'est juste la structure pour y arriver qui passe par des pages quasi similaires (nom de ville en difference)

Leonick · 27 Novembre 2007

J'ai un peu de mal à comprendre : en fait, ton site a quelques milliers (ou dizaines de milliers) de pages qui correspondent à une ville et une profession ? et là dedans, tu as quelques fiches de remplies et qui correspondent à tes clients. C'est ça ?

Kijer · 28 Novembre 2007

Le but n'etait pas de donner le lien, mais tu comprendra mieux en y alant directement !

ICI

UsagiYojimbo · 28 Novembre 2007

Kijer a dit:
Le but n'etait pas de donner le lien, mais tu comprendra mieux en y alant directement !

ICI

Tu peux aussi modifier un peu tout ça et augmenter les données affichées sur les pages des tableaux :

- détail sur les villes (nombre d'habitant, adresse de la mairie, etc.)
- détail sur les professions

Leonick · 28 Novembre 2007

c'était donc bien ce que je pensais

Leonick a dit:
la solution est de na pas laisser indexer des pages sans contenu spécifique. Sinon, ça s'appelle du spamindex, et c'est ce que google est en train de nettoyer ces temps-ci

115 000 pages avec la commande site: de google.
J'avais déjà dit ce que je pensais de cet "annuaire". Parce que créer des centaines de milliers de pages en prenant un dictionnaire des villes en France et une nomenclature des métiers, ça n'est pas dur.
Ensuite, 2 millions d'entreprises, ça veut dire récupération des données depuis un CD (bottin, pages jaunes, ??), mais avez-vous le droit, dans le contrat d'achat des coordonnées, de réutiliser ces données pour les mettre en ligne sur internet ?
En plus, la catégorie "extraction d'uranium", c'est sûr qu'on va trouver beaucoup d'entreprises de ce genre en France

En clair, si les pages sans contenu ne sont pas enlevée rapidement de google, il y a de forts risques que les 110 000 pages donnent la même chose que ça https://www.google.fr/search?q=site%3Abonweb.com& :evil:

Kijer · 28 Novembre 2007

Les pages en duplicate sont soit complétés par des infos uniques a chaque page, soit mis en noindex,follow.

@Leonick : Tu es dur de me comparer a un vulgaire annuaire, si j'avais eu d'autres solutions de structures de pages, je l'aurai adopté, pas evident de faire aller google sur toutes les fiches sans decomposer en palier.