Desindexation de pages dynamiques

WRInaute impliqué
salut les gars :wink:
dites moi ce que vous pensez de ce phénomène :

depuis quelques jours, google désindexe beaucoup de pages dynamiques non rewritées (la plupart sur des forums) et il passe les pages en pages similaires (donc plus de titre, ni description, donc plus de chances de sortir dans les résultats).

j'ai pris au hasard des dizaines de forums sans rewriting et les pages sont désindexées jour après jour !!!

hypothèse :
1) google aurait il augmenté son filtre de similarité ? donc les pages dynamiques seraient touchées de plein fouet ?
3) si vous pensez que google a décidé de ne plus indexer ces millions de pages dynamiques, pensez vous qu'il va s'attaquer au rewriting ?


merci de vos commentaires
caro
éditer pour faire plus court, sinon personne lit et ca répond à coté de la plaque :wink:
 
WRInaute impliqué
J'ai remarqué le même phénomène sur mon site depuis quelques jours.

Le nombre de pages référencés par GG a fondu de 20% environ.

Toutes les pages ayant des variables et correspondant à des adresses rewritées ont été supprimées.
 
WRInaute occasionnel
google n'a aucune raison de virer les pages dynamiques, des tas de pages trés intéressantes pur les internatues et donc pour la pertinence sont en dynamique, et qu'il fasse une différence ente une url html et une url dynamique m'a toujours stupéfait étant donné l'existence de l'url rewriting.
Je pense plutôt que google s'attaque d'abord aux pages dynamiques à contenus similaires, les supprime de l'index et une fois l'expérience terminé, il va faire pareil avec les pages html, y a pas de raison...
 
WRInaute impliqué
sietjp a dit:
google n'a aucune raison de virer les pages dynamiques
cependant les faits sont là,
vérifie par toi même sietjp, des centaines de sites sont en train de perdre leurs pages dynamiques (toutes ces pages n'apparaissent plus qu'en pages similaires).

e-kiwi, on ne parle pas des pages rewritées mais des pages avec variables dans url qui disparaissent.

mais revenons aux questions et non aux faits :
- les faits : les pages avec variables disparaissent (prenez n'importe quel site et vérifiez au fil des jours, c'est supéfiant !)
- les questions :
pourquoi google enlèverait-il ces pages si intéressantes ?
google va t'il chercher à trouver les techniques de rewriting par la suite ?
 
WRInaute impliqué
sietjp a fait une remarque super intéressante :
"google supprimerait les pages similaires"

mais dans les forums google considère 95% des pages comme des pages similaires à l'heure actuelle !!!
c'est pour ca que les pages des forums disparaissent, il est vrai que dans un forum les proportions de similitude à l'intérieur de la page sont grandes.
 
WRInaute accro
tout dépend des criteres pris en compte pour déterminer le degré de "similitude" des pages....

Il n´y a jamais eu de réponses ou déxpérience claire à ce sujet d´ailleur.
 
WRInaute discret
pages similaires

caro a dit:
mais dans les forums google considère 95% des pages comme des pages similaires à l'heure actuelle !!!.

il n'y a rien qui puisse le laisser supposer... Si le forum comprend des "vrais messages" et non pas de simples Onomatopées, il n'y a pas de risques (à mon avis) que GG considère les pages comme des pages similaires (et des millions de forum sont très très bien indexés : cf entre autre webrankinfo...)

C H R I S
 
WRInaute impliqué
Merci de participer aux discussions mais d'abord merci de lire le sujet du post !!!!
ces derniers temps sur le forum on répond très vite sans trop lire le sujet de la discussion non ? vous trouvez pas ? :lol:

ca part dans tous les sens :
"haderach" parle d'une désindexation de pages rewritées > aucun rapport
"e-kiwi" dit qu'il a perdu aucune page rewritée > aucun rapport
"cfages" dit qu'il y a des forums bien indexés comme wri (forum rewrité) > donc aucun rapport

:!: on parle dans cette discussion de la désindexation des pages forums sans rewriting :!:

des centaines de forums qui ne fonctionnent pas avec le rewriting sont en train d'être désindexés, la discussion porte sur ce fait et sur les raisons et les conséquences.

voilà mon coup de gueule :lol:
 
WRInaute impliqué
bien joué Kmacleod mais ce site n'a que 100 pages indexées et de plus il n'a que 5 ou 6 pages avec 2 variables, le reste en rewriting !

un autre candidat :lol:

faites au hasard
site:www.site.com
sur un forum et vous constaterez l'empleur des dégats.
 
WRInaute accro
euh ... l''UR n'existe pas en ASP (en tout cas pas en natif) ... tous les sites dynamiques ASP devraient donc disparaître ?
 
B
Bernard
Guest
Rien a voir avec rewrité ou pas.

J'ai un blog de 20 pages chez blogspot qui a éte complètement desindexé et qui est pur HTML.

Le pb est ailleur et n'est pas visible que sur les forum.
 
WRInaute impliqué
Bernard a raison, au plus je parcours le forum au plus je vois des membres avec des problèmes similaires meme hors des forums.
Bernard, les pages de ton blog sont elles très similaires au niveau du contenu ?

peut être que google a accentué ses filtres de similarité et donc beaucoup de pages à contenu similaires seraient désindexées ?
ce serait assez terrible pour les pages dynamiques mais les pages rewritées semblent n'être que peu touchées.
 
WRInaute discret
l'url suivante est considéré par google comme page similaire quand je tape site:www.waouh.org.
-http://www.waouh.org/waouh_profil261-1.php
Pourtant, ce profil est plutot bien remplis, et possede quelques commentaires.
donc le pourcentage de mots identiques par raport aux autres profils est plutot bas.

mais vu que je permet a google d'indexer toutes mes pages, il indexe egalement
-http://www.waouh.org/waouh_profil261-2.php
-http://www.waouh.org/waouh_profil261-3.php
etc ...

Et dans ce cas, la page -http://www.waouh.org/waouh_profil261-1.php est identique a celle de -http://www.waouh.org/waouh_profil261-2.php mis a part la photo.

C'est surement pour ca que google desindexe mes profils en disant qu'ils sont similaires.
Ils ne le sont pas forcement par raport aux profils des autres membres mais vu que j'ai plusieurs pages par profils ca bloque.

Non ??

Par contre, siur cette requette, https://www.google.fr/search?num=100&hl= ... cher&meta=
meme si le profil du dessus etait sans description, la, il remet la description qui va bien avec le profil.
 
Nouveau WRInaute
Rien à voir effectivement avec les forums me semble t'il mais simplement avec des pages se ressemblant, ce qui se retrouve surtout sur les forums. L'url rewriting n'aide pas tant que ca d'ailleurs si le contenu est effectivement similaire.
Les annonces sur mon site utilisent un même template et ont effectivement peu de contenu different : seul la description de l'annonce change. Resultats, plein ( enfin tout est relatif...) de pages desindexees qui l'etaient pourtant avant sans problème.

https://www.google.fr/search?num=100&hl= ... com+&meta=

A part faire une description fleuve, je ne vois pas trop comment résoudre ce problème.
J'ai essayé une dose d'url rewriting plus forte ( d'ou le pb %20...) sans succés pour l'instant.
La conclusion que le filtre de similarité soit plus fort me semble juste.
Dommage en effet , car cela prive tout de même de contenu interessant l'index de google: Les annonces de mon site surtout mais aussi certains posts de forum. ;-)
 
WRInaute impliqué
bon si on en tire les premières conclusions on pourrait dire que cette désindexation ne frappe pas que les forums mais toutes les pages dynamiques (un peu moins quand elles sont rewritées peut etre).

on pourrait alors commencer à étudier le filtre de similarité et ses critères,
le premier qui voit un truc en comparant les pages qui disparaissent et les pages qui restent sera le bienvenue !
 
WRInaute impliqué
Je ne connais pas non plus les critères de similituide de Google mais j'ai remarqué que j'ai un jour sur deux (en gros...) certaines pages qui apparaissent en pages similaires. Elles reviennent apres avec leur description habituelle, et la plupart de ces pages n'ont aucune raison apparente d'être considérées comme "pages similaires. Ca n'apporte pas grand chose, mais peut être que Google est en effet en train de bosser sur de nouveaux critères et que certaines pages sont considérées à tort comme similaires.
 
WRInaute impliqué
Cendrillon a dit:
euh ... l''UR n'existe pas en ASP (en tout cas pas en natif) ... tous les sites dynamiques ASP devraient donc disparaître ?
Euh je vois pas trop le rapport :?: L'url rewriting n'est pas faite via PHP, d'ailleurs tu peux parfaitement faire de l'url rewriting sur de l'html (même si ça sert à rien) !

Sinon pour revenir au sujet : modifiez vos scripts afin que chaque page ait une meta desc différente en rapport avec le contenu de la page, je suis sûr que ça joue (oui je sais, ça fait 3 fois que je dis la même chose dans 3 topics différents :p).
 
WRInaute accro
Euh je vois pas trop le rapport L'url rewriting n'est pas faite via PHP, d'ailleurs tu peux parfaitement faire de l'url rewriting sur de l'html (même si ça sert à rien) !
euh ... ben l'ASP tourne sur des serveurs IIS (sous windows NT/2003) et sous IIS ... pas d'url rewriting ... :wink:

donc (bis repetitas) : l''UR n'existe pas en ASP (en tout cas pas en natif) ... tous les sites dynamiques ASP devraient donc disparaître ?
 
WRInaute impliqué
Google n'a pas de raison liée au référencement de désindexer les pages dynamiques ... Mais niveau technique ca doit bouffer un nombre incalculable d'espace disque alors je ne sais que penser sur ces désindexations de forums massives.
 
WRInaute impliqué
L'URL rewriting existe sous IIS, il faut juste installer un filtre Isapi. De plus il existe d'autres manières de simuler du rewriting sans filtres isapi.
 
WRInaute accro
rituel a dit:
L'URL rewriting existe sous IIS, il faut juste installer un filtre Isapi.
oui avec ISAPI_rewrite (freeware a installer sur le serveur) ... c'est pour cela que j'ai pris la précaution d'indquer : "en tout cas pas en natif" ...

rituel a dit:
De plus il existe d'autres manières de simuler du rewriting sans filtres isapi.
absolument, c'est très simple à faire, et c'est la solution que je retiens généralement ... :wink:
 
WRInaute impliqué
je suis d'accord que google a aucun intéret à désindexer toutes ces pages dynamiques, d'ailleurs perso quand je cherche quelque chose c'est souvent sur un forum que je trouve ma réponse.

peut etre que google va se rendre compte que le filtre est trop fort ?
 
Nouveau WRInaute
Je confirme, sur base de sites dynamique que j'ai créé, aucuns n'est desindexé sur base de ca. D'ailleur google dit bien dans ses FAQs que le bot est capable de suivre les liens dynamique et donc de par cet effet, indexer des pages dynamiques.
 
WRInaute accro
caro a dit:
je suis d'accord que google a aucun intéret à désindexer toutes ces pages dynamiques, d'ailleurs perso quand je cherche quelque chose c'est souvent sur un forum que je trouve ma réponse.

peut etre que google va se rendre compte que le filtre est trop fort ?
caro je pense vraiment que cela n'a rien à voir avec les pages dynamiques et l'UR ... :wink:

a mon avis, cela vient du fait que dans beaucoup de forums, les échanges sont très cours, de ce fait la structure statique de la page (présentations, liens, etc ...) est très importante par rapport au contenu dynamique ... du coup les pages sont très semblables et donc pénalisées ... :wink:

peut être qu'une solution serait d'augmenter le nombre de posts par page (pour augmenter le ratio dynamique/statique) ?
 
WRInaute accro
caro a dit:
bon si on en tire les premières conclusions on pourrait dire que cette désindexation ne frappe pas que les forums mais toutes les pages dynamiques (un peu moins quand elles sont rewritées peut etre).

on pourrait alors commencer à étudier le filtre de similarité et ses critères,
le premier qui voit un truc en comparant les pages qui disparaissent et les pages qui restent sera le bienvenue !

salut,

j´ai remarqué que google pouvait estimer deux pages similaires si :

- la balise title est identique
- la balise description est identique
- le début de page est identique

je n ai pas plus de précision à vous offrir pour l instant...

a+
Hervé
 
WRInaute impliqué
je suis d'accord avec vous Cendrillon et Hervé,
tout vient du filtre de similarité.
le fait que cela touche les pages dynamiques n'est qu'une conséquence, en effet ces pages sont souvent fortement ressemblantes lors des faibles posts.

je vais essayer de les différencier au maxi pour voir lesquelles reviennent.
en tout cas merci de vos remarques et conseils.
 
WRInaute impliqué
Dans le doute j'ai regardé.
J'ai perdu en gros 15/20% de mes pages indexées de mes forums et celles qui restent n'ont plus de titre/description. Jusque là pas d'explications particulières, je n'ai rien changé depuis 1 mois (mise à jour du script mais rien de méchant).

Mon site usant de l'URL Rewriting n'a rien de spécial, quelques pages (qui se comptent sur les doigts d'une main) n'ont pas de description mais je les soupçonne d'être en réindexation ... par rapport au lot quotidien rien d'anormal là.

Je serai d'avis d'attendre et de voir la suite avant de donner un avis là dessus. Par contre même si d'autres sites peuvent être touchés j'ai l'impression que seuls les forums trinquent (non rewrités on est d'accord).
 
K
knarf paris
Guest
Bonjour à tous ..

Je poste mon premier message.. ;-)

Pour l'instant je n'avais jamais eu besoin, mais l’heure est grave ;-(

Je me présente Franck, dirigeant d'une petite entreprise de création de site et référencement en région parisienne,
Normalement saint de corps de d’esprit (amen ;-) Mais depuis 1 mois je n’y comprends plus rien.. malgré ma petite expérience en référencement (5 ans).

Je suis d’accord avec caro..

Certains sites de nos clients sont devenus similaires du jour au lendemain pourtant sans changements sur les sites.

Mais le pire c’est que même certains sites en htlm ont le même problème , toujours sans changements, certains étaient référencés depuis 2 ans, et même bien positionnés.

J’ai constaté dans d’autres topic sur ce forum que d’autres personnes ont le même problème, sans savoir que ça vient de ça.

Exemples ci dessous :

https://www.google.fr/search?q=+site:gol ... l&filter=0

https://www.google.fr/search?q=+site:vin ... l&filter=0

Le site d’une personne qui à crée le topic « Desindexation massive et perte de position »
https://www.google.fr/search?q=+site:sam ... rt=20&sa=N

Et j’ai pleins d’autres exemples…


Je pense que google est devenu beaucoup plus dur depuis 1 ou 2 mois ; et qu’il a augmenté son filtre de similarité…

Autre supposition, j’ai l’impression que si google trouve plus de 50 % ou peut être moins de pages du site similaires il considère tout le site en similaire… !!

Donc perte du positionnement… !!! Et même si le positionnement persiste peu de monde clique sur une url seule.. sans title.. ;-(, puis étape suivante mais c’est peut être un coïncidence, il désindexe toutes les pages du site…

J’ai 2 mois de recul et pour l’instant je n’ai pas trouvé vraiment de solutions… Help !!

Au plaisir
franck
 
WRInaute accro
Ba la solution serait donc, de bien différencier chaque page d'un site, et bonjour le boulot sur les forums.


Interdire les signatures
Augmenter le nombre de post
ne pas ajouter trop de champs de descriptions sous les avatars.
Virer tous les elements inutiles et repetés sur toutes les pages.
 
WRInaute discret
Je dis peut être une abération, mais n'est il pas envisageable que google attribue une pertinence moins élevée aux url contenant le mot "forum" ?
 
WRInaute accro
J'y pensai justement, je me demandai si il fallait pas changer les forums de repertoire ne plus les mettre dans forum ou phpbb etc...
 
WRInaute discret
Certaines contributions aux forums sont néanmoins très pertinentes dans les résultats de recherche (forums qui ne semblent pas en souffrir) , c'est pourquoi je pense que cette supposition ne tient qu'à moitié la route :oops:
 
WRInaute accro
Ba moi j'ai plusieurs pages de mon forum qui sortent en premier sur mes requetes principales, mais bon je suis un peu hors sujet car UR.
 
WRInaute impliqué
en tout cas j'ai eu pas mal de crawl ces derniers jours et je constate que toutes les pages rewritées sont ok alors que toutes les pages avec variables sont toutes passées en pages similaires, le rewriting semble quand meme etre un super frein au filtre de similarité.
 
WRInaute occasionnel
désindexation

knarf paris a dit:
Je pense que google est devenu beaucoup plus dur depuis 1 ou 2 mois ; et qu’il a augmenté son filtre de similarité…

Oui j'ai le même problème sur un site, je précise qu'il ne s'agit pas d'un forum ni même de pages dynamiques. C'est du pur html... Les pages en question sont pourtant loin de se ressembler. Je ne vois vraiment pas.... J'ai l'impression que ça bogue dur dur en ce moment.
 
WRInaute discret
Je viens confirmer tout ça aussi, grosse grosse chute de visiteurs depuis 3 semaines ( environ 30,40% ). mon site est essentiellement basé sur un forum Non rewrite !!
 
Nouveau WRInaute
Bon ben moi mon site est maintenant pratiquement à 100% desindexé :x meme s'il se place encore pas si mal.
Il est clair qu'il s'agit soit d'un filtre , soit d'une penalité.
Je viens de retrouver dans 2 de mes pages un layer hidden... :x
Et ces 2 pages n'apparaissaient pas du tout dans l'index.
Peut etre ca apres tout ?
Je viens de fixer cela et en meme temps mon rewriting avec les espaces. J'ai aussi mis le texte similaire plutot en fin de page.
Je croise les doigts...
 
WRInaute passionné
Ben moi pareil, cumul de pages similaires lorsque je fais site:ndd.tld

50% de visites en mois, la loose totale :-(
 
Nouveau WRInaute
kernings, j'ai regardé en détail la page d'accueil de ton site, et la seule chose qui m'a frappé, c'est que tu as un lien vers un site suspect: foxforum.net, qui semble blacklisté par google, et qui n'est pas testable par le validateur de liens w3c (http://validator.w3.org/checklink. Je ne sais pas si c'est cela qui pose problème, mais regarde peut-être ce lien de plus près...
 
WRInaute accro
Guy Hoquet Yerres a dit:
Bon ben moi mon site est maintenant pratiquement à 100% desindexé :x meme s'il se place encore pas si mal.

J´aime bien ca. Désindéxé a pratiquement 100% et bien placé ! Que demande le peuple !! :) :)
 
Nouveau WRInaute
he he, :lol: Bon j'ai fait les comptes, je suis à 63% desindexé. Je ne suis pas de Marseille pourtant :) .
Bien sur ce sont les pages qui restent indexees qui se placent bien.
Il y a neanmoins une exception. La page principale qui n'est plus indexee ressort neanmoins dans certains resultats. Apres quelques tests , les backlinks semblent etre pris en compte.
Cela expliquerait pourquoi une page "desindexee" ( url visible seulement ) peut tout de meme continuer à apparaitre dans les resultats.
Par exemple:
https://www.google.com/search?sourceid=m ... nce+yerres
 
WRInaute accro
Une page qui n est plus indexée ne peut, par définition, pas ressortir sur une requete. Il ne faut pas confondre desindexée et "mal indexée" (pas de titre, pas de desc, etc. par exmple). et il ne faut pas confondre "mal indexée" et "mal positionnée". Alors on recapitulel :

- combien de pages ne sont plus indexées (ca veut dire non présentes avec la commande site:)
- combien de pages mal indexées (genre les pages que l on trouve en faisant pages similaires ou qui n ont plus que l´URL d´indiquée).
- combien de page mal positionnées : ca veut dire les pages qui ressortaient bien auparavent sur certaines requetes et qui sont repoussées dans le classent.
 
Nouveau WRInaute
Precisions exactes: Il faut remplacer desindexees par "mal indexées" alors.
Rapidement pour mon site:
- 2 pages completement desindexees probablement a cause d'un div hidden recopié d'un template...
- environ 30 pages mal indexées qui ne sortent plus du tout alors que tres bien positionnees avant..
- reste 20 pages indexées qui resortent correctement dans les resultats

Les pages mal indexees sont des annonces donc le template est le meme. Il y a en effet peu de contenu, la description etant sommaire. J'ai neanmoins passé en fin de page le contenu similaire suite a ta remarque. Je verrais ce que ca donne.
Sans resultat positif, la prochaine etape sera un iframe contenant le texte du template. Ca pourrait etre une solution pour les pages ecartees par le filtre , non ? Le ratio texte du template/ contenu unique devrait etre meilleur logiquement.
 
WRInaute discret
Je rencontre aussi ce probleme de mal indexation de mes pages.
Maintenant, ces pages mal indexées sont totalement desindexées ( depuis ce soir).

Est-ce le meme cas pour vous ?
 
WRInaute discret
salut tito !!!

en fait je ne pense pas que la baisse de frequentation soit dû à ça !! la majortité de mes visites s'effectue sur ce domaine http://www.forum.moteurprog.com/ ou le site foxforum n'apparait pas et c'est aussi celui qui à été le plus déreferencé, alors que www.moteurprog.com quand à lui reste stable !!

Je me suis renseigner sur l'URL rewriting mais Nexen ( mon hebergeur ) ne le prend pas un compte, pour un service payant c'est quand même dommage ... surtout quand on voit l'utilité que ça as pour le référencement
 
WRInaute discret
hgfds

Je prends le train en cours de route :D Moi il me reste une page ; celle de mon forum qui ressorte nickel avec la commande site: . Les autres sont mal indexées, je suis obligée de lancer les pages ignorées ! :( Le fait est que je ne comprends pas pourquoi google a choisi ma page forum comme étant la page la plus représentative de mon site ... :?: En plus, avant cette Google Dance, j'avais mes 5 pages correctement indexées ...Si vous avez une explication, je suis toute ouïe ... :)
 
WRInaute discret
J'ai fait une petite recherche quant à la mauvaise indexation grandissante de mes pages.
J'ai comparé 2 sites utilisant le même squelette spip, le même hébergeur (ovh mut) et le même urlrw.

Les 2 sites sont -www.zetudiants.net et -www.footmercato.net

footmercato : 560 pages trouvées sur google et 55 bien indexées (avec description)
zetudiants : 567 pages trouvées sur google et 383 bien indexées; ce site a un forum phpbb et une grande partie des pages mal indexées sont celles du forum

Je ne sais plus quoi penser, les 2 sites sont quasi identiques mais il semble que google ne les perçoivent pas de la même façon...
 
WRInaute discret
Je poursuis le suivi des 2 sites -www.zetudiants.net et -www.footmercato.net

footmercato : 534 pages trouvées sur google et 41 bien indexées ---> poursuit sa désindexation

zetudiants : 580 pages trouvées sur google et 398 bien indexées ---> pages indexées en croissance
 
WRInaute discret
Je continue ma tentative d'explication en solo.

L’équipe identifie 5 critères qui sont autant de signes crédibles de tentative de spamdexing :

La syntaxe des urls :
Une url de page longue de plus de 45 caractères, contenant plus de 6 points, 5 tirets ou 10 chiffres est certainement une page « optimisée ».

Hébergement fortement mutualisé ou présence de nombreux sous domaines
Les serveurs hébergeant plus de 10.000 noms de domaines proposent majoritairement des pages dédiées au spamdexing.

Anomalies dans l’organisation des liens entrant et sortants
L’étude montre que les pages proposant un nombre anormal de liens sortants sont quasi systématiquement des pages destinées à tromper l’outil de recherche.
Plus surprenant, les pages possédant un trop grand nombre de liens entrants sont aussi très suspectes et la majorité d’entre elles correspondent à du spam.

Le rythme de modification des contenus
A chaque visite le moteur de recherche calcule les changements intervenus dans le contenu depuis la dernière capture. Il apparaît que les pages dont le contenu change trop souvent sont le plus souvent des pages de spam.

Duplication excessive des contenus
Pour chaque document l’outil calcule le nombre de document dont le contenu est très proche. Ces documents sont similaires mais pas nécessairement identiques.
A partir d’un certain seuil, le nombre de documents similaires identifiés est un signe crédible de spamdexing.

Il est donc possible que Google considère ces pages comme du spamdexing.
 
Nouveau WRInaute
C'est possible d'avoir le fil qui a amené a ces conclusions car la plupart des remarques semblent peu probables.

La syntaxe des urls :
Une url de page longue de plus de 45 caractères, contenant plus de 6 points, 5 tirets ou 10 chiffres est certainement une page « optimisée ».
Tss, tsss, pas chez moi, j'ai plutot le contraire. Toutes mes pages avec plus de 5 tirets ok et des pages avec moins non ok.

Hébergement fortement mutualisé ou présence de nombreux sous domaines
Les serveurs hébergeant plus de 10.000 noms de domaines proposent majoritairement des pages dédiées au spamdexing.
Source ?

Anomalies dans l’organisation des liens entrant et sortants
L’étude montre que les pages proposant un nombre anormal de liens sortants sont quasi systématiquement des pages destinées à tromper l’outil de recherche.
Quelle etude ? On sait qu'a partir de 100k environ , le contenu n'est plus pris en compte.
Des exemples ?

Plus surprenant, les pages possédant un trop grand nombre de liens entrants sont aussi très suspectes et la majorité d’entre elles correspondent à du spam.
WRI , tu es demasqué ! :lol: Pas tres serieux sachant que c'est l'une des clés de l'algo de google.

Le rythme de modification des contenus
A chaque visite le moteur de recherche calcule les changements intervenus dans le contenu depuis la dernière capture. Il apparaît que les pages dont le contenu change trop souvent sont le plus souvent des pages de spam.
Non, Google prefere les sites amenant regulierement du nouveaux contenu. Les contre-exemples sont légions.

Duplication excessive des contenus
Pour chaque document l’outil calcule le nombre de document dont le contenu est très proche. Ces documents sont similaires mais pas nécessairement identiques.
A partir d’un certain seuil, le nombre de documents similaires identifiés est un signe crédible de spamdexing.
La clé , c'est de comprendre pourquoi certains sites restent referencés et pas d'autres.
Pour l'instant, d'aprés mes experimentations , il semble en effet qu'une similitude en debut de page actionne le filtre. Si on reorganise le meme contenu avec le contenu "identique" à la fin de la page , ca semble mieux se passer. C'est en encore un peu trop frais chez moi pour être affirmatif, les nouvelles pages ne sont qu'au debut de leur reindexation.
 
WRInaute discret
Guy Hoquet Yerres a dit:
Pour l'instant, d'aprés mes experimentations , il semble en effet qu'une similitude en debut de page actionne le filtre. Si on reorganise le meme contenu avec le contenu "identique" à la fin de la page , ca semble mieux se passer. C'est en encore un peu trop frais chez moi pour être affirmatif, les nouvelles pages ne sont qu'au debut de leur reindexation.

Toutes les idées sont les bienvenues en effet.

Ce qui me surprend dans ton idée, c'est pourquoi GooGle se limiterait au début des pages??? Si il a plus envie d'indexer les templates de page, il ejecte automatiquement toute page "semblable" du début à la fin de la page, non?

Mais surtout quelle logique y'aurait-il derriere tout ca??? Privilegier les sites qui mettent tant tot leur logo, publicité et menu en haut de la page et tantot en bas???

Je capte pas bien :roll:.
 
Nouveau WRInaute
J'ai repris les remarques de HerveG et essayé de l'appliquer à mon site qui est desindexé.
Ca n'est pas un forum mais les annonce immobilières utilisent un même template comme les forums.

j´ai remarqué que google pouvait estimer deux pages similaires si :

- la balise title est identique
- la balise description est identique
- le début de page est identique

je n ai pas plus de précision à vous offrir pour l instant...

a+
Hervé

Title et description identique ne s'appliquant pas...Il ne me restait pas grand chose si ce n'est le deplacementent en fin de page. J'ai aussi deplacé les styles dans un css histoire de diminuer un peu peut etre le ratio de contenu identique.

Pour l'instant, quelques nouvelles pages sont indexees de nouveau mais les anciennes disparaissent plus vite. :cry: Zen et patient il faut être...
La logique ? Oui je vois pas trop vu que le contenu au final est le meme. Neanmoins , dans l'index pour mes pages desindexees, le meme texte apparaissait dans la page de recherche ( coordonnées de l'agence) .. En mettant le contenu similaire à la fin, le texte est maintenant différent. Ca peut etre une explication.
 
WRInaute occasionnel
Bonjour,

Je suis d'accord avec toutes les hypothèses d'herve, mais le forum ou nous sommes est bien indexé et pourtant la description est identique partout, le début des pages aussi !

Reste le contenu, très varié sur un forum....
Cela veut dire que des fiches produits, par exemple, serait difficilement referencables !

Y aurait il corrélation avec un bon PR qui serait favorable ?

GG, dans sa volonté de ne pas trop engraisser son index, éliminerait il les pages "similaires" des sites a petit ( modeste ) PR ??

Contre-exemple ?

A+
 
WRInaute discret
François a dit:
... mais le forum ou nous sommes est bien indexé et pourtant la description est identique partout, le début des pages aussi...

Il me semble que ce forum connait les memes problemes que beaucoup d'autres, non?
Ou alors, c'est la commande site qui marche plus mais en tout cas, sur cette requete, on voit des pages sans description et sans titre.
https://www.google.fr/search?q=site:www. ... rt=20&sa=N

A moins que ce soit un probleme de duplicate content???
 
Nouveau WRInaute
Oui, oui, WRI est certes bien référencé mais il est aussi touché par la desindexation ( indexation incomplete ) me semble t'il. Certaines pages n'ont plus que l'url. Une petite commande site sur WRI te le montrera. On le voit les pages concernees semblent des pages avec peu de contenu unique.

Et il ne s'agit pas que de nouvelles pages non encore indexées. Certaines datent de 2003.

Oui les fiches produits vont etre difficile à referencer si celles-ci sont pauvres en contenu. Si par contre, il existe un descriptif technique et/ou des commentaires pas de problème me semble t'il.

Le PR ne semble pas un critère, c'est le contenu du site qui est primordial. Certes WRI est impacté mais vu le nombre total de pages indexées, l'impact est pratiquement nul.

Encore une fois, la clé d'un bon référencement semble être le contenu.
 
WRInaute discret
Svinkels a dit:
footmercato : 534 pages trouvées sur google et 41 bien indexées ---> poursuit sa désindexation

footmercato : 209 pages trouvées sur google et 70 bien indexées

Donc il semble que google desindexe petit à petit les pages mal indexées; toutes les pages indexées sont à partir du 20 octobre
 
WRInaute discret
Salut,
Depuis quelques semaines google ne référence plus certaines de mes nouvelles pages (tout en url rewriting). Par contre, il n'y a pas de problème pour les nouvelles pages de transitions et de présentations... Pourtant, les pages non indexées ne sont pas celles auquel on peut s'attendre, il s'agit de celles ayant le plus de contenu (les définitions).

Ca devient incompréhensible, vous rencontrez presque le problème inverse ! Avez-vous fait attention à l'indexation des nouvelles pages ?
 
WRInaute discret
Je pense pas que le probleme provienne du rewriting... A mon avis vous faites fausse route.

Ce qui se passe par contre, c'est que les gens qui utilisent le rewriting le font sur une meme page PHP et c'est plutot sur ce point que GG filtre...
 
WRInaute passionné
Bonjour

Pour info, lorsque je faisais un allinurl, beaucoup de pages n'avaient pas de description.
Ce n'est plus le cas, toutes ont une description.
Est.ce que c'est la même chose sur vos sites?

François
 
Nouveau WRInaute
Yep, pareil. Plus aucune page mal indexée (sauf 1) et avec une remontée du nombre de pages. Reste la page d'accueil mais il semble que Google ait quelque chose d'autre a me reprocher.
 
WRInaute discret
Mon site est désindexé aussi (reste 66 pages sur 130, snif !). L'architecture de mon site m'oblige à avoir beaucoup de pages au contenu proche, apparemment google déteste ça ! Encore plus emmerdant : parmi les pages désindexées figurent certaines des plus génératrices de trafic.
Comme c'est des pages rewritées, il s'agit peut-être (malheureusement) d'une sanction spécifique. Bref, mon petit site en a pris un coup et moi avec. :(
 
WRInaute discret
Je voulais savoir où vous en étiez avec la desindexation; j'ai lu sur d'autre topic que pour nombre d'entre vous, les pages étaient à nouveau indexées.
Malheureusement, il n'en est pas le cas pour mon site... avec 76 pages correctement indexées.

Si il ne reste plus que moi avec ce soucis, c'est que cela ne vient pas chez moi des pages dynamiques. a suivre...
 
Nouveau WRInaute
Très franchement le problème de la désindexation reste un mystère pour moi. Effectivement Google est en train de réindexer (et faire apparaitre dans les résultats) des pages qui avaient disparues de certains sites. Pour certaines de ces pages, il y a du cloaking, pour certaines du spam indexing et d'autres sont tout à fait normales. Donc même en utilisant les techniques à proscrire, Google semble réindexer les pages. A une époque sur ce forum certains ce demandaient si Google n'avait pas perdu ses index suite à un problème technique, je me pose toujours cette question.
 
WRInaute impliqué
pour moi tout est rentré dans l'ordre,
meme les pages non rewritées et avec plein de variables sont revenues.
enfin une bonne nouvelle.
 
WRInaute discret
Depuis le 11 novembre où google a désindexer la moitié de mes pages, je n'ai pas revu le googlebot une seule foi.
C'est mauvais signe, non ?
 
WRInaute discret
Suite à une reindéxation de mes pages il y a 1 mois, voila que ça repart dans le sens inverse de façon assez impressionnante.
Je perds environ 50 pages correctement indexées par jour.

Je voulais savoir si ceux qui avaient rencontré ce probleme il y a quelques temps se trouvent dans la même situation.
 
Nouveau WRInaute
Svinkels a dit:
voila que ça repart dans le sens inverse de façon assez impressionnante.
Chez moi c'est pareil pour plusieurs sites. En fait l'indexation fait le yoyo depuis pas mal de temps. En plus j'ai remarqué dans l'index que certaines nouvelles pages qui apparaissent datent de fin septembre (les pages sont datées).
 
WRInaute accro
Je recupere les pages de mon forum phpbb aujourd'hui. Je passe de 2000 à 6000.

Alors que j'avais perdu ces 4000 petits à petits ces dernieres semaines.
 
WRInaute impliqué
Je viens de parcourir cette très intéressante discussion, et je me rend compte que l'explication de cette histoire de désindexation est toujours inconnue de la plupart des webmasters.

Pourtant, la clé du mystère a été donnée par Danny Sullivan (Searchenginewatch.com) il y'a quelques mois, et GoogleGuy a confirmé que c'était la description la plus proche de la réalité qu'il ait jamais lue sur le sujet.

Qu'en est-il exactement ?

En fait, l'explication vient du comportement de Googlebot, qui est un spider fonctionnant sur un index ouvert. Et cet index ouvert est composé à présent de deux morceaux.

Première partie : le vrai index de Google (celui qui a été récemment crawlé, et est considéré comme "à jour")

Deuxième partie : le deuxième index de Google, composé de pages crawlées par le passé, mais dont on ne sait pas vraiment si elles existent toujours , si elles n'ont pas été modifiées etc... Dans ce deuxième index, selon des indications anciennes de Google, figureraient également des pages issues de crawls particuliers...
Ces pages constituent les fameux "résultats complémentaires".

Conclusion à ce stade : Google a renoncé depuis de nombreux mois à crawler régulièrement tout le web...

En fait Googlebot fonctionne suivant un ordre de priorité : il crawle plus souvent les pages jugées importantes et/ou des pages régulièrements modifiées, et moins souvent les pages et sites statiques et/ou jugées non intéressantes.

Au bout d'un certain temps, la deuxième catégorie de pages est versée dans le deuxième index, car on est plus sûr de leur existence ou de leur fraîcheur.

Dès qu'elles sont à nouveau crawlées, elles remontent dans la première partie de l'index.

Il est clair que parmi les pages jugées comme "non prioritaires", figurent les pages dynamiques sur les sites qui en comportent beaucoup.Un site à fort PR (comme WRI) verra ses pages régulièrement indexées et mises à jour dans l'index. Un site jugé moins prioritaire (le PR est il le seul critère pris en compte ?) verra par contre un nombre limité de ses pages dynamiques crawlées, pour économiser du temps de crawl et de la bande passante... Le reste passe dans l'index complémentaire.

Or les résultats de ce deuxième index n'apparaissent pas (sauf requête tordue) quand le filtre de clustering est activé. Tout se passe donc comme si ces pages étaient désindexées (mais elles sont bien quelque part, en fait dans l'index complémentaire ...)

Et les pages sans titres et description me direz-vous ???

En fait, Google triche doublement quand il annonce 8 milliards de pages dans son index. Ils comptent les deux index (et sans doute d'autres index complémentaires...), et ils comptent aussi les pages dont ils connaissent l'url, mais dont ils n'ont pas "aspiré" et indexé le contenu...

Les résultats sans titre et description proviennent de tentatives de crawl récentes avortées. Googlebot a déterminé au cours de son crawl que ces pages existaient, mais il n'en connait pas le contenu.

Je n'ai pas encore pu déterminer si ces pages étaient de simples liens détectés par Google (sans vérification) , en vue d'un crawl à venir, ou de pages dont l'existence a été vérifiée en demandant seulement le header http://. Compte tenu du faible nombre de pages en erreur 404 dans ces pages, je penche pour la deuxième explication (Googlebot avant d'indexer les pages interroge le header http pour lire le champ IMS).

Au prochain crawl, google aspirera et stockera dans son index la page, qui retrouvera titre et description... En attendant, google communique l'url, car cette page existe, il le sait... Le mystère, c'est sur quoi Google se base pour "classer" la page dans les résultats (l'ancienne version de la page? Les infos partielles en sa possession ?)

Tout ceci est une conséquence de la course à la fraîcheur des pages et à l'indexation continue dans laquelle Google s'est lancé voilà plus d'un an.
 
WRInaute discret
Merci pour cette explication.
Pour mon site qui était indexé uniquement par son URL, Le Support Google m'a effectivement indiqué qu'il n'était que partiellement indéxée. Mais depuis ce WE j'ai retrouvé le titre et le texte dans les resultas de recherche.
Dans son mail, le support m'a aussi indiqué que peu de pages incluant des "?" dans l'URL était indéxées... Et mon site en contient. (rewriting en prévision)
J'attends de voir si les autre pages du site vont être crawlées.
 
WRInaute impliqué
merci cariboo pour cette explication si minutieuse et intéressante de ces phénomènes de désindexation et réindexation.
voilà pourquoi on disparait et réapparait sans cesse :wink:
ca fait du bien quand on lance une discussion si longue que la solution soit affichée, ca change des sujets sans fin :D
 
WRInaute occasionnel
cariboo a dit:
Or les résultats de ce deuxième index n'apparaissent pas (sauf requête tordue) quand le filtre de clustering est activé. Tout se passe donc comme si ces pages étaient désindexées (mais elles sont bien quelque part, en fait dans l'index complémentaire ...)

Si, il me semble qu'elles apparaisent dans toutes les requêtes. On les repère par la mention "résultat complémentaire", qui est rajouté dans ce cas. La mention est située sous le snippet dans la ligne de couleur verte. En général quant on clique sur une url avec cette mention on tombe souvent sur une page d'erreur 404 ou alors une page différente du cache qui est lui très ancien. Je le vois pour mon site où il y a de nombreuses pages que j'ai supprimées il y a environ 6 mois. Elles sont encore dans le cache de Google, avec la date de l'indexation (plus de 6 mois), et elles apparaissent lors des requêtes, avec cette mention "résultat complémentaire". Si Google était vraiment honnête il ne devrait pas les faire apparaître, car depuis six mois googlebot a bien dû s'apercevoir qu'elles n'existaient plus, mais je suppose que ça lui permet de dire que son index compte 8 milliards de pages. Amha, c'est ce deuxième index invalide qu'ils font apparaître maintenant dans les requêtes qui perturbe dangereusement les classements depuis quelques jours.
 
WRInaute discret
Pour mon cas, beaucoup de pages dynamiques, j'étais toujours aux environs de 40.000 pages indexées lorsque qu'en octobre 2004, je suis passé à 80.000 pages avec une augmentation de 20% des visiteurs.

https://www.google.com/search?hl=fr&ie=I ... yhdz&meta=

Donc je ne pense pas que les pages dynamiques soient visées.

Comme ce changement était peu après mon inscription a Adword (fin septembre), je croyais que celà en était la cause.
 
Discussions similaires
Haut