Peut être une explication à propos des pages similaires ...

  • Auteur de la discussion Auteur de la discussion Zecat
  • Date de début Date de début
WRInaute accro
Hello the forum,

J'ai peut-être identifié une explication au fait que l'on voit quelquefois GG considérer comme pages similaires des pages qui ne devraient pas l'être ...

Je m'explique :

:arrow: Il y a 4 mois, j'ai mis en ligne ruesdemaville.free.fr. Durant la période d'indexation il est passé par une phase ou il m'a mis quasiment 70 % de mes pages en pages similaires. Puis au fil des semaines, sans que j'ai rien changé dans mes pages, toutes les pages similaires ont disparu et ont été normalement indéxées comme pages différentes. J'avais interprété ce comportement comme un changement d'alogo de GG qui était bien tombé pour moi ...

:arrow: Il se trouve que je viens de basculer progressivement tout le site de .free vers .com. Pour différentes raisons j'ai opté pour de rustiques pages de refresh de free vers les nouvelels pages en .com (mais ce n'est pas l'objet de ce post). Et donc GG est en train de procéder à une nouvelle réindexation de toutes les pages et progressivement les .free disparaissent de l'index GG au profit des .com. Et il se trouve que je constate à nouveau le même comportement ... il est dans une pahse ou il considère a nouveau 60 % de pages comme similaires ...

:arrow: Or il se trouve que toutes mes pages sont effectivement bati avec la meme ossature (donc une grande partie commune) mais que la liste des mots directeurs située en bas de page les rend par contre bien toute tres différentes. mais ca se trouve en fin de page ...

:?: Du coup j'ose avancer l'analyse suivante :

- Pour gagner du temps, GG lors de sa première indexation se limiterait a scanner uniquement une partie de la page. cela lui permettrait de deja prendre en compte la page au plus tot en minimisant la ressource d'indexation au strict minimum. Et donc durant cette phase, le taux de pages similaire est dans notre cas important.

- Puis une fois la phase 1 terminée (disons une fois que GG a indexé toutes les pages du site - par exemple parce qu'il ne trouve plus de nouveau liens intrnes ou se propager), il passe alors en pahse 2 en reprenant les page mais cette fois dans leur intégralité et la les pages considérées initialement comme similaires disparaissent peu à peu.

C'est ce comportement que j'ai vu lors de la premièere indexation de ruesdemaville.free.fr et c'est semble-t-il ce même comportement que je constate lors de la réindexation de ruesdemaville.com.

Cette explication vous semble t elle cohérente ? Avez-vous déjà constaté la même chose ?
 
WRInaute accro
cloacking a dit:
Ou est la nouveauté ?
Je ne sais pas. Je pose justement la question pour savoir si ce comportement d'indexation d'un petit bout de la page seulement en premiere intention est quelque chose de connu ?
 
WRInaute impliqué
L'affichage dans google pour les pages en duplicate et celle fraichement connues sont les mêmes, cela ne veut HEUREUSEMENT pas dire que toutes les pages comme celle ci dans Google sont en DC

Regardé par exemple sur des forums qui générent beaucoup de pages ....
Tu as toujours des pages qui semble similaire et suivant le site quelques jours mois aprés google met leurs descriptions.

On rencontre le même phénomène lorsque le site est Neuf (je dirais) qu'il vient juste d'être découvert par google

Exemple :
https://www.google.fr/search?hl=fr&q=www ... ogle&meta=

Regarde cette page demain ou aprés-demain j'espère
 
WRInaute accro
Oui mais la c'est du DR (Duplicate Roberts) :lol: :lol:

Plus sérieusement, effectivement, je ne savais pas qu'il signalait page récente comme une similaire ... mais qui de l'oeuf ou de la poule ? Est ce bien parce qu'elle est nouvelle qu'elle est affichée similaire ou parce qu'elle est partiellement traitée qu'elle est similaire au debut ?

Parce que dans le meme temps des milliers de pâge tout aussi nouvelles ne passent pas par l'etape "similaires" ...
 
WRInaute impliqué
Zecat a dit:
Parce que dans le meme temps des milliers de pâge tout aussi nouvelles ne passent pas par l'etape "similaires" ...

Je te rejoins à 100% Zecat, et d'ailleurs, (cf mon post plus haut) pour mon cas, j'aide les pages à passer l'étape "similaires" comme tu dis, en placant un lien vers celle ci sur une page bien indexée à fort PR

alors évidemment, quand il y a bcp de page, c'est galère

c'est pour cela que j'espère que l'outil site map de google va aider dans cette démarche
 
WRInaute accro
Bon la c'ets pas trop galère en fait parce que :

- le .com existait depuis le depuis même si tout etait chez free
- il avait une PR4 et du coup l'indexation a vite demarré (la il se tape 5000 pages par jour a peine quelque jours apres la mise en ligne sur le .com alors que le .free il avait mis des semaines avant de lancer le diesel).
- En plus comme j'ai fait des refresh de free vers com, les recherches sur free fonctionnent toujours même si la page est en com ...

Donc au final le passage s'est fait en douceur ... Ce qui m'a interessé c'est surtout d'isoler ce comportement de spages similaires au debut ...
 
Nouveau WRInaute
Re: Peut être une explication à propos des pages similaires

Zecat a dit:
- Pour gagner du temps, GG lors de sa première indexation se limiterait a scanner uniquement une partie de la page. cela lui permettrait de deja prendre en compte la page au plus tot en minimisant la ressource d'indexation au strict minimum. Et donc durant cette phase, le taux de pages similaire est dans notre cas important.

Hello,

Je pense que tu as raison car j'ai remarqué le point suivant:

- J'ai récemment développé un soft (Keyword Crawler) qui crawl un site web en se faisant passé pour un spider. J'essaie de faire en sorte qu'il se comporte comme un moteur de recherche.
- Après plusieurs utilisation sur mon site, j'ai regarder mes stats (Awstats) au niveau des visites des moteurs de recherches. Voici les différences :

Inktomi Slurp - 3564 visites - 17.66 Mo (5.07 ko/visite)
Unknown robot (identified by 'crawl') - 3766 visites - 53.54 Mo (14.55 ko/visite)
Googlebot - 588 visites - 7.41 Mo (12.9 ko/visite)

- On remarque clairemeent que Google ne crawl pas entièrement les pages, ce qui peut-être du à:
:arrow: Google reconnait la page et sait que tel contenu ne change pas (les bas de page p.ex.) et crawl "en surface" pour repérer les modification puis refait un crawl "en profondeur".

:arrow: Google effectue des crawl à plusieurs niveau, de plus en plus profondément si la page lui "plait"

Qu'en pensez-vous?
 
WRInaute impliqué
Dis voir Zecat, je viens de découvrir encore un truc

Certains diront encore c'est pas nouveaux.

Mais sur mon site, des pages considérées en réel duplicate content, ( page qui existe depuis qqs temps ), n'ont pas de pages en cache,

par contre les pages récentes, qui apparaissent comme duplicate, n'ont pas de page en cache, bien qu'elles aient été crawlées une fois.

tu me suis ?
 
WRInaute discret
Pour ma part, j'ai constaté que les pages affichées en temps que -similaires- dans les resultats GG, n'ont aucun code de retour in robostats/googlestats .. , alors que celles qui apparaissent -normalement-, on un code "200" en retour ..
Est-ce le cas également pour d'autres utilisateurs de robostats ?
Si oui, dans ce cas ca voudrait effectivement dire que la page n'est pas -vue- entièrement lors du premier crawl ?
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut