Peut être une explication à propos des pages similaires ...

Zecat · 28 Juillet 2005

Hello the forum,

J'ai peut-être identifié une explication au fait que l'on voit quelquefois GG considérer comme pages similaires des pages qui ne devraient pas l'être ...

Je m'explique :

:arrow: Il y a 4 mois, j'ai mis en ligne ruesdemaville.free.fr. Durant la période d'indexation il est passé par une phase ou il m'a mis quasiment 70 % de mes pages en pages similaires. Puis au fil des semaines, sans que j'ai rien changé dans mes pages, toutes les pages similaires ont disparu et ont été normalement indéxées comme pages différentes. J'avais interprété ce comportement comme un changement d'alogo de GG qui était bien tombé pour moi ...

:arrow: Il se trouve que je viens de basculer progressivement tout le site de .free vers .com. Pour différentes raisons j'ai opté pour de rustiques pages de refresh de free vers les nouvelels pages en .com (mais ce n'est pas l'objet de ce post). Et donc GG est en train de procéder à une nouvelle réindexation de toutes les pages et progressivement les .free disparaissent de l'index GG au profit des .com. Et il se trouve que je constate à nouveau le même comportement ... il est dans une pahse ou il considère a nouveau 60 % de pages comme similaires ...

:arrow: Or il se trouve que toutes mes pages sont effectivement bati avec la meme ossature (donc une grande partie commune) mais que la liste des mots directeurs située en bas de page les rend par contre bien toute tres différentes. mais ca se trouve en fin de page ...

:?: Du coup j'ose avancer l'analyse suivante :

- Pour gagner du temps, GG lors de sa première indexation se limiterait a scanner uniquement une partie de la page. cela lui permettrait de deja prendre en compte la page au plus tot en minimisant la ressource d'indexation au strict minimum. Et donc durant cette phase, le taux de pages similaire est dans notre cas important.

- Puis une fois la phase 1 terminée (disons une fois que GG a indexé toutes les pages du site - par exemple parce qu'il ne trouve plus de nouveau liens intrnes ou se propager), il passe alors en pahse 2 en reprenant les page mais cette fois dans leur intégralité et la les pages considérées initialement comme similaires disparaissent peu à peu.

C'est ce comportement que j'ai vu lors de la premièere indexation de ruesdemaville.free.fr et c'est semble-t-il ce même comportement que je constate lors de la réindexation de ruesdemaville.com.

Cette explication vous semble t elle cohérente ? Avez-vous déjà constaté la même chose ?

cloacking · 28 Juillet 2005

Ou est la nouveauté ?

Zecat · 28 Juillet 2005

cloacking a dit:
Ou est la nouveauté ?

Je ne sais pas. Je pose justement la question pour savoir si ce comportement d'indexation d'un petit bout de la page seulement en premiere intention est quelque chose de connu ?

fredoche25 · 28 Juillet 2005

je te rejoinds zecat

sauf que pour moi, je dirais,

etape 1 : indexation complete des pages lors du 1er crawl

etape 2 : pages mises en duplicate

etape 3 : crawl plus approfondie, les pages semblent sortir du duplicate

d'ailleurs j'ai posté une question today, sans réponse, j'aimerais bien avoir ton avis Zecat ( et celui des autres évidemment )

url : https://www.webrankinfo.com/forum/t/duplicate-content.33116/

Zecat · 28 Juillet 2005

ton post semble confirmer mon analyse.

cloacking · 28 Juillet 2005

L'affichage dans google pour les pages en duplicate et celle fraichement connues sont les mêmes, cela ne veut HEUREUSEMENT pas dire que toutes les pages comme celle ci dans Google sont en DC

Regardé par exemple sur des forums qui générent beaucoup de pages ....
Tu as toujours des pages qui semble similaire et suivant le site quelques jours mois aprés google met leurs descriptions.

On rencontre le même phénomène lorsque le site est Neuf (je dirais) qu'il vient juste d'être découvert par google

Exemple :
https://www.google.fr/search?hl=fr&q=www ... ogle&meta=

Regarde cette page demain ou aprés-demain j'espère

Zecat · 28 Juillet 2005

Oui mais la c'est du DR (Duplicate Roberts) :lol: :lol:

Plus sérieusement, effectivement, je ne savais pas qu'il signalait page récente comme une similaire ... mais qui de l'oeuf ou de la poule ? Est ce bien parce qu'elle est nouvelle qu'elle est affichée similaire ou parce qu'elle est partiellement traitée qu'elle est similaire au debut ?

Parce que dans le meme temps des milliers de pâge tout aussi nouvelles ne passent pas par l'etape "similaires" ...

fredoche25 · 28 Juillet 2005

Zecat a dit:
Parce que dans le meme temps des milliers de pâge tout aussi nouvelles ne passent pas par l'etape "similaires" ...

Je te rejoins à 100% Zecat, et d'ailleurs, (cf mon post plus haut) pour mon cas, j'aide les pages à passer l'étape "similaires" comme tu dis, en placant un lien vers celle ci sur une page bien indexée à fort PR

alors évidemment, quand il y a bcp de page, c'est galère

c'est pour cela que j'espère que l'outil site map de google va aider dans cette démarche

Zecat · 28 Juillet 2005

Bon la c'ets pas trop galère en fait parce que :

- le .com existait depuis le depuis même si tout etait chez free
- il avait une PR4 et du coup l'indexation a vite demarré (la il se tape 5000 pages par jour a peine quelque jours apres la mise en ligne sur le .com alors que le .free il avait mis des semaines avant de lancer le diesel).
- En plus comme j'ai fait des refresh de free vers com, les recherches sur free fonctionnent toujours même si la page est en com ...

Donc au final le passage s'est fait en douceur ... Ce qui m'a interessé c'est surtout d'isoler ce comportement de spages similaires au debut ...

Association FdnF · 29 Juillet 2005

Re: Peut être une explication à propos des pages similaires

Zecat a dit:
- Pour gagner du temps, GG lors de sa première indexation se limiterait a scanner uniquement une partie de la page. cela lui permettrait de deja prendre en compte la page au plus tot en minimisant la ressource d'indexation au strict minimum. Et donc durant cette phase, le taux de pages similaire est dans notre cas important.

Hello,

Je pense que tu as raison car j'ai remarqué le point suivant:

- J'ai récemment développé un soft (Keyword Crawler) qui crawl un site web en se faisant passé pour un spider. J'essaie de faire en sorte qu'il se comporte comme un moteur de recherche.
- Après plusieurs utilisation sur mon site, j'ai regarder mes stats (Awstats) au niveau des visites des moteurs de recherches. Voici les différences :

Inktomi Slurp - 3564 visites - 17.66 Mo (5.07 ko/visite)
Unknown robot (identified by 'crawl') - 3766 visites - 53.54 Mo (14.55 ko/visite)
Googlebot - 588 visites - 7.41 Mo (12.9 ko/visite)

- On remarque clairemeent que Google ne crawl pas entièrement les pages, ce qui peut-être du à:
:arrow: Google reconnait la page et sait que tel contenu ne change pas (les bas de page p.ex.) et crawl "en surface" pour repérer les modification puis refait un crawl "en profondeur".

:arrow: Google effectue des crawl à plusieurs niveau, de plus en plus profondément si la page lui "plait"

Qu'en pensez-vous?

fredoche25 · 29 Juillet 2005

Dis voir Zecat, je viens de découvrir encore un truc

Certains diront encore c'est pas nouveaux.

Mais sur mon site, des pages considérées en réel duplicate content, ( page qui existe depuis qqs temps ), n'ont pas de pages en cache,

par contre les pages récentes, qui apparaissent comme duplicate, n'ont pas de page en cache, bien qu'elles aient été crawlées une fois.

tu me suis ?

GoGueule · 29 Juillet 2005

Pour ma part, j'ai constaté que les pages affichées en temps que -similaires- dans les resultats GG, n'ont aucun code de retour in robostats/googlestats .. , alors que celles qui apparaissent -normalement-, on un code "200" en retour ..
Est-ce le cas également pour d'autres utilisateurs de robostats ?
Si oui, dans ce cas ca voudrait effectivement dire que la page n'est pas -vue- entièrement lors du premier crawl ?