La crawlbox

Røi · 2 Août 2006

Hé voilà le mot est crée.

La crawlbox est une nouvelle catégorie de box qui fait que Google limite le nombre de liens qu'il suivra dans un site sur une page donnée. Elle s'applique aussi à la profondeur de crawl forcément.

Exemple sur tel site il s'arrêtera au bout de 30 liens sur la page d'accueil (vérifié).

La question serait de savoir comment se passe les crawls aux niveaux suivants et aussi combien de temps affecte-elle un site.

DomZ · 2 Août 2006

Source de l'info ?

Albert1 · 2 Août 2006

Røi a dit:
Exemple sur tel site il s'arrêtera au bout de 30 liens sur la page d'accueil (vérifié).

vérifié par qui ? comment ? :roll:

Thierry Bugs · 2 Août 2006

Røi a dit:
Exemple sur tel site il s'arrêtera au bout de 30 liens sur la page d'accueil (vérifié).

Pour dire ce genre de choses il faut une source.

Tu as énormément de site dont les très gros qui dépassent allègrement 30 liens...

en fait je n'y crois pas une seconde :roll:

david96 · 2 Août 2006

Røi a dit:
Hé voilà le mot est crée.

J'ai compris ! :lol:
https://www.google.fr/search?hl=fr&q=cra ... DcountryFR

WebRankInfo · 2 Août 2006

david96 a dit:
Røi a dit:

Hé voilà le mot est crée.

Cliquez pour agrandir...

J'ai compris ! :lol:
https://www.google.fr/search?hl=fr&q=cra ... DcountryFR

en effet :

Google a dit:
Aucun document ne correspond aux termes de recherche spécifiés (crawlbox).

wullon · 2 Août 2006

Oui, enfin c'est sur Pages : France ^^.

Mais bon, ça me fait un peu penser au PR ça (qui est une conséquence on est d'accord) : plus c'est gros, plus ça crawl mieux/en profondeur.

Enfin il y a quoi de nouveau à part un nom ? ^^

Albert1 · 3 Août 2006

wullon a dit:
Oui, enfin c'est sur Pages : France ^^.

https://www.google.fr/search?q=crawlbox
un total d'environ 1 130
elle est où la création ?

david96 · 3 Août 2006

Sur la page France ! :roll:

Røi · 3 Août 2006

La source ? moi

Le souci n'est pas de dire "oui il existe des sites qui ont énormément de liens" mon propos est de dire que pour certains sites google ne se donne pas bcp de mal pour crawler et il le fait exprès en selectionnant les sites à handicaper.
Jusqu'à maintenant on savait que le PR (qui n'est pas une source de traffic) était proportionnel à la profondeur de crawl et la périodicité de crawl des bots.

Comment je me suis rendu compte de la crawlbox ? Je n'attend pas d'avoir les infos officielles de je sais quel tartenpion du référencement je teste moi même dans mon coin.

Sur le site d'un ami, j'ai utilisé un spider simulator sur la page d'accueil car il se plaignait de ne pas voir certaines pages indexées. Et là ce qui m'a sauté aux yeux, et je l'ai bien vu sur ce site car c'est un site simple qui n'évolue quasimment pas, c'est que seuls les 30 premiers sont pris en compte et les 3 derniers non. C'est l'ordre numérique et le chiffre rond qui m'ont fait tilter. Il a un PR de 4 tout de même.

e-kiwi · 3 Août 2006

moué, donc dans ca cas précise que tu as inventé la chose !

et puis ce n est pas clair ce que tu dis. tu dis que spider simulator à un comportement, donc tu en déduis que google à le meme ?

et tu ne penses pas plutot à un probleme sur le dit site ?

Røi · 3 Août 2006

e-kiwi a dit:
moué, donc dans ca cas précise que tu as inventé la chose !

Non je savais que si je disais "moi" j'allais me prendre la vague de pseudo dieux du référencement dans la tronche.

e-kiwi a dit:
et tu ne penses pas plutot à un probleme sur le dit site ?

non

e-kiwi · 3 Août 2006

non mais tu te rend compte que tu fais de la fausse information volontaire là ? tu cherches à tromper des gens ou bien ? tu devrais plutot demander de l'aide pour sortir de cette situation au lieu de parler d une généralité.

hier ma peugeot est tombé en panne, alors donc toutes les peugeot tombent en panne.. en plus totn test ne veut rien dire, spider simulator n est pas google... étudie ton code source plutot

WebRankInfo · 3 Août 2006

et si tu nous donnais l'URL en question, on pourrait donner notre avis ?

Røi · 3 Août 2006

e-kiwi a dit:
non mais tu te rend compte que tu fais de la fausse information volontaire là ? tu cherches à tromper des gens ou bien ? tu devrais plutot demander de l'aide pour sortir de cette situation au lieu de parler d une généralité.

hier ma peugeot est tombé en panne, alors donc toutes les peugeot tombent en panne.. en plus totn test ne veut rien dire, spider simulator n est pas google... étudie ton code source plutot

De l'aide ? non pas besoin. Ce n'est pas mon code source et je sais reconnaitre du bon code source.

De la fausse information ? Un forum est fait pour discuter avant tout, nous sommes dans une "pseudo science" qui est d'essayer de deviner la façon dont Google réagit afin de mieux agir nous même.

Si quelqu'un a de quoi recouper mes dires (il s'agit pas de les contrer puisque c'est très facile de me sortir une page qui contient 100 liens indexés mais de trouver uniquement 30 liens indexés sur une page d'accueil ) il pourra le faire ici et nulle part ailleurs vu l'interêt démocratique du principe même du forum.

e-kiwi · 3 Août 2006

roi, tu devrais donner l'URL de ton site si tu veux que la discussion continue.

et si je reprend ton premier message, on n'annonce pas une hypothese comme un fait...

spidetra · 3 Août 2006

HawkEye · 3 Août 2006

Toutes les hypothèses sont bonnes à prendre. Mais qu'on veille à ne pas tirer de conclusions accusatoires trop rapides...

Moi c'est ça qui me gène:

mon propos est de dire que pour certains sites google ne se donne pas bcp de mal pour crawler et il le fait exprès en selectionnant les sites à handicaper

"Google fait exprès"
"sélectionner des sites à handicaper"

Ce n'est pas très scientifique comme raisonnement.

De plus, cette analyse et ces conclusions (assumant que seule une contradiction par des preuves tangibles pourra réfuter celles-ci... (dans mon pays on démontre les choses, on ne met pas au défi de réfuter...)) sont basées sur une expérience unique dans laquelle on ressent tout de même une légère frustration.

Qu'on mette en place un protocole de test, ok.
Qu'on tente d'imposer des hypothèse farfelues sans démonstration étayée, non.

@+

Røi · 3 Août 2006

HawkEye a dit:
Toutes les hypothèses sont bonnes à prendre. Mais qu'on veille à ne pas tirer de conclusions accusatoires trop rapides...

Moi c'est ça qui me gène:

mon propos est de dire que pour certains sites google ne se donne pas bcp de mal pour crawler et il le fait exprès en selectionnant les sites à handicaper

Cliquez pour agrandir...

"Google fait exprès"
"sélectionner des sites à handicaper"

Ce n'est pas très scientifique comme raisonnement.

De plus, cette analyse et ces conclusions (assumant que seule une contradiction par des preuves tangibles pourra réfuter celles-ci... (dans mon pays on démontre les choses, on ne met pas au défi de réfuter...)) sont basées sur une expérience unique dans laquelle on ressent tout de même une légère frustration.

Qu'on mette en place un protocole de test, ok.
Qu'on tente d'imposer des hypothèse farfelues sans démonstration étayée, non.

@+

Excuse moi de ne pas utiliser un language scientifique je suis technicien avant tout. Je ne vais pas mettre en place une procédure de test ca mettra trop de temps alors que j'ai déjà le test en face de moi.
Mon but c'est d'avoir plus de témoignages, car je doute que dans la masse de gens qui ont des problèmes d'indexation, bcp se soient penchés sur un spider simulator (et notamment celui ci www.spider-simulator.com car les autres ont des bugs de conception que je ne déballerais pas ici je l'ai déjà fait dans un autre post) sur leur page d'accueil et compté à partir du cbtième lien google n'a pas indexé les liens suivants.

Nous savons que Google nous déconseille de mettre plus de 100 liens mais le fait qu'il crée un filtre de crawl, selon je ne sais quel critères, personne ne l'a démontré. Si encore je pouvais donner l'Url mais je peux pas pour des raisons professionnelles.

Maintenant qu'on dise Google a instauré exprès une sandbox et un algo pour selectionner des sites à handicaper ca passe mais une crawlbox non ?

spidetra · 3 Août 2006

e-kiwi · 3 Août 2006

>> Qu'est-ce qui vous dérange le plus dans le post de Røi ?

ca facon de le dire. il sort ca comme une actualité alors que c'est sur UN cas spécifique (non divulgable), et que c'est fait avec un testeur de liens bete et mechant qui a pour but se suivre TOUS les liens correct d'un site, pas tenir compte d'un algo d'un moteur de recherche ou non.
SPider simulator n'est pas "intelligent", il suit TOUS les liens HTML d'un site. si il n'arrive pas à les suivre, c'est SUREMENT un problème de code, pas un nouvel algorithme de moteurs.

il faut différencier les hypothes des réalités, c'est tout

HawkEye · 3 Août 2006

Je peux tout à fait concevoir qu'un moteur ait d'autres leviers que le PageRank pour décider de la vitesse de crawl à appliquer à tel ou tel site... Ca paraît même tout à fait logique et opportun.

Simplement, svp, qu'on teste plutôt qu'avancer des conclusions bidons (excusez du terme) du genre "Google handicape certains sites...".

Quelques exemples de réflexions pourraient être:

- Sur le cache de quel DC se base-t-il pour sélectionner les liens à crawler ?
La page en question pourrait ne pas avoir eu ces liens dans le code il y'a 3 jours

- De quand date la constatation de ce problème ?
Google semble "lent" chez beaucoup de monde ces temps-ci

- Quelle est la nature des liens "ignorés" ?
URLs statiques, ou dynamiques, liens profonds/très profonds/externes ?

etc...

HawkEye · 3 Août 2006

J'ajouterais:

Le PR est dépendant du nombre de backlinks obtenus, et de leur qualité (ça c'est sûr).
J'aurais tendance à dire (notez l'incertitude marquée sur l'hypothèse non confirmée

) au vu de certains lancements orchestrés cette année que le PR est aussi une question de vitesse d'apparition des Backlinks (ie: "10.000 d'un coup ? Wah... ce site est certainement une bombe...").

Un PR4 pourrait donc provenir de 50 petits backlinks à 2 sous, et d'1 ou 2 backlinks PR5, sans plus.

>> au final, peu de backlinks, donc "forcing" sur le crawl plus faible, etc...

enfin bon... je pense qu'il y'a des dizaines de pistes à explorer avant de conclure

Røi · 3 Août 2006

HawkEye a dit:
Quelques exemples de réflexions pourraient être:

La page en question pourrait ne pas avoir eu ces liens dans le code il y'a 3 jours

Non les liens ont été crées avec tous les autres

HawkEye a dit:
- De quand date la constatation de ce problème ?
Google semble "lent" chez beaucoup de monde ces temps-ci

Depuis le début que le site a été indexé

HawkEye a dit:
- Quelle est la nature des liens "ignorés" ?
URLs statiques, ou dynamiques, liens profonds/très profonds/externes ?

etc...

Liens statiques non profond (page d'accueil)

HawkEye · 3 Août 2006

Røi a dit:
HawkEye a dit:

Quelques exemples de réflexions pourraient être:

La page en question pourrait ne pas avoir eu ces liens dans le code il y'a 3 jours

Cliquez pour agrandir...

Non les liens ont été crées avec tous les autres

Ok ça écarte déjà ça.

Røi a dit:
HawkEye a dit:

- De quand date la constatation de ce problème ?
Google semble "lent" chez beaucoup de monde ces temps-ci

Cliquez pour agrandir...

Depuis le début que le site a été indexé

Quelle date ? Perso il ne m'indexe jamais tous les liens d'une page d'un coup non plus...

Røi a dit:
HawkEye a dit:

- Quelle est la nature des liens "ignorés" ?
URLs statiques, ou dynamiques, liens profonds/très profonds/externes ?

etc...

Cliquez pour agrandir...

Liens statiques non profond (page d'accueil)

Je voulais dire, quelle est la cible: profonde (/dir/page.html), très profonde (/dir/subdir/subsubdir/page.html) ou externe ?

Merci.

Røi · 3 Août 2006

HawkEye a dit:
Quelle date ? Perso il ne m'indexe jamais tous les liens d'une page d'un coup non plus...

Il y a deux mois.

HawkEye a dit:
Je voulais dire, quelle est la cible: profonde (/dir/page.html), très profonde (/dir/subdir/subsubdir/page.html) ou externe ?

la racine

wullon · 3 Août 2006

Albert1 a dit:
wullon a dit:

Oui, enfin c'est sur Pages : France ^^.

Cliquez pour agrandir...

https://www.google.fr/search?q=crawlbox
un total d'environ 1 130
elle est où la création ?

Juste pour le nom : personnellement j'avais bien compris que c'était une "invention" de l'auteur du premier post, mais ça n'a rien de choquant, quasiment tout le jargon référencement provient de personnes isolées (à part le PageRank, je n'ai jamais vu Google parler officiellement de sandbox ou autre :roll: ).

HawkEye · 3 Août 2006

Røi a dit:
Il y a deux mois.

C'est effectivement "un peu long".
Niveau backlinks, ça donne quoi (Check avec Yahoo).

Røi a dit:
la racine

La cible des liens est la racine ??

Røi · 3 Août 2006

Yahoo voit les pages non indexées par Google.

Oui à la racine pour les pages ciblées.

lolo06 · 4 Octobre 2006

intéressant ça... des pages dans le répertoire racine (/page31.htm, ...) pas indexées car indiquées en fin de page... pas forcément si étonnant.
Peu de succès par contre pour le nouveau terme (1 réponse sur goog pages france ou francophoneet 806 -pardon pour PSA- sur Web entier)