Full crawl de février 2003 et URL rewriting

WRInaute passionné
Bonjour à tous,

Le "full crawl" ne saurait tarder, maintenant que www, www2 et www3 ont l'air stabilisés.
Les recherches sur AOL donnent pour moi les mêmes résultats que les recherches Google.

Suite à la mise en place de l'URL rewriting par un certain nombre de membres qui ont suivi l'article publié sur le site, il serait instructif de mentionner ici le nombre de pages vues par les deep crawlers dans les jours qui viennent.

Pour ma part, comme j'avais expérimenté chez moi le mois dernier - histoire de ne pas vous raconter trop de bêtises dans l'article :wink: , je passe de 80 pages indexées à 995 lors du dernier crawl.

Cela a fait sérieusement monter mes backlinks internes et le PR a suivi :wink:
J'ai comptabilisé sur -http://immo.wildcroft.com:
31 visites de GoogleBot en novembre (ma co**erie sur les PHPSESSID) :cry:
617 visites de GoogleBot en décembre (URL rewriting et site unilingue) :)
1542 visites de GoogleBot en janvier (site bilingue) :D

Depuis le dernier crawl, aucune nouvelle page de mon site n'a échappé à la sagacité du grand G., c'est cool

Le site de mon pote: -http://www.cadrissimo.fr mis en place le 13 janvier, comptabilise déjà plus de 200 visites de GoogleBot et a ce matin 80 pages dans l'index :lol:

Dan
 
WRInaute discret
salut Dan!!

Le deepcrawl intervient en général combien de temp après la GD ? il dure combien de temps ?

merci
++nico
 
WRInaute impliqué
Salut,
c'était pas stable y a encore 5 minutes... 8O
Une question : pourquoi Google remet sa base a jour 1 fois par mois et non pas en continu ?
 
WRInaute discret
Sur Janvier : 3500 visites de Googlebot (huhu), je suis passé de 28 pages référencées à 3300 grâce à l'url rewriting, à la suppression des PHPSESSID... Pfiou je viens de loin :?


J'voudrais en profiter pour remercier tous ceux qui ont pu me filer un coup de main, parce que sans vous (et sans WRI forcément) j'aurais jamais pu m'en sortir. BIG BIG merci (surtout à Hetzeld qui est tjs là pour répondre aux questions idiotes !)

J'aurai plus d'historique le mois prochain, comme j'ai installé Googlestats début janvier.
 
WRInaute passionné
Mr`Fab a dit:
Sur Janvier : 3500 visites de Googlebot (huhu), je suis passé de 28 pages référencées à 3300 grâce à l'url rewriting, à la suppression des PHPSESSID... Pfiou je viens de loin :?
J'voudrais en profiter pour remercier tous ceux qui ont pu me filer un coup de main, parce que sans vous (et sans WRI forcément) j'aurais jamais pu m'en sortir. BIG BIG merci (surtout à Hetzeld qui est tjs là pour répondre aux questions idiotes !)

J'aurai plus d'historique le mois prochain, comme j'ai installé Googlestats début janvier.
C'est super ! S'il n'y en avait qu'un à profiter de l'URL rewriting, cela vaudrait quand même le coup d'écrire un article..., de 28 à 3300....pffff!

Si tes liens internes sont bien fichus, tu devrais voir un accroissement de PR le mois prochain, comme il y a toujours un mois d'écart (le PR est calculé sur les données du full crawl qui précède). On croise les doigts pour toi !

Dan

PS: j'espère quand même que je ne répond pas qu'à des questions idiotes.... :wink:
 
WRInaute occasionnel
Si tes liens internes sont bien fichus, tu devrais voir un accroissement de PR le mois prochain, comme il y a toujours un mois d'écart (le PR est calculé sur les données du full crawl qui précède). On croise les doigts pour toi !

Je ne suis pas sur, à moins que mes liens interne soit mal fichu ?!?.
Google dance de décembre:
64 à 92 baklinks
5700 pages à 23000 pages indéxés

Google dance de décembre:
92 à 100 backlinks (seulement :?: :!: )
de 23000 à 28000 pages

Et mon PR 5 n'as pas bougé :?
Enfin quand même la pluplart des pages secondaires sont passés de PR4 à PR5.
 
WRInaute passionné
deblok a dit:
Et mon PR 5 n'as pas bougé :?
Enfin quand même la pluplart des pages secondaires sont passés de PR4 à PR5.
Est-ce-que toutes ces pages secondaires ont un lien direct vers ta page d'accueil?

Dan
 
WRInaute accro
bon alors, ca commence ou pas ?

ai eu 2 misérables googlebot qui se sont baladés sur mon site today...

J'attends la deep crawl avec impaaaaaaaatiieeeeeeeeeence !!!
 
WRInaute discret
Je n'ai jamais vu sur mon site d'adresses ip caracterisant le full crawl.

Je n'ai toujours vu que les crawler... pourtant toutes mes pages sont indexer. Peut-etre parce que mon site n'a pas beaucoup de page ?
 
WRInaute occasionnel
Un peu violent le crawl Google de ce matin sur mon site.... Jusqu'a 4 requetes par seconde en provenance des differents crawlers!!

résultat la base de données saturée et le site inaccessible de 8h45 a 9h.

Réponse d'Ovh- un pb ce matin sur les serveur SQL fixé a 10h ...

et Exabot était aussi de la partie. Peut etre que les bots n'y sont pour rien mais j'avais jamais vu des requetes ausi peu espacées.
 
WRInaute passionné
Cela doit-être dû au problème SQL, parce que Google est un modèle de bonne conduite.
C'était un bot en 64 ou en 216 ? Tu tiens peut-être un scoop :wink:

Dan
 
WRInaute occasionnel
Depuis que j'entends parler d'adresses des bots ... C'est l'occasion de poser la question : Vous les voyez ou ces IP ??

Chez moi les logs se présentent comme ca :

crawler12.googlebot.com web18 - [31/Jan/2003:09:10:00 +0100] "GET /annuaire- .... "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"

crawler11.googlebot.com web10 - [31/Jan/2003:09:10:00 +0100] "GET /annuaire-vi .... "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"

crawler11.googlebot.com web14 - [31/Jan/2003:09:10:00 +0100] "GET /annuaire-arch ..... "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"

crawler11.googlebot.com web10 - [31/Jan/2003:09:11:00 +0100] "GET /annuaire-psycho ..... -" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"

crawler11.googlebot.com web14 ...

( j'ai mis les ... pour raccourcir l'url)

Alain.
 
WRInaute passionné
Salut,

En fait, tu ne vois pas les IP car ton serveur Apache fait un ' DNS lookup' et les transforme en noms.
Les noms de bots que tu donnes correspondent au "Fresh Bot" .
En fait, en se basant sur les noms:
crawlern ou crawlernn sont les freshbots (IP 64.X)
crawln ou crawlnn sont les full crawlers (IP 216.X)

Dan
 
WRInaute occasionnel
merci pour ces infos.

le résultat c'est que j'ai maintenat plusieurs pages dans l'indexe google avec un message d'errreur et un contenu partiellement vide.
Comme je fais un die(message); sur les erreurs de connexion a Mysql, les pages ne sont pas fermées correctement - pas de fin de tag Table , Body et HTML.. je trouve surprenant que google remplace des pages intègres par ces bouts de pages.

j'ai pensé faire un include a partir de sauvegarde des differentes rubriques plutot qu'un die() ...
 
E
eljulien
Guest
en fait j'ai lu quasiment tout les dossiers du site, mais pas la FAQ, faut dire qu'il y a énormément de questions posées sur la FAQ et que c'est parfois dur de s'y retrouver même si les questions sont assez bien classées.
 
WRInaute passionné
eljulien a dit:
en fait j'ai lu quasiment tout les dossiers du site, mais pas la FAQ, faut dire qu'il y a énormément de questions posées sur la FAQ et que c'est parfois dur de s'y retrouver même si les questions sont assez bien classées.
Bon, alors je t'aide un peu... :wink:

Le "full (complet) crawl" ou "deep (profond) crawl" sont deux noms pour un seul type d'indexation, à savoir l'indexation "en profondeur" de tout le site. Ceci bien sûr sous réserve que les pages soient "indexables" (pas + de 2 arguments, pas d'instructions contraires dans les <META....>
Il intervient une fois par mois, après la google dance et dure environ 1 semaine.
L'index récolté sert de base de calcul pour la googledance qui suit.

Par opposition, le "fresh (frais) crawl" est une mise à jour régulière de certaines pages, qui intervient entre deux "full crawl". Les pages visitées par le "fresh bot" sont marquée d'une "date fraîcheur" et ne restent dans l'index que 2 jours, après quoi elles sont remplacées par la version "en cache".

Dan
 
E
eljulien
Guest
hetzeld a dit:
Le "full (complet) crawl" ou "deep (profond) crawl" sont deux noms pour un seul type d'indexation, à savoir l'indexation "en profondeur" de tout le site. Ceci bien sûr sous réserve que les pages soient "indexables" (pas + de 2 arguments, pas d'instructions contraires dans les <META....>
Il intervient une fois par mois, après la google dance et dure environ 1 semaine.
L'index récolté sert de base de calcul pour la googledance qui suit.
Merci à toi hetzeld,c'est exactement ce que je voulais.
 
WRInaute passionné
Bonjour à tous,

Vous aurez sans doute remarqué que j'ai dû faire un peu de "ménage" comme on en arrivait au règlement de compte entre deux "lycéens" qui prenaient WRI pour leur cour de récréaion.

J'espère que l'incident est maintenant clos et profite de l'occasion pour rappeler à tous que les attaques personnelles ne sont pas admissibles sur ce forum et que nous devons tous contribuer à les éliminer.

Si vous subissez une attaque personnelle, n'entrez pas dans le jeu du provocateur et prévenez plutôt un modérateur de la situation. Les "attaquants" se décrédibilisent d'ailleurs très vite d'eux-mêmes et il est inutile d'entretenir une discussion stérile.

Merci d'avance !

Dan
 
Nouveau WRInaute
ha ben tout s'explique c'est pour ca que j'avais un mail me prevenant d'une reponse sur un message et lorsque je suis arrivé ici pfut plus rien :wink:

Hetzeld "l'homme de ménage" du forum WRI :lol:
 
WRInaute passionné
Salut Elteor,

Les messages que j'ai supprimé étaient "hors charte" et aucun ne te concernait véritablement. Disons qu'on a fait le nécessaie pour enlever quelques messages qui n'intéressaient personne et demandé aux intéressés de continuer leur règlement de compte par messagerie privée s'ils le souhaitaient.

Dan
L'homme de ménage :wink:
 
Nouveau WRInaute
Deep crawl

Je suis un peu inquiet , je ne vois toujours pas le google bot dans mes logs. Est ce que je suis le seul ou y'a t il des sites dans le même cas ? :cry:
 
WRInaute passionné
Bonjour, je n'ai pas encore vu non plus passer le deep crawl mais il n'y a pas de quoi s'inquiéter : les OR nous apprennent la patience, même google ;)

Il suffit de suivre les conseils de référencement de WRI et entre temps, mettre à jour son contenu, optimiser ses mots clés et augmenter ses liens entrants (externes et internes), sans tricher évidemment.

En se focalisant sur le référencement et le positionnement, on a tendance à passer le contenu au second plan alors que c'est l'essentiel.
 
Nouveau WRInaute
Entièrement d'accord, mais en l'occurence j'attend le full crawll pour valider mon rewritting, et la fin du full crawll pour changer de serveur (nom de domaine ), voila pourquoi je suis un peu impatient 8)
 
Nouveau WRInaute
Non je ne pense pas car j'utilise un dns dynamique en ath.cx,

une fois le deep crawl terminé, je fait pointer le site en ath.cx par redirect sur le nouveau domaine en . com.

Ce qui me permet de garder les bénéfice du full crawll apres la dance de fin février, et normalement d'éviter un black listage ou d'être mal référencé pour duplicate content par google. enfin je crois si j'ai bien compris le principe...

Un grand googler pourra peut être me donner son avis :roll:
 
Nouveau WRInaute
Le full crawl a commencé sur mon site yes ! déja 1135 pages au lieu des 10 du dernier full crawll et des 400 au dernier fresh bot !
 
WRInaute passionné
champignac a dit:
Le full crawl a commencé sur mon site yes ! déja 1135 pages au lieu des 10 du dernier full crawll et des 400 au dernier fresh bot !
C'est à mettre au rang des bonnes nouvelles ! :wink:
Moi j'attend toujours le deep crawl mais mon URL rewriting est déjà "ancien", donc il ne devrait pas avoir de grosses différences par rapport à Janvier.

A+

Dan
 
Nouveau WRInaute
oui C une bonne nouvelle, en revanche le bot c'est arrétté subiitement, alors qu'il reste des pages a consulter est ce normal ? va t il revenir ?
 
Nouveau WRInaute
full crawl ???

bonjour a tous,

je ne vois plus trop l'interet du full crawl
etant donné que lorsque je bouge une virgule
sur mes pages elles sont systematiquement
revisitées et re indexées dans les 48 heures
qui suivent... il semble que toutes les bases
de données se remettent a jour et recalculent
le positionnement a chaque fois ??? Il n'y a plus
que le nombre de backlink et le pr qui restent
mensuel ??? Avez vous constaté la meme chose ???

a bientot, marc
mgprod selection - http://mgprod.online.fr/
 
WRInaute passionné
mgprod,

Lorsque tes pages sont visitées par le "fresh bot" et intégrées dans l'index, elles n'y ont qu'une durée de vie d'environ 48heures. Elles sont d'ailleurs marquées d'une date fraîcheur qui, tu l'auras remarqué, n'a jamais plus de 2 jours d'ancienneté.

Une fois enlevées, elles sont remplacées par le page "en cache", à savoir la page visitée lors du dernier "deep crawl" ou par "rien du tout" si le site n'a pas encore subi cette indexation en profondeur (cas d'un nouveau site).
C'est la même chose pour tout le monde.

Le deepcrawl permet à Google de virer les pages qui n'existent plus, et de calculer les backlinks, le tout étant finalisé par la "GoogleDance" qui suit à la fin du mois, avec l'affichage du nouveau PageRank.

Dan
 
Nouveau WRInaute
J'ai eu tort de m'inquieter , en revanche j'espere en avoir laissé pour les autre ( voir plus haut ).A l'heure actuelle : 9006 pages recupérées par le crawler ! :D
 
Nouveau WRInaute
date de fraicheur

bonjour,

merci dan pour ta reponse,
en y reflechissant la frequence hebdomadaire de mise a jour
de mon site doit faire qu'il se retrouve pratiquement en
permanence avec une date de fraicheur...

a bientot, marc
mgprod selection - http://mgprod.online.fr/
 
WRInaute discret
Bonjour,

Dit MrFab peux tu m'en dire plus sur la façon de rewriter les phpsessdi dans ton htaccess ?

d'avance merci
 
Discussions similaires
T
Réponses
8
Affichages
4K
tenss59
T
Haut