Les serveurs de Google seraient pleins ?

WRInaute accro
Bonjour,

http://www.theregister.co.uk/2006/05/04/google_bigdaddy_chaos/

Those machines are full !!! => Les ordis sont pleins !!! ( *Google en a 200 000)

Pour résumer; cet article nous dit que BigDaddy semble ne plus crawler le web depuis des semaines et remonter les pages ayant du contenu. Perso le dernier site que j'ai lancer le prouve car il n'est absolument pas crawler. De plus l'article nous dit que cela est confirmé par l'un des ingenieurs de Google. Affaire à suivre...



¨
 
WRInaute passionné
... ou augmente leur plan d'achat de stockage ;-).

S'ils ont 200 000 machines, il leur suffit d'1 machine supplémentaire pour réindexer mes sites comme avant, non :D :lol: ;-).
 
WRInaute impliqué
Ouep,
Moi j'ai un peu de mal à croire qu'une usine à indexer n'anticipe pas l'espace disponible sur ses machines.... :?
ça fait encore parler de google en tous cas
 
WRInaute accro
pene-r a dit:
Ouep,
Moi j'ai un peu de mal à croire qu'une usine à indexer n'anticipe pas l'espace disponible sur ses machines.... :?
ça fait encore parler de google en tous cas

+1
Comme si Renault se pointait à un GP de Formule 1 sans carburant pour ses voitures...
 
WRInaute accro
Bonjour,

Mes sites sont crawlés régulièrement, même si la fréquence est faible.
Toutefois le nombre de pages indexées diminue sur la plupart même si il augmente pour d'autres.
 
WRInaute accro
La logique voudrait que la réaction immédiate soit une plus forte répression de la fraude (blacklist), et plus de sévérité sur la duplication de contenu (duplicate content), non ?
 
WRInaute accro
Sur le duplicate, ce serait logique puisque justifié par la nécessité. Mais ça reste flou pour les webmasters, le duplicate, Zimounet le rappelait encore il y a peu de temps.

Sur le blacklistage, peut-être que ce serait l'occasion de justifier plus de sévérité, oui.

Mais il y a plus à faire, peut-être : liquider les caches après s'être posé la question de leur réelle utilisation.
 
WRInaute occasionnel
Ceci expliquerai quand même les problèmes que pas mal de webmaster ont.
Mais je trouve aussi bizard que google n'a pas prévu un éventuelle problème de stockage, avant de changer un algo on pense quand même a ca en premier...
 
WRInaute accro
L'explication est peut-être très simple :
- multiplication des index à cause de l'utilisation concurrente de différents robots;
- problèmes inattendus dans la concaténation de ces index en un seul;
- d'où engorgement rapide.

La solution : tout arrêter le temps de concaténer proprement.
Et c'est ce qui a l'air de se produire, non ?
 
WRInaute accro
Il se peut que ça fasse simplement partie de la stratégie...

Google a joué à "c'est moi k'a la plus grosse" aveec Yahoo... Peut-être tient-il à présent compte des réponses du style "mieux vaut une p'tite travailleuse que...".

En gros, il se peut que Google redéfinisse doucement sa politique d'expansion sauvage pour s'orienter vers plus de qualité, réduisant de ce fait la dimension de son index en en retirant le contenu qui serait:

- illégal / dangereux (drogue/pédo/etc...)
- obsolète (404,domaines expirés,...)
- inutile (duplication de contenu, spamdexing,...)

Comme le dit Szarah, la "limite" de la duplication de contenu semble floue (certains disent 80% de similarité (mais, de contenu, de code, de texte, de quoi? on ne sait effectivement pas...).

Ce qui est certain en revanche, c'est que ceux qui dupliquent savent qu'ils dupliquent.

Un simple exemple: l'indexation des pages "basse-qualité" des forums (c'est IPB je pense?), retourne plus de 6 illions de pages (par nature "dupliquées"), et je ne parle que de ceux qui ont conservé "/lofiversion/" comme règlage :D

Je suis partisan du nettoyage !
 
WRInaute occasionnel
Si il veulent arreter de jouer a qui a la plus grosse, la premiere chose a faire est d'arreter de gonfler le nombre de page indexer sur un site, pour moi c'est x10...

Je suis aussi partisant du nettoyage, mais pour les forums je ne suis pas d'accord, sachant que lors de recherche ont trouve souvent plus de reponses positive sur les forums.
 
WRInaute accro
En ce qui concerne les 404, je peux témoigner d'un effort particulier de Google :
- rapport sur un sitemap d'un URL en problème HTTP;
- cette page n'existe plus depuis longtemps, n'existe pas en cache, n'a jamais fait partie d'aucune sitemap;
- l'unique référence à cette page se trouve sur un forum américain;
- donc : Google fait un boulot minutieux à ce niveau-là, il aide à nettoyer.
 
WRInaute accro
unpassant a dit:
Je suis aussi partisant du nettoyage, mais pour les forums je ne suis pas d'accord, sachant que lors de recherche ont trouve souvent plus de reponses positive sur les forums.

Je ne parlais pas de désindexer les forums: j'indiquais un cas évident de duplicate content, à savoir l'utilisation de versions "low-fi" sur les forums, qui sont super pour nos amis les 56k, mais qui sont un mirroir d'une autre page duquel on a retiré (ou allégé) le design.

Il n'est pas bien compliqué d'utiliser 2 feuilles de style différentes et de taper un cookie pour savoir si le visiteur préfère surfer en hifi ou en lofi... et dans mon exemple "lofiversion", je te passe le nombre de forums qui ont configuré ça sur un sous-domaine (°www.example.com = standard || °lofi.example.com = low-fi); ce qui pour moi s'apparente (que dis-je... est) du spamdexing.

@++
 
WRInaute impliqué
Szarah a dit:
Mais il y a plus à faire, peut-être : liquider les caches après s'être posé la question de leur réelle utilisation.

Liquider le cache ne serais surement pas la solution, comme le disais Olivier dans une news, google a maintenant un system de cache généré par tous les robots, et utilisés par tous les services de google.

Gagner de la capacité de stockage pour perdre en performance... pas d'utilité.

Car dans ce probleme, il y a aussi peut etre un soucis de ressources et de capacité des machines a gérer de si grosses bases....
 
WRInaute occasionnel
HawkEye a dit:
unpassant a dit:
Je suis aussi partisant du nettoyage, mais pour les forums je ne suis pas d'accord, sachant que lors de recherche ont trouve souvent plus de reponses positive sur les forums.

Je ne parlais pas de désindexer les forums: j'indiquais un cas évident de duplicate content, à savoir l'utilisation de versions "low-fi" sur les forums, qui sont super pour nos amis les 56k, mais qui sont un mirroir d'une autre page duquel on a retiré (ou allégé) le design.

Il n'est pas bien compliqué d'utiliser 2 feuilles de style différentes et de taper un cookie pour savoir si le visiteur préfère surfer en hifi ou en lofi... et dans mon exemple "lofiversion", je te passe le nombre de forums qui ont configuré ça sur un sous-domaine (°www.example.com = standard || °lofi.example.com = low-fi); ce qui pour moi s'apparente (que dis-je... est) du spamdexing.

@++

Ha ok, j'avais compris dans le sens ou beaucoup de forum se ressembler a cause de l'utilisation des script identique, désoler :oops:
 
WRInaute accro
Zim' a dit:
Liquider le cache ne serais surement pas la solution, comme le disais Olivier dans une news, google a maintenant un system de cache généré par tous les robots, et utilisés par tous les services de google.

Attention Zim', ce n'est pas le même cache.

Le Google Crawl Caching Proxy est un "tampon" de stockage d'infomations de crawl: il permet aux différents robots de ne pas devoir crawler inutilement plusieurs fois un site.
Ce n'est pas le même "cache" que le cache de l'index Google; simplement un moyen de préserver de la bande passante.

Source: http://www.mattcutts.com/blog/crawl-caching-proxy/
En Français: http://blog.indexweb.info/actualite-int ... xy,16.html

Edit: Olivier en a parlé aussi: https://www.webrankinfo.com/actualites/2 ... -proxy.htm

Re-Edit (je fais mon Madri'): S.Billard (French Dread) en parlait aussi: http://s.billard.free.fr/referencement/ ... -de-google
 
WRInaute impliqué
ok, je pensais qu'il s'agissait du meme cache pour le visiteur et pour le "crawl caching proxy"...

Alors il n'ont qu'a liquider les caches ^^

Mais d'apres moi, le soucis est d'ordre technique, et pas seulement un probleme d'espace de stockage... on va pas me faire croire que google n'a pas de quoi se repayer des serveur!

Non, je pense qu'il s'agit peut etre d'un soucis de la gestion de leur index (étant donné sa taille?), ou alors un soucis logistique: superficie des infrastructure?!
 
WRInaute accro
Tiens je me demande quel est le poids des boîtes Spam de Gmail dans tout ça ?

Aussi, tous les supports (plateformes) permettant la mise en ligne de contenu de façon totalement gratuite (blogs, pages, etc...) qui n'ont plus du tout été mises à jour depuis des années, ça doit peser lourd mine de rien...

Je dois avoir "commis" quelques Mb de pages inutiles sur lycos et autres angelfire; il doit y'avoir pas mal de crasse sur les skyblogs, GooglePages n'en parlons pas... etc...

Bref y'a du bon Giga de crasse à nettoyer je pense... La question est "comment?" ;)
 
WRInaute impliqué
google a de plus gros problème qu'un simple manque d'espace, j'en parle déja ici https://www.webrankinfo.com/forum/t/le-reveil-de-big-daddy.51359/

Pourquoi google vient de me ressortir quasiment sur tous mes sites des milliers de pages qui n'existe plus depuis plus d'un an, certaines date de février 2005, ce problème est récurrent chez eux, en gros ils merdent avec certains sites, pkoi ???

On pourait d'ailleurs dés à présent tirer une ou deux déductions:

Nottement pour la baisse de traf pour certain et pas pour d'autre,

Pour les sites de plus d'un an uniquement, si votre site n'a pas bougé, vos pages non pas changé, le traf n'a guere évolué car vos pages était déja la ya un an, par contre pour ceux qui ont des pages qui ont été supprimé, ou évolué, le trafic forcément s'est cassé la gueule, car soit ca envoi sur du 404, soit désindexation,

ça pourrait être également une stratégie de google, de revenir un an en arrière en mélangeant des pages d'un an, et actuel (comme en ce moment), et soit de comparer, et d'accorder une plus grande valeur aux sites qui n'ont pas fait de grosse modifications, et au contraire ceux qui ont tout changé, les ignorés, en gros google aime les stables, ceux qui ne change pas la structure de leurs sites, ou de leur fichier, la lecon est quand vous sorter un site, au moins dans sa structure, sortait le définitif, et surtout ni touché plus aprés
 
WRInaute occasionnel
Si comme tu le dis ils gardent en cache des pages vieilles d'un an, pas étonnant qu'ils soient en panne d'espace disque 8O

EDIT : je viens de lire sur le très bon site de Malaiac que c'est peut-etre pour éviter qu'un spammeur mette en ligne une copie d'un ancien site banni ou blacklisté ...
 
WRInaute accro
yazerty a dit:
S'ils ont 200 000 machines, il leur suffit d'1 machine supplémentaire pour réindexer mes sites comme avant, non :D :lol: ;-).
Il doit avoir une *** de redondance nécessaire ^^.

C'est n'importe quoi que Google soit en manque d'espace disque.

Quoiqu'on en dise, pour "bien faire son boulot", il ne faut pas être limité par des conditions techniques, sinon c'est n'importe quoi ("tiens on crawle moins", "tiens on indexe moins de pages mais c'est pour la qualité" :p).


Ce qui est paradoxal, c'est qu'il aurait ptètre pu réfléchir avant de lancer des trucs genre Google Video.

Bref c'est louche tout ça :D.
 
WRInaute impliqué
je le répète, ce n'est pas possible que ce soit qu'un manque d'espace de stockage, ce serai ridicule pour une société comme google d'etre limité à ça
 
WRInaute accro
¨


Je reviens de New Delhi et le haut debit envahi l'Inde. Les indiens ne sont pas des noobs et je serais curieux de connaitre le nombre de sites qui se crée par jour dans ce pays en plein émergence. En France on doit tourner autour des 500-1000 sites créés quotidiennnent car de mon coté les référenceurs m'en envoie déjà 200 par jour et les référenceur avec lesquel je travail sont loin de couvrir toute la toile. En plus il est clair que des sites comme Webrankinfo font école car la qualité des sites s'améliorent et leur contenu est de plus en plus fourni donc plus de pages a indexer.. et que se passe t-il en Chine ? en amérique latine ?? pas évident que Google n'est pas un problème de mémoire..

¨
 
Discussions similaires
Haut