Fullcrawl en cours?

WRInaute occasionnel
Cette conversation revient souvent.
Il faudrait placer des agents témoins sur différents sites (un petit include sur quelques pages php) qui créraient un simple fichier texte contenant le nb de pages crawlées sur les 5 derniers jours (5 petits compteurs à incrémenter). Cela ne surchargerait pas les sites, n'occupe pas grand chose sur disque, ne requiert pas de base sql, et permettrait de consulter cette info par tout le monde depuis une URL identifiée. L'idéal étant qu'un serveur en central aille lire ce fichier tous les jours sur tous les sites de cette opération et consolide cela dans un graph mis à disposition de tous les participants. Si en plus on informe le serveur central du PR de la page principale du site, le graphe peut être évolué afin de produire une analyse sur 3 axes, (temps, pages, PR). Il faudrait aussi fournir l'info du nb de pages total du site et du nb de pages totales du site dans google, et du nb de pages ayant l'agent actif.
Ca vous branche ?
 
WRInaute discret
Digit a dit:
Cette conversation revient souvent.
Il faudrait placer des agents témoins sur différents sites (un petit include sur quelques pages php) qui créraient un simple fichier texte contenant le nb de pages crawlées sur les 5 derniers jours (5 petits compteurs à incrémenter). Cela ne surchargerait pas les sites, n'occupe pas grand chose sur disque, ne requiert pas de base sql, et permettrait de consulter cette info par tout le monde depuis une URL identifiée. L'idéal étant qu'un serveur en central aille lire ce fichier tous les jours sur tous les sites de cette opération et consolide cela dans un graph mis à disposition de tous les participants. Si en plus on informe le serveur central du PR de la page principale du site, le graphe peut être évolué afin de produire une analyse sur 3 axes, (temps, pages, PR). Il faudrait aussi fournir l'info du nb de pages total du site et du nb de pages totales du site dans google, et du nb de pages ayant l'agent actif.
Ca vous branche ?

ouaip, mais ça va qd mm demander bcp de hits, voir plusieurs connexions simultanées a la BDD -> serveur dedié...
 
WRInaute discret
la vache:

liste des crawlers hier:

crawler1.googlebot.com
crawler2.googlebot.com
crawler3.googlebot.com
crawler4.googlebot.com
crawler8.googlebot.com
crawler9.googlebot.com
crawler10.googlebot.com
crawler11.googlebot.com
crawler12.googlebot.com
crawler13.googlebot.com
crawler14.googlebot.com
crawler15.googlebot.com

ouf :lol:
 
WRInaute occasionnel
ouaip, mais ça va qd mm demander bcp de hits, voir plusieurs connexions simultanées a la BDD -> serveur dedié...
Non, je ne pense pas. Les compteurs sont calculés localement sur chaque site (lire le contenu du fichier, incrémenter le compteur, réécrire le fichier => pas de sql), récupérés une fois par jour en central, le graph est calculé en central une fois par jour pour générer les éléments statiques (page html, gif...). Les calculs peuvent être faits sans base de donnée (simple matrice à analyser).
Je propose d'héberger ces résultats et le moteur de calcul/consolidation, ainsi que les infos associées (liste et caractéristiques des sites participants, formulaires etc...). Je propose aussi de placer un lien en dur vers tous les sites participants afin qu'ils obtiennent une reversion de PR en échange de leur participation, comme ça c'est gagnant/gagnant.
Le tout peut être fait sous forme open-source / GNU et permettre à tout le monde d'améliorer le système.
 
WRInaute discret
Digit a dit:
Non, je ne pense pas. Les compteurs sont calculés localement sur chaque site (lire le contenu du fichier, incrémenter le compteur, réécrire le fichier => pas de sql), récupérés une fois par jour en central, le graph est calculé en central une fois par jour.

ok, exact. il n y aura pas de soucis

:arrow: Suis partant; go go go
 
WRInaute passionné
Moi je dis que c'est une excellente idée ! Ca avait été proposé il y a déjà plusieurs mois dans le cadre de GoogleStats, mais à ma connaissance ça s'était arrêté à des paroles...

aK.
 
WRInaute occasionnel
Pas de problème, si c'est lancé, je participe
Comme à priori ça intéresse du monde, j'ai commencé à préparer une page contenant toutes les infos ici.
L'agent est développé, je démarre le développement des inscriptions, ensuite je ferai le système de consolidation.
 
WRInaute impliqué
Un seul mot : Bravo et rapide lol
je m'occupe de mettre ça en place sur mon site lundi... peut être que ce code pourrait être inséré dans celui de robotstat? (avec une option en admin a cocher décocher???)
Ce qui permettrait de faire la même chose sur... l'ensemble des moteurs
Romain
 
WRInaute passionné
Moi aussi je suis partant, je vous suit ;)

Sinon je ne suis pas tout à fait d'accord avec David86 car, comme cela doit être le cas de plusieurs autre personne sur ce site, mon site est en asp, donc pas de RobotStat...
 
Olivier Duffez (admin)
Membre du personnel
il y a une version ASP de RobotStats qui est en train de voir le jour... + d'infos bientôt sur le forum RobotStats

sinon Digit, à quoi sert le checksum dans ton formulaire ?
 
WRInaute occasionnel
Le checksum sert à calculer le PR de la page principale du site, ce qui permet de générer des rapports en regroupant les sites par PR, car je pense qu'il y a une corrélation entre le PR, le nb de page, la qualité technique du site et la fréquence de passage.
Les rapports générés mettront justement cela en évidence.
Le système est prêt à recevoir les inscriptions, les rapports seront développés la semaine prochaine lorsque je pourrais récupérer quelques logs.
 
Discussions similaires
Haut