Crawl depuis ce matin

Discussion dans 'Crawl et indexation Google, sitemaps' créé par sdamain, 27 Janvier 2004.

  1. sdamain
    sdamain WRInaute passionné
    Inscrit:
    14 Octobre 2003
    Messages:
    1 070
    J'aime reçus:
    0
    Tous mes sites sont en train de se faire crawler depuis cette nuit.
    Meme chose chez vous?
     
  2. Digit
    Digit WRInaute occasionnel
    Inscrit:
    18 Avril 2003
    Messages:
    463
    J'aime reçus:
    3
    idem.

    Le plus simple pour le savoir serait d'inscrire vos sites ici :
    http://www.interclasse.com/tools/bot-analysis.php

    Une modification mineure des pages du site inscrit va permettre de consolider cette information pour en resortir des modèles. De plus les sites inscrits gagnent des BL ;)
     
  3. BadProcESs
    BadProcESs WRInaute passionné
    Inscrit:
    28 Juillet 2003
    Messages:
    1 841
    J'aime reçus:
    0
    Pareillement, ca crawl bien depuis ce matin.

    Digit > C'est l'utilitaire dont tu nous parlais dans un précédent post qui est déjà prêt ?? Je me serais bien inscrit mais il est en php... Et mon site est en asp !
     
  4. bertotj
    bertotj WRInaute occasionnel
    Inscrit:
    12 Janvier 2004
    Messages:
    311
    J'aime reçus:
    0
    Ben je vais modifier toutes mes pages et je vais m inscrire ... c est cool ca ..

    MERCI
     
  5. Digit
    Digit WRInaute occasionnel
    Inscrit:
    18 Avril 2003
    Messages:
    463
    J'aime reçus:
    3
    C'est exact. En fait il manque juste la génération des rapports, mais elle ne peut être faite que lorsque j'ai des données de plusieurs sites. Ce qui est le cas depuis aujourd'hui, donc je vais m'y mettre.
    reports coming soon...
     
  6. DAVID86
    DAVID86 WRInaute impliqué
    Inscrit:
    15 Octobre 2003
    Messages:
    834
    J'aime reçus:
    0
    :) et c'est tout simple a installer alors , allez tout le monde, qu'on ait quelquechose de représentatif de la communauté de WRI!!
     
  7. Suede
    Suede WRInaute passionné
    Inscrit:
    4 Octobre 2002
    Messages:
    2 474
    J'aime reçus:
    0
    Bonne idée!
    Inscrit !
    J'ai en gros 6000 pages crawlés par Google.
    A noter que ton script prend en compte les Media Partner. D'après ce que j'avais entendu, les pages crawlées par Mediapartner sont incluses dans l'index par la suite donc ca ne devrait pas perturber trop.

    François
     
  8. Suede
    Suede WRInaute passionné
    Inscrit:
    4 Octobre 2002
    Messages:
    2 474
    J'aime reçus:
    0
    Info pour les sites hébergés sur Lycos :
    La première ligne est à remplacer par
    Code:
     $FileName=BASE_DIR.'googlelog.txt'; //Nom complet du fichier local sur le serveur
    François
     
  9. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 464
    J'aime reçus:
    612
    non, les pages crawlées par Mediapartner ne sont pas incluses dans l'index de Google !
    et puis c'est dommage si le script mélange les visites de GoogleBot standard et GoogleBot Mediapartner...
     
  10. Digit
    Digit WRInaute occasionnel
    Inscrit:
    18 Avril 2003
    Messages:
    463
    J'aime reçus:
    3
    Pouvez-vous me fournir la signature du bot de Mediapartner afin que je modifie l'agent ?

    Pour info, l'ébauche des premiers rapports est en ligne. Actuellement seuls des sites de PR 5,6 et 7 sont inscrits mais la proportion des pages crawlées selon le PR semble être au moins 1 pour 3 : 3 fois plus de page (ou fréquence) crawlées pour les sites à PR 7 que ceux à PR 6 par exemple.
     
  11. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 464
    J'aime reçus:
    612
    Code:
    Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)
     
  12. DAVID86
    DAVID86 WRInaute impliqué
    Inscrit:
    15 Octobre 2003
    Messages:
    834
    J'aime reçus:
    0
    j'ai deux sites PR4 et un PR3 à y mettre si c'est intéressant...
     
  13. Digit
    Digit WRInaute occasionnel
    Inscrit:
    18 Avril 2003
    Messages:
    463
    J'aime reçus:
    3
    C'est très intéressant, il n'y a pas encore de site à "petit" pr
     
  14. DAVID86
    DAVID86 WRInaute impliqué
    Inscrit:
    15 Octobre 2003
    Messages:
    834
    J'aime reçus:
    0
    bon... par contre, va falloir attendre plus longtemps que google passe pour eux... Pourquoi ne peut on pas valider le formulaire avant le premier passage de google?
    Romain
     
  15. Digit
    Digit WRInaute occasionnel
    Inscrit:
    18 Avril 2003
    Messages:
    463
    J'aime reçus:
    3
    Car la présence du fichier permet de vérifier que le système est bien en place. C'est un petit filtre pour les sites qui s'inscriraient juste pour le BL sans contribuer.
     
  16. DAVID86
    DAVID86 WRInaute impliqué
    Inscrit:
    15 Octobre 2003
    Messages:
    834
    J'aime reçus:
    0
    celui de PR4 a été visité, mais celui de PR3, visiblement, c'est pas tout les jours :D
     
  17. DAVID86
    DAVID86 WRInaute impliqué
    Inscrit:
    15 Octobre 2003
    Messages:
    834
    J'aime reçus:
    0
    petit problème:
    (0)
    Accès impossible à Formation, éducation et recherche en éducation en environnement

    voila les données que je donne au formulaire:
    Education et recherche en éducation en environnement
    -http://www.education-environnement.org
    62930590254
    -http://www.education-environnement.org/googlelog.txt
    david at ifree-ore.org
    25

    googlelog.txt a les accès nécessaires
    Tu peux 'indiquer ce qui ne va pas? :)
    Romain
     
  18. Suede
    Suede WRInaute passionné
    Inscrit:
    4 Octobre 2002
    Messages:
    2 474
    J'aime reçus:
    0
    -http://www.interclasse.com/tools/bot-analysis.php?info=8
    Juste une question, il est calculé comment le nombre de pages connues de Google? Je trouve que j'en ai beaucoup...

    François
     
  19. Digit
    Digit WRInaute occasionnel
    Inscrit:
    18 Avril 2003
    Messages:
    463
    J'aime reçus:
    3
    Peut-être que c'est à cause du nom de domaine qui ne finit pas par "/". Pourtant pour ton autre domaine ça fonctionne, donc il faut faire pareil.
     
  20. Digit
    Digit WRInaute occasionnel
    Inscrit:
    18 Avril 2003
    Messages:
    463
    J'aime reçus:
    3
    Il y en a un paquet, il y a eu probablement un problème, je n'ai pas identifié la cause. Le souci c'est que les calculs sont faits une fois par jour seulement, donc ça ne se rattrape pas. Je vais creuser le point.
     
  21. Suede
    Suede WRInaute passionné
    Inscrit:
    4 Octobre 2002
    Messages:
    2 474
    J'aime reçus:
    0
    Est-ce que ca peut venir de membres.lycos.fr vs membres.lycos.fr/suede/ ?

    François
     
  22. Digit
    Digit WRInaute occasionnel
    Inscrit:
    18 Avril 2003
    Messages:
    463
    J'aime reçus:
    3
    C'est exactement cela, je cherche sur l'hote et non pas sur l'url complète. Je ne sais pas comment corriger, quand je fais un allinurl:http://membres.lycos.fr/suede/ site:http://membres.lycos.fr/suede/ ça ne donne rien. Si quelqu'un connaît la requête Google pour les sites qui ne sont pas des noms de domaines, je suis preneur.
     
  23. Suede
    Suede WRInaute passionné
    Inscrit:
    4 Octobre 2002
    Messages:
    2 474
    J'aime reçus:
    0
    Un simple allinurl: "membres.lycos.fr/suede/" donne 5680 pages :)

    François
     
  24. Digit
    Digit WRInaute occasionnel
    Inscrit:
    18 Avril 2003
    Messages:
    463
    J'aime reçus:
    3
    Merci, je cherchais trop compliqué. J'ai corrigé.
     
  25. Suede
    Suede WRInaute passionné
    Inscrit:
    4 Octobre 2002
    Messages:
    2 474
    J'aime reçus:
    0
    J'ai vu :)
    Par contre, j'ai qqs différences entre googlestat et ton script. Je vais essayer de voir s'il n'y a pas des pages qui sont passées à travers.

    François
     
  26. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 464
    J'aime reçus:
    612
    je pense que la vraie bonne façon de faire la requête est celle-ci :
    Code:
    allinurl:membres.lycos.fr/suede site:membres.lycos.fr
    ça évite de compter les pages reprenant une partie de tes URL dans les leurs. il n'y en a pas beaucoup mais ça arrive (certains annuaires, ou quelques sites d'archives)

    exemple parlant : http://web.archive.org/web/200302190535 ... kinfo.com/ (la vieille version de WRI...)
     
  27. mahefarivony
    mahefarivony WRInaute accro
    Inscrit:
    14 Octobre 2002
    Messages:
    8 176
    J'aime reçus:
    0
    c'est trop kitsch :mrgreen:
     
  28. DAVID86
    DAVID86 WRInaute impliqué
    Inscrit:
    15 Octobre 2003
    Messages:
    834
    J'aime reçus:
    0
    a ce propos, tu as prévu de faire bosser un infographiste sur le graphisme de wri??? Pas qu'il soit moche, mais je suis sur qu'il y a moyen de lui donner un grain plus... fin :)
    Romain
     
  29. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 464
    J'aime reçus:
    612
    ce sera pour la v3 de WRI... dont la date n'est pas encore fixée !
     
  30. acroduweb
    acroduweb WRInaute discret
    Inscrit:
    16 Mars 2003
    Messages:
    68
    J'aime reçus:
    0
    Salut,
    Je suis en train d'installer l'agent sur mes sites, juste je comprends pas l'astuce avec la signature du navigateur pour verifier?
    Merci
     
  31. kob-one
    kob-one WRInaute discret
    Inscrit:
    25 Juin 2003
    Messages:
    100
    J'aime reçus:
    0
    Si besoin d'un web design au passage jme permet de dire que si ça t'interesse c'est un peu mon travail :D . Donc tu peux voir mon modeste book de réalisation au -www.kob-one.com ...
    Dans le futur pour ta V3 éventuellement si ça t'interesse... on sais jamais on peut en discuter...
     
  32. Digit
    Digit WRInaute occasionnel
    Inscrit:
    18 Avril 2003
    Messages:
    463
    J'aime reçus:
    3
    J'ai fait avancer un peu les rapports, ça commence à prendre forme.
    Deux types de rapports sont en place : les rapports communs mutualisant les données de tous les sites, et les rapports individuels présentant l'historique de chaque site enregistré.
    Avec une dizaine de sites inscrits, ça fait un peu juste comme échantillon, mais pourtant on peut déjà émettre quelques remarques.
     
Chargement...
Similar Threads - Crawl matin Forum Date
Problème récent de Crawl Google Crawl et indexation Google, sitemaps 7 Juillet 2021
faut-il activer les URL image ou éviter pour économiser le crawl Référencement Google 21 Juin 2021
Signaler aux crawler de ne pas suivre un lien qui nécessite une connexion Crawl et indexation Google, sitemaps 9 Juin 2021
Urls filtrées indexées et crawl robots.txt Crawl et indexation Google, sitemaps 19 Mai 2021
Crawl et indexation Landing Page (site en création) Débuter en référencement 25 Mars 2021
Critères de tri en GET et budget crawl Référencement Google 25 Février 2021
Stimuler GoogleBot pour crawler de nouvelles pages Crawl et indexation Google, sitemaps 24 Janvier 2021
Crawl prédictif Google : pourquoi c'est majeur en SEO Techniques avancées de référencement 17 Décembre 2020
Search Console Suivi du crawl Google (Statistiques sur l'exploration) Crawl et indexation Google, sitemaps 9 Décembre 2020
Comment éviter un piège à bots avec un crawler ? Crawl et indexation Google, sitemaps 3 Décembre 2020