crawl (exploration)

  1. D

    Version en cache de Google différente : piratage ?

    Bonjour à toute la communauté WRI, Votre avis et/ou retours d'expérience m'intéressent par rapport à un phénomène que je rencontre depuis maintenant 1 an. Ni agences SEO ni consultants senior n'ont pu trouver une explication à ce problème (et dieu sait que j'ai demandé à des pointures de...
  2. julienr

    Bcp de crawl amp pour peu de résultat

    Bonjour, Je vois que google crawl systématiquement la page amp correspondante, mais dans les fait elles ne sortent pas dans les résultats, du coup je me demande si ca vaut le coup de continuer amp sachant que peut être elles comptent dans mon temps de crawl et donc au détriments des pages...
  3. nantesweb

    Cocon sémantique, nofollow et disallow au troisième niveau

    Bonjour, Je travaille sur des cocons. Pour pouvoir respecter ceux-ci, il faut éviter que ça s'éparpille partout pour avoir vraiment une structure en silo. J'ai déjà à moitié la réponse pour le nofollow et le robots.txt sur les pages annexes (mentions, vie privée, cgv) mais pas sur le menu...
  4. Sébastien Billard

    Taille max cache Google ?

    Bonjour, Savez-vous s'il existe actuellement une limite de taille pour le cache Google ? Il y a trèèèès longtemps (je parle d'un temps que les moins de 20 ans ne doivent pas connaître) Google allait jusqu'à 101 ko, mais cette limite avait sauté. Or j'ai un site actuellement dont les pages en...
  5. X

    Projet : Crawler de site pour mise en cache chez Fasterize

    Hello à tous, Un de mes sites (sous prestashop) utilise actuellement le système de mise en cache de Fasterize. Cela permet de décharger considérablement mon serveur et permet donc un chargement beaucoup plus rapide des pages. Toutes fois, dès qu'une modification est effectuée sur le site, je...
  6. S

    Comment crawler la version mobile de mon site?

    Bonjour, voilà mon souci: j'ai une boutique en ligne sous prestashop 1.6 avec le thème par défault responsive, j'ai un module qui met les pages de mon site en cache, Pour générer le cache j'utilise le logiciel Xenu's link sleuth, Xenu crawl les pages en version PC donc les versions PC toutes...
  7. N

    Crawl Robots.TXT

    Bonjour, Google crawl toujours mon ancien robots.txt A chaque fois il me sort en erreur mes vielles pages de mon site web. J'ai basculé mon site en https au mois de mars 2017. Pensez vous que c cela qui pose le problème Le problème est identique avec bing qui vient de me desindexer depuis...
  8. E

    Robots.txt et syntaxe de Disallow

    Bonjour, Sur mon site j'ai beaucoup de pages de type : https://www.monsite.fr/page.html?code=82&idpartenaire=60876 Ne souhaitant pas que Google les indexe, j'ai placé dans mon robots.txt la ligne : Disallow:/page.html Mais Google les indexe quand même ... ! Ma syntaxe est-elle mauvaise ...
  9. P

    Robots.txt ligne génante selon Googlebot votre avis ?

    bonjour à tous, sur mon CMS prestashop j'ai cette ligne qui est considérée comme "erreur grave" dans GWT (outil test robots.txt) : Disallow: /*? faut-il la supprimer car elle bloque google pour accéder au dossier images mais en même temps est-ce qu'en la supprimant, Google va se mettre à indexer...
  10. T

    Pagination et Seo

    Bonjour, J'ai cherche sur le forum un ticket sur la pagination SEO mais rien trouvé du coup me voilà et je pense que ça peut interessé pas mal de monde. Voilà j'ai un site de proposant des activité selon la ville demandée J'ai donc plussieurs page par ville. J'ai juste fait cela, est ce...
  11. F

    Impact gestion paramètre url sur Googlebot

    Hello tout le monde, Après avoir commencer une analyse de log sur mon site, je viens de m'apercevoir que googleBot passe environ 50% de son temps à crawler des pages (environ 150k pages par mois) avec des paramètres de tracking dans les urls ainsi que des paramètre de sessions, qui n'ont donc...
  12. D

    Probleme supression pagination dans wordpress

    Bonjour, J'ai supprimé la pagination de mes pages, avant la suppression une page pouvait être découpée comme suit : http://www.dicotravail.com/convention-collective/boulangerie-patisseri ... -idcc-843/ http://www.dicotravail.com/convention-collective/boulangerie-patisseri ... dcc-843/2/...
  13. S

    Présentation Prestacrawl

    Bonjour, Je souhaite vous présenter un nouveau crawler Seo https://www.prestacrawl.com/ . Prestacrawl est un outil de diagnostic Seo permettant d'analyser en profondeur votre site Web. Il aspire toutes les pages de votre site et en déduit des indicateurs techniques et Seo. Ce site s'adresse...
  14. thomask

    Comment interdire le crawl des pages de faibles valeurs (Noindex ; Nofollow ; Disallow ?)

    Lors de crawl sur mon site, je me suis rendu compte que j'avais presque 30 000 pages, pour seulement 6 000 produits. Pour chacun de mes articles, plusieurs url sont créés : recommandé produit X à un ami, détail de livraison pour produit X, vous avez à une question sur produit X, etc... Ces...
  15. rédac cabanes

    Sitemaps images et disallow repertoire

    Bonjour, mon site en SPIP à la particularité de mettre en disallow sur le robot.txt le repertoire /local/ où se trouve les images. Bravo...Selon des topics, ce fichier crée des erreurs d'indéxation car il y a des fichiers vignettes notamment et les préconisations sont de créer un sitemap avec...
  16. D

    Title et h1 sous wordpress en cas de pagination

    Bonjour, J'ai des page paginé sous wordpress, exemple : http://www.dicotravail.com/convention-collective/coiffure-jo-3159-idcc-2596/ Pour cette page il y a 3 pages différentes issu de la pagination. Le problème : je me retrouve avec des balise title et h1 similaire sur toutes les 3 pages ...
  17. R

    Crawl : 500 - Internal Server Error

    Bonjour, Mon site est en ligne et accessible. Le problème, c'est que quand j'essaye d'effectuer une analyse On-site, J'ai les message d'erreur "500 - Internal Server Error" Aussi, la plugin Yoast SEO de wordpress m'affiche que j'ai un probléme d'indexation. Est ce que il y'a une solution pour...
  18. Icipierrot

    Crawl-delay : ça marche toujours ?

    Bonjour à toutes et à tous, Mon GWT/exploration/outils de test du fichier robots.txt me colle un avertissement en face de la mention Crawl-delay: 10. Puis lorsque je passe ma souris sur l'icône d'avertissement, il me dit « Règle ignorée par Googlebot ». Bon :? . Je vais quand même sur...
  19. B

    [URGENT] Un site remplace mes liens dans le cache Google

    Bonjour, Lorsque je tape : https://webcache.googleusercontent.com/search?q=cache:www.monsite.com https://webcache.googleusercontent.com/search?q=cache:monsite.com Je vois que c'est bien mon site affiché, mais tous les liens ne sont pas du tout les miens. Je me suis fait hacké le site et...
  20. C

    Comment empêcher le crawl sur les pages "filter" et "order"

    Bonjour, Pour un site de 160 pages je découvre grâce à un crawler qu'il y a plus de 1000 url. La plupart des url "excédentaires" sont des url qui correspondent à des résultats de recherche de produit sur le site (moteur de recherche interne) ou tri des produits par des filtres et aussi par...
Haut