Google bot c'est vraiment une logique binaire ^^

Discussion dans 'Crawl et indexation Google, sitemaps' créé par JeunZ, 3 Décembre 2004.

  1. JeunZ
    JeunZ WRInaute accro
    Inscrit:
    18 Février 2004
    Messages:
    3 971
    J'aime reçus:
    0
    J'ai un petit problème, j'ai fait une premiere version d'url rewriting de mon forum, avec par exemple des liens comme ceci:

    monsite.com/forum/message_XXXX.html


    comme on peut retrouver sur WRI (je crois), et ca envoyait à l'endroit PILE d'un post sur le forum. Donc environ 70 000 liens comme ça ont existait sur mon forum, et google les as déjà crawlé.


    Mais depuis quelques temps, j'ai viré tous ces liens, plsu auccun n'apparait sur mon forum j'ai voulu privileger ce type d'url:

    monsite.com/forum/xxx_titre_du_topic.html


    mais googlebot à bonne mémoire et il se souvient des anciennes pages, et il continu à les crawler très fortement, et le pire c'est que ces pages en pratique existent, donc il va continuer at vitae eternam? Meme si plus aucune page ne les link?

    Ca me fait du contenu dupliqué ça.


    Comment l'en empecher à votre avis?
     
  2. Tex
    Tex WRInaute occasionnel
    Inscrit:
    9 Juillet 2004
    Messages:
    346
    J'aime reçus:
    0
    faut dire a google de plus passer sur ces pages, donc robots.txt ou htaccess ..
     
  3. schtroumpf
    schtroumpf WRInaute occasionnel
    Inscrit:
    26 Octobre 2003
    Messages:
    355
    J'aime reçus:
    0
    Pourquoi les anciennes pages existent -elles en pratique? Vire le rewriting des anciennes pages et elles n'existeront plus. Enfin, c'est mon avis...

    Arnaud
     
  4. mahefarivony
    mahefarivony WRInaute accro
    Inscrit:
    14 Octobre 2002
    Messages:
    8 176
    J'aime reçus:
    0
    70 000 404 bachées ? :)
     
  5. JeunZ
    JeunZ WRInaute accro
    Inscrit:
    18 Février 2004
    Messages:
    3 971
    J'aime reçus:
    0
    je ne vois pas se que je pourrai mettre dans le robots.txt pour emepcher de visiter ces pages, car c'est des pages url rewrités.


    Virer la réécriture en message_xxx.html ca voudrait dire comme sous entend mahe 70 000 pages en 404 c'est pas très pro.


    Je voudrais simplement qu'il arrete de les crawler, et ensuite je virerai la regle de réécriture.


    Il a bien arreté de crawler directement mes anciennes anciennes pages viextopic.php?t=xxxx il a comprit que il n'y avait plus de liens vers ce genre de pages mais pour les messages_xxx.html malgré le fait qu'il n'y ai plus de lien il continu.

    Et je suis vert quand je vois des milliers et des milliers de crawls sur des pages que je ne vois plus apparaitre.


    Y a pas de solutions? :-( Sans faire des 404 à gogo. Juste lui dit d'arreter de crawler ça.
     
  6. schtroumpf
    schtroumpf WRInaute occasionnel
    Inscrit:
    26 Octobre 2003
    Messages:
    355
    J'aime reçus:
    0
    Si tu fait une redirection 301 des anciennes url vers les nouvelles? Je pense que ça doit pas être trop dur à faire.

    Arnaud
     
  7. JeunZ
    JeunZ WRInaute accro
    Inscrit:
    18 Février 2004
    Messages:
    3 971
    J'aime reçus:
    0
    Et bien si... Car message_xxx.html est le lien vers un post sur un forum alors que les urls que j'ai sont des topics sur un forum.


    Faire une corelation entre post et topic avec en plus gestion des différentes pages quand un topic depasse 15 posts.


    T'imagine tout se qu'il faut coder, autant j'aime bien coder, j'ai fait l'url rewritting avec mot clef dans le titre moi meme, autant ça ce serait de la folie.
     
  8. schtroumpf
    schtroumpf WRInaute occasionnel
    Inscrit:
    26 Octobre 2003
    Messages:
    355
    J'aime reçus:
    0
    Ok, je vois pas sinon.

    Arnaud
     
  9. Cendrillon
    Cendrillon WRInaute accro
    Inscrit:
    17 Août 2004
    Messages:
    3 650
    J'aime reçus:
    0
    reste avec ta 1re version d'UR ... de toute façon c'est pas bon pour ton ref de changer plusieurs fois ... :wink:
     
  10. JeunZ
    JeunZ WRInaute accro
    Inscrit:
    18 Février 2004
    Messages:
    3 971
    J'aime reçus:
    0
    oui mais meme dans ma premiere version je n'aurai jamais du faire une page message_xxx.html pour les "post" car ca fait des duplicate contents avec les viewtopic de toute façon.

    Y a qu'a voir Wri, il a viré le petit lien qui se trouvé normalement juste avant chacun de nos post avant le: "Posté le : Ven Déc 03" Normalement il y a une image à cet endroit avec un lien vers le post exact.

    (je comprend du reste pas pourquoi Olivier à viré l'image, il aurait pu virer le lien en laissant l'image blanche ou orange en fonction du fait que oui ou non on a déjà vu le post).
     
  11. niceunef
    niceunef WRInaute passionné
    Inscrit:
    19 Janvier 2004
    Messages:
    1 380
    J'aime reçus:
    0
    Une page et ses extraits, ca ne fait pas vraiment de duplication en fait.
    Sinon le robots.txt ne met pas la page en 404, il conseille aux robots de ne plus y aller, donc ca peut aider.
    Tu peux aussi protéger par des meta noindex (surtout si ce sont des pages "message" distinctes des pages "topic", bref sans empiéter sur les pages a garder).
    Ou aussi bannir les IPs des robots cherchant a voir ces pages?
    S'il n'y a plus du tout (meme dans les messages postés) de liens vers ces URLs, ca devrait aller. Mais si elles se font des liens entre elles, c'est pas gagné...
    Voir la FAQ de Google pour supprimer des pages de l'index
     
Chargement...
Similar Threads - Google bot vraiment Forum Date
Urls orphelines crawlées par Google + Robots.txt ? Crawl et indexation Google, sitemaps 3 Avril 2020
Comment augmenter la fréquence de passage de GoogleBot Crawl et indexation Google, sitemaps 10 Décembre 2019
Site inaccessible pour GoogleBot Crawl et indexation Google, sitemaps 21 Octobre 2019
En décembre 2019 changement de l'user agent de Googlebot Crawl et indexation Google, sitemaps 5 Octobre 2019
Google bot + paramètre url Développement d'un site Web ou d'une appli mobile 22 Août 2019
googlebot crawle des pages inexistantes Crawl et indexation Google, sitemaps 16 Août 2019
Les pages 404 avec googlebot Crawl et indexation Google, sitemaps 14 Juin 2019
Evergreen Googlebot, basé sur Chromium (Chrome open source) Référencement Google 9 Mai 2019
Empêcher Googlebot de crawler/indexer tout un dossier Débuter en référencement 19 Avril 2019
GoogleBot scan url inexistante Crawl et indexation Google, sitemaps 17 Avril 2019