Interdire accès sauf pour . Googlebot

Discussion dans 'URL Rewriting et .htaccess' créé par Biloubou, 22 Janvier 2014.

  1. Biloubou
    Biloubou Nouveau WRInaute
    Inscrit:
    11 Juillet 2011
    Messages:
    30
    J'aime reçus:
    0
    Bonjour à tous,

    Je me prends la tête sur une redirection depuis 2 jours en sachant que ça doit être tout con mais je n'y arrive pas !
    Alors voici mon problème :

    Sur mon site j'ai un dossier avec des fichiers PDF et accessoirement des EPUB. Ce que j'aimerais faire c'est compter le nombre de téléchargement de ces fichiers. J'ai à cet effet mis en place une page PHP qui permet le téléchargement et le comptage de ces fichiers après saisie d'une captcha, et jusque là tout fonctionne bien.

    Mon problème est que Google a référencé tous mes PDF et EPUB et par conséquent les visiteurs de mon site peuvent contourner le système de comptage que j'ai mis en place.

    Ce que j'aimerais faire est donc de rediriger les visiteurs qui accèdent directement à mon dossier contenant les PDF et EPUB sauf si c'est Googlebot.

    Voici ce que j'ai mis dans mon htaccess et qui ne fonctionne pas :

    Code:
    RewriteCond %{HTTP_USER_AGENT} !Googlebot
    RewriteRule /dossier_des_PDF_et_EPUB/.*(pdf|epub)$ ma_page_compteur.php [R=301,L]
    Je suppose que c'est un problème de syntaxe. Quelqu'un pour m'aider ?
     
  2. Biloubou
    Biloubou Nouveau WRInaute
    Inscrit:
    11 Juillet 2011
    Messages:
    30
    J'aime reçus:
    0
    Bon, j'ai fini par trouver tout seul. Voici la soluce si ça peut servir à quelqu'un d'autre. J'en ai profité pour autoriser les bots de Yahoo et Bing.

    Code:
    RewriteCond %{HTTP_USER_AGENT} !(.*Googlebot.*|.*Slurp.*|.*Bingbot.*) [NC]
    RewriteRule /dossier_des_PDF_et_EPUB/.*(pdf|epub)$ ma_page_compteur.php [R=301,L]
    
    Le seul petit problème c'est pour les petits malins qui changent leur user agent ... Et dans ce cas, je ne sais pas s'il y a une solution :roll:
     
  3. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 192
    J'aime reçus:
    1
    Slurp ne crawle plus depuis des siècles en revanche des petits malin l'utilisent pour passer outre ... Penche toi sur les plages IP des moteurs en complément ou a la place.
     
  4. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 659
    J'aime reçus:
    433
    pour info, faire du cloaking en fonction du user agent des moteurs fait partie des choses les plus détestées par ces moteurs (je veux dire, interdites)
    dans ce cas peut-être qu'il n'y a rien à craindre, mais je préfère faire la remarque
     
  5. Biloubou
    Biloubou Nouveau WRInaute
    Inscrit:
    11 Juillet 2011
    Messages:
    30
    J'aime reçus:
    0
    Bah, je savais pas pour Slurp, merci pour l'info je vais le virer. Pour les plages IP, je verrai si le nombre de petits malins est important. :wink:
    Merci aussi pour ta remarque. Si ça pose problème à Google, je leur expliquerai dans WMT le but recherché et s'ils ne veulent rien savoir j'interdirai l'accès à Googlebot, comme ça tout le monde sera content. Ce n'est pas si important que ça car les contenus des PDF et EPUB sont aussi disponibles en HTML sur le site. De plus, les internautes auront toujours accès à ces fichiers en passant par ma page PHP qui assure le téléchargement et le comptage.

    L'indexation de ces PDF/EPUB est seulement un plus.

    En tous cas merci encore pour vos conseils.
     
  6. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 414
    J'aime reçus:
    0
    quel intérêt alors de les faire indexer ? pour créer du duplicate histoire de faire pénaliser ton site ? ou bien pour qu'au lieu d'envoyer les internautes sur ta page html il les envoie vers les pdf ?
    moi j'interdirais à tous, y compris aux moteurs
     
  7. Biloubou
    Biloubou Nouveau WRInaute
    Inscrit:
    11 Juillet 2011
    Messages:
    30
    J'aime reçus:
    0
    Salut Leonick,

    Toujours sur le coup ! C'est pas la première fois que tu m'apportes ton aide il me semble 8)

    Bonne question en effet, et pour que tu comprennes, le site est entièrement dédié à la promotion d'un bouquin qui est publié en différents formats numériques. Le but est évidemment de le diffuser sur le plus de supports possibles. D'où les versions HTML, PDF et EPUB.
    Comme c'est un livre gratuit et que google a indexé les versions EPUB et PDF, bah les internautes le téléchargent directement sans visiter le site. D'autant que, du fait de sa gratuité, il est en téléchargement libre depuis pas mal d'autres sites dédiés au ebooks.

    Donc mon but est d'envoyer en priorité les visiteurs sur le site officiel où ils pourront le télécharger, le lire en ligne et prendre connaissance des informations supplémentaires que le site contient. Bref, le but est d'augmenter son trafic tout simplement.

    Ce qui en définitive valide ton conseil. Bah merci encore :D mais faut que je vois ça avec l'éditeur car je peux pas prendre cette décision tout seul ... je ne suis que l'informaticien, comme il m'appelle :mrgreen:
     
  8. rick38
    rick38 WRInaute passionné
    Inscrit:
    23 Février 2013
    Messages:
    1 467
    J'aime reçus:
    194
    Parce que tu crois que Google envoie un message quand l'algo pénalise un site pour cloaking ? :lol:
     
  9. Biloubou
    Biloubou Nouveau WRInaute
    Inscrit:
    11 Juillet 2011
    Messages:
    30
    J'aime reçus:
    0
    J'ai sans doute loupé on wagon, si ce n'est le train tout entier, mais si le site est pénalisé pour cloaking, ne serait-ce pas une "action manuelle" visible dans Webaster Tools ?

    De toute façon, je vois l'éditeur dans quelques jours et je pense qu'on va prendre la décision d'interdire purement et simplement l'accès direct au dossier des PDF/EPUB.

    En conséquence, le site va perdre une petite centaine de backlinks qui pointent sur ce dossier ...
    C'est vraiment un dilemme pour moi :roll:
     
Chargement...
Similar Threads - Interdire accès Googlebot Forum Date
Interdire l'accès de GoogleBot à une page Crawl et indexation Google, sitemaps 23 Juillet 2011
Interdire l'accès au un site aux concurrents Droit du web (juridique, fiscalité...) 30 Janvier 2017
interdire l'accés de certains pays avec le ht.access URL Rewriting et .htaccess 15 Mai 2016
Comment interdire TOUS les moteurs de recherche en utilisant le htaccess? URL Rewriting et .htaccess 7 Mai 2013
Interdire l'acces au fichier Robots Débuter en référencement 13 Février 2012
interdire l'accès à une page php Le café de WebRankInfo 7 Octobre 2011
Interdire l'accès direct a un dossier via un navigateur ? Administration d'un site Web 16 Février 2011
Interdire l'acces à des Urls commençant par... Débuter en référencement 9 Janvier 2011
HTACCESS : Interdire les bots dont l'URL contient une chaîne spécifiée URL Rewriting et .htaccess 13 Décembre 2010
Interdire l'accès a certains dossiers, fichiers avec un .htaccess et. URL Rewriting et .htaccess 16 Octobre 2010
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice