Interdire accès sauf pour . Googlebot

Biloubou · 22 Janvier 2014

Bonjour à tous,

Je me prends la tête sur une redirection depuis 2 jours en sachant que ça doit être tout con mais je n'y arrive pas !
Alors voici mon problème :

Sur mon site j'ai un dossier avec des fichiers PDF et accessoirement des EPUB. Ce que j'aimerais faire c'est compter le nombre de téléchargement de ces fichiers. J'ai à cet effet mis en place une page PHP qui permet le téléchargement et le comptage de ces fichiers après saisie d'une captcha, et jusque là tout fonctionne bien.

Mon problème est que Google a référencé tous mes PDF et EPUB et par conséquent les visiteurs de mon site peuvent contourner le système de comptage que j'ai mis en place.

Ce que j'aimerais faire est donc de rediriger les visiteurs qui accèdent directement à mon dossier contenant les PDF et EPUB sauf si c'est Googlebot.

Voici ce que j'ai mis dans mon htaccess et qui ne fonctionne pas :

Code:

RewriteCond %{HTTP_USER_AGENT} !Googlebot
RewriteRule /dossier_des_PDF_et_EPUB/.*(pdf|epub)$ ma_page_compteur.php [R=301,L]

Je suppose que c'est un problème de syntaxe. Quelqu'un pour m'aider ?

Biloubou · 22 Janvier 2014

Bon, j'ai fini par trouver tout seul. Voici la soluce si ça peut servir à quelqu'un d'autre. J'en ai profité pour autoriser les bots de Yahoo et Bing.

Code:

RewriteCond %{HTTP_USER_AGENT} !(.*Googlebot.*|.*Slurp.*|.*Bingbot.*) [NC]
RewriteRule /dossier_des_PDF_et_EPUB/.*(pdf|epub)$ ma_page_compteur.php [R=301,L]

Le seul petit problème c'est pour les petits malins qui changent leur user agent ... Et dans ce cas, je ne sais pas s'il y a une solution :roll:

zeb · 22 Janvier 2014

Biloubou a dit:
J'en ai profité pour autoriser les bots de Yahoo et Bing.
Slurp

Slurp ne crawle plus depuis des siècles en revanche des petits malin l'utilisent pour passer outre ... Penche toi sur les plages IP des moteurs en complément ou a la place.

WebRankInfo · 22 Janvier 2014

pour info, faire du cloaking en fonction du user agent des moteurs fait partie des choses les plus détestées par ces moteurs (je veux dire, interdites)
dans ce cas peut-être qu'il n'y a rien à craindre, mais je préfère faire la remarque

Biloubou · 22 Janvier 2014

zeb a dit:
Slurp ne crawle plus depuis des siècles en revanche des petits malin l'utilisent pour passer outre ... Penche toi sur les plages IP des moteurs en complément ou a la place.

Bah, je savais pas pour Slurp, merci pour l'info je vais le virer. Pour les plages IP, je verrai si le nombre de petits malins est important. :wink:

WebRankInfo a dit:
pour info, faire du cloaking en fonction du user agent des moteurs fait partie des choses les plus détestées par ces moteurs (je veux dire, interdites)
dans ce cas peut-être qu'il n'y a rien à craindre, mais je préfère faire la remarque

Merci aussi pour ta remarque. Si ça pose problème à Google, je leur expliquerai dans WMT le but recherché et s'ils ne veulent rien savoir j'interdirai l'accès à Googlebot, comme ça tout le monde sera content. Ce n'est pas si important que ça car les contenus des PDF et EPUB sont aussi disponibles en HTML sur le site. De plus, les internautes auront toujours accès à ces fichiers en passant par ma page PHP qui assure le téléchargement et le comptage.

L'indexation de ces PDF/EPUB est seulement un plus.

En tous cas merci encore pour vos conseils.

Leonick · 22 Janvier 2014

Biloubou a dit:
Ce n'est pas si important que ça car les contenus des PDF et EPUB sont aussi disponibles en HTML sur le site.

quel intérêt alors de les faire indexer ? pour créer du duplicate histoire de faire pénaliser ton site ? ou bien pour qu'au lieu d'envoyer les internautes sur ta page html il les envoie vers les pdf ?
moi j'interdirais à tous, y compris aux moteurs

Biloubou · 22 Janvier 2014

Salut Leonick,

Toujours sur le coup ! C'est pas la première fois que tu m'apportes ton aide il me semble 8)

Bonne question en effet, et pour que tu comprennes, le site est entièrement dédié à la promotion d'un bouquin qui est publié en différents formats numériques. Le but est évidemment de le diffuser sur le plus de supports possibles. D'où les versions HTML, PDF et EPUB.
Comme c'est un livre gratuit et que google a indexé les versions EPUB et PDF, bah les internautes le téléchargent directement sans visiter le site. D'autant que, du fait de sa gratuité, il est en téléchargement libre depuis pas mal d'autres sites dédiés au ebooks.

Donc mon but est d'envoyer en priorité les visiteurs sur le site officiel où ils pourront le télécharger, le lire en ligne et prendre connaissance des informations supplémentaires que le site contient. Bref, le but est d'augmenter son trafic tout simplement.

Ce qui en définitive valide ton conseil. Bah merci encore

mais faut que je vois ça avec l'éditeur car je peux pas prendre cette décision tout seul ... je ne suis que l'informaticien, comme il m'appelle :mrgreen:

rick38 · 23 Janvier 2014

Biloubou a dit:
Merci aussi pour ta remarque. Si ça pose problème à Google, je leur expliquerai dans WMT le but recherché et s'ils ne veulent rien savoir

Parce que tu crois que Google envoie un message quand l'algo pénalise un site pour cloaking ? :lol:

Biloubou · 23 Janvier 2014

J'ai sans doute loupé on wagon, si ce n'est le train tout entier, mais si le site est pénalisé pour cloaking, ne serait-ce pas une "action manuelle" visible dans Webaster Tools ?

De toute façon, je vois l'éditeur dans quelques jours et je pense qu'on va prendre la décision d'interdire purement et simplement l'accès direct au dossier des PDF/EPUB.

En conséquence, le site va perdre une petite centaine de backlinks qui pointent sur ce dossier ...
C'est vraiment un dilemme pour moi :roll: