403 forbidden : mauvais pour Google ?

Nouveau WRInaute
Bonsoir à tous,

Les visiteurs en provenance du site frequence-news (qui prend mes news grâce aux flux RSS de mon site) obtiennent désormais un 403 forbidden quand ils arrivent sur une page de mon site grâce au code suivant dans mon .htaccess :

SetEnvIfNoCase Referer "frequence-news.net" bad_ref
Deny from env=bad_ref

Question : le GoogleBot quand il suivra sur les liens de frequence-news (qui sont du style *ttp://www.frequence-news.net/clic.php?idnews=81302) ne va t-il pas croire que les vraies pages (*ttp://www.gamenews-fr.com/news/jeux-video/battlefield-2-%3a-pas-de-patch-1.4-pour-aujourd%27hui-20060815334.html par exemple) sont totalement indisponibles quand il remarquera que les pages sont en 403 forbidden ?

Plus simplement, est-ce-que ça pourrait causer des problèmes d'indexation ou non ?
 
Nouveau WRInaute
Et bien si tu veux, les url de frequence-news sont indexées sur Google et Google les prend finalement pour les vraies url (parce que ce sont des redirections 302) c'est pour ca que j'ai fait ce blocage.

J'espère donc que quand google verra ces 403 forbidden, il continuera quand même à indexer mes urls correctement. :?
 
Nouveau WRInaute
Aie... Dans ce cas là, quelle est la solution pour éviter que les urls de frequence-news se substituent aux miennes dans l'index de Google ?
 
WRInaute passionné
j'en sais rien

probablement demander au(x) webmaster de ce site de retirer cette redirection...


tu peux me monter un exemple de requette ou ca se substitue ?
 
Nouveau WRInaute
C'est très chiant de ne pas pouvoir observer quelles pages sont référencées et je suis quasi-certain que ca doit rabaisser la position des requêtes (les jeux vidéo et l'informatique, c'est pas vraiment le thème principal du site...). :?
 
WRInaute accro
Pourquoi proposer un flux rss si c'est pour l'interdire à toute personne qui voudrait l'utiliser ???
Dans le contenu du flux, tu n'es pas obligé de tout mettre. Ainsi, la personne, avide de savoir ce que contient la suite de l'article vient sur ton site.
Et comme ton article est long, mais que celui du site syndiqué fait une centaine de caractères tout au plus, pas de problèmes de duplicate content.

Sinon, tu interdit le chargement du flux depuis ce site (toujours via le referrer, mais sur le flux)
Ainsi, plus de flux, plus de contenu "volé" (entre guillemets hein puisque tu le propose quand même)
Mais plus de liens gratuits à chaque actualité que tu poste non plus.

p.s. : sur frequence-news actuellement, il y a une redirection vers gamenews-fr (301 probablement, j'ai pas vérifié)
Donc, aucun problème.
 
Nouveau WRInaute
Je crois que tu n'as pas tout compris :p .

Je propose mes flux RSS, c'est pour que tout le monde y ait accès, il n'y a pas de problèmes à ca (et à ce que frequence-news l'ajoute à son portail) et le contenu du flux ne contient pas tout. Seulement, la redirection effectuée par ce site est de type 302 donc je ne considère pas vraiment ça comme des liens gratuits... :roll:

Bref, ce n'est pas grave, je vais essayer de faire autrement (c'est pas la fin du monde hein). :wink:
 
WRInaute accro
Eh bien, il existe toujours la solution d'interdire l'accès à ton flux au referer de ce site web, ils ne mettront plus en place les nouvelles actualités, et plus de redirections 302.
 
WRInaute accro
Eh bien, lorsque le site web charge ton flux rss, il est bien obligé de l'ouvrir.
Et la, c'est la que ca se complique.
Je viens de faire un tour sur le site, il doit utiliser un robot d'indexation (charger les flux à la volée prendrait trop de temps au chargement)

Donc, il faut que tu trouve un élément distinguant ce robot. Ce peut être son useragent, son ip, son referer.

Pour cela, le mieux est de regarder les logs de visite de ton flux rss. De tenter de détecter lequel est frequence-news, voir ce qui ne change jamais chez eux (à mon avis, l'ip ne change pas, et ils ne doivent pas avoir la possibilité de la changer)
Et avec un .htaccess, ou en php, tu interdit l'acces au flux rss à ce robot.
 
Nouveau WRInaute
Arf... Problème : je n'ai pas le log de visite détaillé de mon flux RSS :?

Personne n'aurait dans les stats de son site web l'ip de leur bot par hasard (Frequence News - News Agent) :mrgreen: ?
 
WRInaute occasionnel
Tu devrais essayer de t'entendre avec eux (via email) et leur demander de retirer tes news...

L'ip de leur serveur web est : 195.140.140.138
 
Nouveau WRInaute
Si tu veux, à partir du moment où tu as demandé trois fois par email qu'ils retirent tes news et qu'ils ne répondent pas, je crois surtout que j'ai affaire à des égoïstes.

Sinon, tu es sûr que l'ip de leur serveur est la même que celle de leur bot ?
 
Nouveau WRInaute
Finalement, j'ai réussi à les bloquer en ajoutant les deux lignes suivantes dans mon .htaccess :

SetEnvIfNoCase User-Agent "Frequence News" bad_bot
Deny from env=bad_bot

:wink:
 
Discussions similaires
Haut