Empecher le crawl d'un lien avec robots.txt

dumbel · 2 Avril 2009

Bonjour,

je souhaiterais ne pas utiliser le rel=nofollow pour l'un des liens externes de mon site.
J'ai donc eu l'idée d'empêcher le crawl de ce lien par l'intermédiaire du "robots.txt" du style:

Disallow: http://www.lelienexterne.tld/page.html

J'ai bon :?:

jeanluc · 2 Avril 2009

Ben non. :?

On ne peut mettre que des liens internes dans robots.txt.

Jean-Luc

Nikola · 2 Avril 2009

dumbel a dit:
Bonjour,

je souhaiterais ne pas utiliser le rel=nofollow pour l'un des liens externes de mon site.
J'ai donc eu l'idée d'empêcher le crawl de ce lien par l'intermédiaire du "robots.txt" du style:

Disallow: http://www.lelienexterne.tld/page.html

J'ai bon :?:

Yes !

Exemple :
Dans robot.txt :

User-Agent: *
Disallow: /ton-repertoire/ta-page.html

Il me semble que via google webmaster tools, tu peux signaler ton robot.txt , c'est préférable.

jeanluc · 2 Avril 2009

Hem, hem, hem,... :roll:

Jean-Luc

GUITEL · 2 Avril 2009

Nikola a dit:
dumbel a dit:

Bonjour,

je souhaiterais ne pas utiliser le rel=nofollow pour l'un des liens externes de mon site.
J'ai donc eu l'idée d'empêcher le crawl de ce lien par l'intermédiaire du "robots.txt" du style:

Disallow: http://www.lelienexterne.tld/page.html

J'ai bon :?:

Cliquez pour agrandir...

Yes !

Exemple :
Dans robot.txt :

User-Agent: *
Disallow: /ton-repertoire/ta-page.html

Il me semble que via google webmaster tools, tu peux signaler ton robot.txt , c'est préférable.

Là il bloque toute une page pas un seul lien ?

dumbel · 2 Avril 2009

Merci Jean Luc ! (et aux autres)

Au fait, j'en profite pour te dire que ton annuaire est excellent et qu'il constitue pour moi une vraie référence ...

:wink:

jeanluc · 2 Avril 2009

Merci. :wink:

Il y a quand même une astuce pour bloquer un lien externe en s'aidant de robots.txt: il faut passer par une redirection.

Puisque tu veux bloquer http://www.lelienexterne.tld/page.html, tu remplaces ce lien dans ton site par http://www.ton_domaine.tld/redirection_1234.html et tu fais en sorte que ce lien fasse une redirection vers la page externe (par .htaccess ou en PHP). Et dans robots.txt, tu mets :

Code:

User-agent: *
Disallow: /redirection_1234.html

Solution plutôt compliquée...

Jean-Luc

Rod la Kox · 2 Avril 2009

On ne pas mettre le lien...
C'est encore plus simple.

Nikola · 3 Avril 2009

GUITEL a dit:
Nikola a dit:

dumbel a dit:

Bonjour,

je souhaiterais ne pas utiliser le rel=nofollow pour l'un des liens externes de mon site.
J'ai donc eu l'idée d'empêcher le crawl de ce lien par l'intermédiaire du "robots.txt" du style:

Disallow: http://www.lelienexterne.tld/page.html

J'ai bon :?:

Cliquez pour agrandir...

Yes !

Exemple :
Dans robot.txt :

User-Agent: *
Disallow: /ton-repertoire/ta-page.html

Il me semble que via google webmaster tools, tu peux signaler ton robot.txt , c'est préférable.

Cliquez pour agrandir...

Là il bloque toute une page pas un seul lien ?

Effectivement, j'avais lu la question un peu trop vite...

Et si tu fais un lien en javascript ..

sauf erreur de ma part Google ne le lis pas.

C'est ce qui me parrait le plus simple, propre et logique.

nickargall · 3 Avril 2009

Question (pour laquelle je pense connaître la réponse mais que je pose quand même): pourquoi ne veux tu pas ajouter un attribut rel="nofollow" sur ces liens ?

Leonick · 3 Avril 2009

nickargall a dit:
pourquoi ne veux tu pas ajouter un attribut rel="nofollow" sur ces liens ?

parce que les moteurs suivent quand même les liens. Il ne lui transmettent juste aucun juice.
Entre parenthèse, y! ne tient pas compte des restrictions dans le robots.txt, il ne crawle pas la page mais affiche quand même l'url dans ses SERP. Et comme y! tient fortement compte des mots clés dans l'url et à fortiori dans le ndd, on peut se retrouver ainsi avec juste le ndd affiché en 1° page de SERP, alors même qu'on ne le veut pas.
Donc là dessus, gg est à des années lumières de y!, car il respecte la volonté du webmaster de ne pas afficher des liens. :evil:

Madrileño · 3 Avril 2009

Complément javascript :
https://www.webrankinfo.com/dossiers/strategies-de-liens/javascript-onclick .
https://www.webrankinfo.com/forum/t/google-suit-les-liens-javascript.25677/ .
https://www.webrankinfo.com/forum/t/googlebot-interprete-le-javascript.38577/ .
https://www.webrankinfo.com/forum/google-analyse-code-javascript-desormais- ... 44018.html .
https://www.webrankinfo.com/forum/t/googlebot-execute-le-javascript.62200/ .