Robots.txt = Désindextion ?

refsite · 17 Décembre 2008

Est ce qu'un robots.txt empêche uniquement google d'indexer les pages, ou est ce que sa permet également de faire désindexer les pages dans google ?

Merci

nickargall · 17 Décembre 2008

Rhhaaaa fais une redirection 301 des url non réécrites vers les url réécrites on te dit

Bon ok je :arrow:

refsite · 17 Décembre 2008

Je ne peux pas le faire ! Je ne peux pas reconstituer ou très difficilement les urls réécrites.
En plus je ne vois pas pourquoi sa fonctionnerait mieux que le cloaking avec redirection 301 vers la page index que j'ai mis en place hier matin sur plusieurs sites. Sa reste du 301. Sachant que sur tout les sites où j'ai mis sa en place hier : google me dit qu'il a indexé encore plus d'url non réécrite.

Ma question de base est surtout pour savoir si google désindexe les urls du fichier robots.txt lorsqu'il scrawl les urls qu'il à déjà indexé, ou s'il bloque l'acces.

Pourquoi cette question : pour savoir si c'est une erreur de mettre un fichier robots paramétré pour interdire mes urls non réécrites ? Je me dit que dans l'hypothèse où il ne scrawl pas la page puisqu'elle se trouve dans le robots, il ne verra pas la redirection 301.

Merci

nickargall · 17 Décembre 2008

Cloaking ? C'est à dire ?

Pour la redirection 301, tu peux aussi le faire en PHP; tu parviens bien à créer tes URL réécrites en PHP, tu dois donc normalement assez facilement pouvoir identifier en PHP si l'URL appelée correspond à l'URL réécrite de la page. Si c'est pas le cas, fais une redirection 301 avec la fonction header() en php.

Si tu lui interdis l'accès aux pages non réécrites par un robots.txt, normalement il va désindexer les pages. Mais ce serait une erreur étant donné que ces pages ont peut être acquis du 'referencement' qui sera perdu si tu ne les redirige pas en 301.

refsite · 17 Décembre 2008

Cloaking : si c'est google qui visite la page, on le traitement est différent (En gros)

Donc sur ma page : si google et page non réécrite alors redirection vers index.htm

Mon code:

Code:

if (IsRobot() && !Reecrit()) {
header("Status: 301 Moved Permanently", false, 301);
header("Location: http://$_SERVER[HTTP_HOST]");
exit(); 
}

Les pages sont en duplicate content actuellement donc je souhaite qu'il les supprime au plus vite.
Je ne comprend pas comment ça se fait qu'il en index plus au lieu de les supprimer !

Pour savoir le nombre de page non réécrite qu'il à indexé je fait la recherche : "site:nomdedomainesite.com inurl:nomdemapage.htm"

Merci

nickargall · 17 Décembre 2008

Faut croire que ta fonction Isrobot() ne marche pas très bien.
Si tu donnais l'adresse du site, ca serait plus facile.
Et sinon, pourquoi t'essaie pas une fonction PHP qui ferait ce que je t'ai indiqué plus haut ? A savoir une redirection vers l'URL souhaitée si c'est pas la bonne qu'est appelée ?

Code:

<?php
$url_souhaitee="/mapage-tutu/toto/titi.html";// a construire selon l'url souhaitée bien sur
$url_actuelle=$_SERVER['REQUEST_URI'];
if($url_actuelle<>$url_souhaitee)
{
     header("Status: 301 Moved Permanently");
     header("Location: ".$url_souhaitee.");
     exit();
} 
?>

frenot · 22 Décembre 2008

refsite a dit:
Est ce qu'un robots.txt empêche uniquement google d'indexer les pages, ou est ce que sa permet également de faire désindexer les pages dans google ?

Pour répondre à ta question, Le fichier robots.txt permet d'indiquer à google les fichiers ou repertoires à exclure de l'indexation (donc à supprimer si ils sont déjà dans l'index), mais si ton besoin est urgent, je te conseille d'utiliser l'interface webmaster proposée par google "les outils du webmaster" dans laquelle tu trouves le formulaire pour la procédure de suppression de page accélérée de l'index google (environ 3/5 jours).

[edit e-kiwi : signature supprimée]