Desindexer pour faire le ménage

Nouveau WRInaute
Bonjour,

J'utilise une technologie serveur particulière qui a eu un temps la mauvaise habitude d'afficher dans l'URL un ID de session et qui n'était pas optimisé pour le passage des bots.
Résultat, je peux avoir 20 fois la même page référencée :evil:
On le constate bien pour le site son-et-technique.com sur google où plus de 2200 pages sont référencées alors qu'il ne contient qu'une dizaine de pages statiques et environ 400 références article.

Malheureusement, toutes ces URL sont valides, google n'a aucune raison de les supprimer tout seul.

Depuis l'eau a coulé sous les ponts et on a enfin des choses plus cohérentes en terme de résultat.

C'est à ça que je voudrais arriver pour son-et-technique (et d'autres).

Je le précise tout de suite : je ne peux pas utiliser de htaccess sur ce type de serveur.

La seule solution que je vois c'est mettre des meta de refus de bot
noindex, nofollow dans toutes les pages du site, attendre que les bots passent, suppriment ces pages de leurs index, puis virer mes tags et attendre un nouveau passage.

-> Est-ce le seul moyen de procéder ?
-> Quels sont les risques ?

Merci de vos lumières !
 
WRInaute impliqué
je compte faire la meme chose pour mon site, mais je sais pas comment procéder ! par meta ou par robots.txt ??? j'ai des tonnes de pages avec le truc PHPSID...
 
WRInaute impliqué
Aquarius a dit:
Une autre solution : mettre un robots.txt à la racine de vos sites pour interdire l'indexation de certaines de vos URL par les bots.

Pour déindexer les URL en double qui risquent de provoquer du duplicate content sur Google vous pouvez aller à cette adresse après avoir installer votre robots.txt : http://services.google.com:8882/urlconsole/controller

oui merci, j'ai deja essayer ce formulaire pour le suppression d'un site (en entier), maintenant je veux juste supprimer certaines pages de mon site, ces pages sont générés automatiquement, expl url -http://www.maroc-selection.com/pagechambre.php?hotelid=9976&zoneid=12556 .

que vais je mettre dans le fichier robots .txt ?
 
Nouveau WRInaute
Quand on se retrouve avec 1000 URL à supprimer, c'est fastidieux...

Par ailleurs, je croyais que le robots.txt était plus pénalisant cas google met un certain temps à voir quand de nouvelles autorisations ont été mises en place.
Ce n'est pas plus facile de se faire re-indexer ensuite si l'on met des méta ?
 
WRInaute impliqué
j'ai trouver ça sur les pages de google "conseils webmaster":

User-agent: Googlebot
Disallow: /*?

si je met ces lignes dans une fichier robots.txt, google va til vraiment supprimer tout mes pages dynamique ?

merci pour vos réponses
 
WRInaute occasionnel
Khal3d, quelles sont les URL que tu veux supprimer ? Donne un exemple d'URL.

Idem pour Piloue (quel est ton site ?)
 
WRInaute accro
Tu peux aussi utiliser quelquechose comme:

Code:
$agent = $_SERVER['HTTP_USER_AGENT'];
 if ((stristr($agent, "rchive"))||
// for testing ...
//  (stristr($agent, "your browser"))||
  (stristr($agent, "IE"))||
  (stristr($agent, "bot"))||
  (stristr($agent, "crawl"))||
  (stristr($agent, "index"))||
  (stristr($agent, "eeves"))||
  (stristr($agent, "eck"))||
  (stristr($agent, "link"))||
  (stristr($agent, "cooter"))||
  (stristr($agent, "slurp")
  (stristr($agent, "slurp"))||
  (stristr($agent, "pider")))
  {
    $usesession="no";
  } else {
    include("include/session.php");
    $usesession="yes";
    session_start();
  }

...je te laisse ajouter le poivre, le sel, et passer au four ;)
 
WRInaute occasionnel
Tu met dans ton robots.txt :
Code:
User-agent: *
Disallow: /pagechambre.php?

Normalement les bots devraient arréter d'indexer les URL. Après si tu veux vraiment les supprimer de Google, tu vas à l'adresse que je t'ai donné plus haut et tu entres l'URL de ton robots.txt, et Google supprimera les URL correspondantes.
 
WRInaute impliqué
Aquarius a dit:
Tu met dans ton robots.txt :
Code:
User-agent: *
Disallow: /pagechambre.php?

Normalement les bots devraient arréter d'indexer les URL. Après si tu veux vraiment les supprimer de Google, tu vas à l'adresse que je t'ai donné plus haut et tu entres l'URL de ton robots.txt, et Google supprimera les URL correspondantes.
c'est ce que j'ai bien fais :) tnx
 
WRInaute impliqué
ça marche ;) j'ai utiliser le formulaire super rapide de google pour supprimer toutes mes pages "pagehotel.php?" de mon site ! ce matin la je les trouve plus sur google :)
 
WRInaute occasionnel
Content d'avoir pu t'aider mais je pense que tu devrais te tourner sérieusement vers l'URL Rewriting car tes URL sont en général très compliquées, et pour les moteurs c'est pas toujours une bonne chose...
 
WRInaute impliqué
je compte créer des pages statiques qui vont remplacer celles qui sont dynam, qui seront plus indexé par google, je pense laisser le fichier robots tel qu'il est, ou bien ajoter un meta tag noindex.
 
Nouveau WRInaute
Aquarius a dit:
Idem pour Piloue (quel est ton site ?)
Moi c'était indiqué dans mon post : www.son-et-technique.com est un bon exemple de ce qui m'arrive.

Fait étonnant, depuis ce post, le nombre de page référencées à diminuée et j'ai constaté la même chose sur les autres sites me posant problème. On dirait que Google fait tout seul le ménage !

Je préfère cela à me taper manuellement dans google les 120 000 pages d'adhf.fr :D
 
Discussions similaires
Haut