Suppression page (410) + redirection

WRInaute passionné
Hello,

J'ai un petit doute...

Je souhaite à la fois informer les bots que certaines pages ont définitivement disparu de mon site (donc pas de redirection 301), tout en dirigeant mes visiteurs vers une page d'infos.

J'utilise le code suivant :

Code:
<?
Header("Status: 410 Gone", false, 410);
Header("Location:./infos.php");
?>

Concrètement la redirection fonctionne mais est-ce qu'elle ne risque pas d'annuler l'infos de disparation de la page pour les moteurs ?

Fab
 
WRInaute accro
Fab le Fou a dit:
Hello,

J'ai un petit doute...

Je souhaite à la fois informer les bots que certaines pages ont définitivement disparu de mon site (donc pas de redirection 301), tout en dirigeant mes visiteurs vers une page d'infos.

J'utilise le code suivant :

Code:
<?
Header("Status: 410 Gone", false, 410);
Header("Location:./infos.php");
?>

Concrètement la redirection fonctionne mais est-ce qu'elle ne risque pas d'annuler l'infos de disparation de la page pour les moteurs ?

Fab
Pour les urls obsolètes pourquoi pas le robot.txt?
 
WRInaute passionné
salva a dit:
Pour les urls obsolètes pourquoi pas le robot.txt?

Parce que plusieurs centaines de pages dynamiques sont concernées.

Donc je peux tout régler en un seul script qui est celui qui servait jusqu'ici à afficher les pages, plutôt que de toutes les lister.
 
WRInaute accro
Fab le Fou a dit:
J'utilise le code suivant :

Code:
<?
Header("Status: 410 Gone", false, 410);
Header("Location:./infos.php");
?>

Concrètement la redirection fonctionne mais est-ce qu'elle ne risque pas d'annuler l'infos de disparation de la page pour les moteurs ?

Fab
je crois me souvenir que oui, du moins avec google. J'ai eu le cas. Sinon, la solution est de faire cette 2° redirection que si le user_agent n'est pas un robot :wink:
Moi, j'avais supprimé le header location, ajouté tous les liens dans le robots.txt, demandé leur suppression à gg et 2 jours après (car pour une suppression, plusieurs robots gg différents passent pendant 2-3 jours), j'avais remis le header location et laissé comme ça.
De toutes façons, yahoo ne sait pas retirer des pages de son moteur
 
WRInaute accro
Fab le Fou a dit:
salva a dit:
Pour les urls obsolètes pourquoi pas le robot.txt?

Parce que plusieurs centaines de pages dynamiques sont concernées.

Donc je peux tout régler en un seul script qui est celui qui servait jusqu'ici à afficher les pages, plutôt que de toutes les lister.
8O Je suis surpris par le chiffre.

Tu as modifié la structure du site?
 
WRInaute passionné
salva a dit:
8O Je suis surpris par le chiffre.

Tu as modifié la structure du site?

T'as deviné :wink:
Je fais le grand ménage de printemps sur un de mes sites (version giboulée de Mars).

Sinon, Leonick, merci pour ton retour d'expérience, je vais donc devoir m'orienter vers le robots.txt..

Si le sitemap était vraiment fiable, ça m'éviterait le problème.
 
WRInaute accro
Fab le Fou a dit:
Si le sitemap était vraiment fiable, ça m'éviterait le problème.
il n'a jamais été prévu pour fonctionner dans ce sens. Heureusement, sinon toutes les pages pas dans le sitemap seraient supprimées de l'index gg :cry:
Déjà que dans l'autre sens je n'en vois pas trop l'intérêt.
 
WRInaute accro
non, initialement, le sitemap a été créé pour donner l'accès aux moteurs à des pages peu ou mal liées. Ca n'a jamais été exhaustif
 
WRInaute accro
Pourrais-tu donner une URL qui renvoie ce code 410? Je viens de faire un essai avec ton site en www, mais c'est un code 404 que je reçois avec une adresse inexistante.

En tout cas, ne pas utiliser robots.txt pour des pages qui n'existent plus!

Jean-Luc
 
WRInaute passionné
jeanluc a dit:
Pourrais-tu donner une URL qui renvoie ce code 410? Je viens de faire un essai avec ton site en www, mais c'est un code 404 que je reçois avec une adresse inexistante.

En tout cas, ne pas utiliser robots.txt pour des pages qui n'existent plus!

Jean-Luc

C'est clair que normalement le robots.txt ne sert pas à ça.
Je n'ai pas encore mis encore mis en place le redirection sur le site concerné, mais je viens de faire un test sur le site de mon www et effectivement ça ne fonctionne pas...

Page de test : -http://www.referencement-site-internet.info/anciennes-pages.php
Elle devrait renvoyer vers: -http://www.referencement-site-internet.info/contact.php

Dans un sens c'est logique qu'une 410 arrête tout, mais ce n'est pas top pour les visiteurs de se retrouver sur une page blanche...

Sur d'autres sites, j'ai utilisé une 301 vers une page bidon commune à toutes les pages disparues mais je ne trouve pas ça très propre non plus même si google semble avoir compris.
 
WRInaute accro
Ok. Tu renvoies bien un code 410, mais je pense que tu as un "point" en trop devant le /contact.php.

[edit]
D'accord avec toi, qu'une redirection dans une page d'erreur ne devrait pas fonctionner. Par contre, je pense que tu pourrais essayer un include de /contact.php
[/edit]


Jean-Luc
 
WRInaute passionné
Bien vu, avec le include() ça marche très bien. :wink:

Par contre j'en reviens à mon problème initial. Comment les bots vont interpréter le fait qu'il y a du contenu dans la page après le "Status : 410" ?
 
WRInaute accro
Les moteurs de recherche n'indexeront certainement pas le contenu d'une page qui renvoie un code d'erreur.

Je serais même étonné que le contenu de cette page d'erreur ait une importance quelconque pour les bots (je ne vois pas ce qu'ils pourraient en faire).

Jean-Luc
 
WRInaute passionné
jeanluc a dit:
Je serais même étonné que le contenu de cette page d'erreur ait une importance quelconque pour les bots (je ne vois pas ce qu'ils pourraient en faire).

Oui des centaines de pages identiques seront de toute façon "ignorées".

Je ferai un feed back d'ici quelques semaines pour dire si elles ont bien disparu de l'index.
 
WRInaute passionné
Fab le Fou a dit:
jeanluc a dit:
Je serais même étonné que le contenu de cette page d'erreur ait une importance quelconque pour les bots (je ne vois pas ce qu'ils pourraient en faire).

Oui des centaines de pages identiques seront de toute façon "ignorées".

Je ferai un feed back d'ici quelques semaines pour dire si elles ont bien disparu de l'index.

Moins de 2 jours après la mise en place, je peux déjà voir + de 80 pages notées en 410 dans l'interface "Google Outils pour webmasters" (bien utile dans ce cas) donc tout se passe comme prévu.

Merci pour les conseils.

A+, Fab
 
WRInaute accro
jeanluc a dit:
...En tout cas, ne pas utiliser robots.txt pour des pages qui n'existent plus!

Jean-Luc
Une raison particulière?
J'utilise le robot.txt depuis un petit moment sans problème particulier (avec le résultat recherché).
Il est vrai que je n'ai qu'une trentaine d'urls concernées
 
WRInaute accro
Pour les puristes, le fichier robots.txt donne des instructions destinées aux robots et il concerne uniquement le crawl des URL. Ces instructions ne s'adressent pas qu'aux moteurs de recherche, mais à tous les robots.

Théoriquement, il n'y a aucune information concernant directement l'indexation des pages dans robots.txt. Une page peut être indexée sans qu'elle soit visitée par les robots. Il y a plusieurs cas comme cela dans les résultats des moteurs de recherche. Dans ce cas, le moteur se base sur l'URL de la page et surtout sur les textes des liens qui pointent vers la page.

En pratique, c'est vrai qu'une page non crawlée a peu de chance de sortir dans une recherche. C'est vrai aussi que certains moteurs considèrent maintenant que ne pas pouvoir crawler une page veut dire ne pas l'indexer.

En pratique aussi, si un moteur ne peut plus crawler une page, il ne peut pas constater que la page a disparu, alors que s'il crawle la page et qu'il tombe sur un code 404 ou 410 ou 301, il reçoit clairement l'information que l'URL n'est plus utilisée.

Jean-Luc
 
WRInaute accro
jeanluc a dit:
s'il crawle la page et qu'il tombe sur un code 404 ou 410 ou 301, il reçoit clairement l'information que l'URL n'est plus utilisée.
ça c'est la théorie. En pratique, le code 410, les formulaires, etc... pour supprimer des pages, yahoo n'en a cure.
les codes 301, il ne sait pas plus les gérer, tout comme exalead, car ils continuent à garder l'ancienne url mais avec le contenu de la nouvelle, même si elle se trouve sur un autre domaine et même un autre serveur (ip)
 
Discussions similaires
Haut