Des millier de pages introuvables

Nouveau WRInaute
Bonjour,

Je m'occupe d'un site e-commerce sous perstashop.
Il est inscrit sur webmaster tools.
Depuis quelque temps dans les erreurs d'indexation, google me renvoi des milliers d'url introuvable.
Cela est monté jusqu'à 24000 erreurs.
exemple d'url retourné :
http://www.exemple.com/tp-Boston-Band-Discography.html
http://www.exemple.com/tp-Luke-Skywalker-and-Yoda.html

Vous pouvez voir que ces url sont très particulier !
De plus le site vend des produits de signalétique et d'imprimerie donc Boston-Band-Discography et Luke-Skywalker-and-Yoda n'ont jamais existé sur ce site.

J'ai 'affiché le cache de google en texte mais rien...
J'ai contrôlé le code source du site rien...
J'ai vérifié le sitemap rien...
Sur internet rien sur ces url étranges.

Enfin vous avez compris, j'ai cherché mais rien trouvé.

Si vous avez une idée.

Cordialement

Bobjo
 
WRInaute accro
Bah le NSEO généralement tu ne le fait pas aux yeux de tous, ensuite induire des tonnes de 404 est un moyen possible de NSEO ce qui ne veux pas dire que cela soit le cas mais si tu ne trouve les urls nulle part GG ne les inventant pas faut forcement qu'elles ai été vues par GG d'ou le cloaking.

utilise "www.example.com" pour les domaines d'exemple et pas "www.nom-de-domaine.truc" c'est prévue ainsi et tu évite la formation de BL parasites sur le forum.

ça peut aussi venir d'un plantage du serveur qui a induit la production de code foireu mais vue les noms de fichier j'en doute.
 
Nouveau WRInaute
Oui c'est sur google n'invente pasc'est ces url.

Mais le cloaking implique que les liens soit sur le site, même caché ?
Or je suis le seul à m'être occupé de ce site...

Ou alors c'est un module de prestashop.

Merci de prendre du temps pour me répondre.

PS : J'ai corrigé le nom de domaine de mon premier message

Cordialement

Bobjo
 
WRInaute passionné
Le cloaking, c'est l'action d'afficher des choses différente en fonction du visiteur.
En gros, si un concurrent veut t'emmerder, il va générer une page sur un de ses serveur avec des liens erronés pointant vers ton site. Il va clocké de manière à ce que seul GG puisse voir cette page.
GG va la lire et chercher les pages correspondante aux liens.

Dans tous les cas, un site correctement réalisé gère se genre de phénomène en vérifiant avant tout affichage que la requête donne bien un résultat.
Dans le cas contraire à toi de traiter la réponse.
Une 410 (ou 301) pour une page supprimé définitivement.
Une 301 pour tout erreur dans l'url.
 
Nouveau WRInaute
Bonjour,

Désolé de répondre en retard mais j'ai pas mal de boulot !!!

Merci Koxin-L.fr de me répondre.
Si je comprend bien ce que tu me dis, il faut que je fasse dans mon htaccess une règle qui retourne une erreur 410 aux robots.

Je ne suis pas un pro des fichier htaccess mais voila ce que j'ai fais avec les infos trouvé sur le net.
Code:
RewriteRule ^tp-.*\.html$  -  [G,L]
Donc :
tp-.* pour le nom des pages car elle commence toutes par tp- suivie de termes bizarre.
\.html pour ôter la signification particulière du point html
- pour ne pas modifier l’URL
[G,L] renvoi une erreur 410 et termine le processus de réécriture.

Si je me trompe merci de me corriger.

Cette règle va empêcher google de prendre en compte ces URL.
Mais cela ne me dit pas d’où ils proviennent...

Cordialement

Bobjo
 
WRInaute passionné
C'est ça, mais attention que tu n'ai pas toi, des pages valides commençant par tp- sinon elle passeront elles aussi en 410.
 
Nouveau WRInaute
Non, normalement il n'y a pas sur le site de page qui commence par ce préfixe.

Je te remercie de ton aide.

Cordialement

Bobjo
 
Nouveau WRInaute
Bonjour je continue sur le même sujet.

Alors les redirections fonctionnent, Google trouve toujours des URL étranges mais elles sont marqué en erreur 410.

Ce qui est très étrange, c'est que lorsque nous avons remarqué c'est URL et que nous avons commencé à les traiter, le temps de toutes les supprimer il n'y en a plus eu de nouvelles.
Cela ce voyait très bien car nous sommes passé de environ 0 erreur à environ 2500 puis environ 7000 ainsi de suite jusqu'à 24000. Hors Google permet de supprimer seulement 1000 erreurs par jour. Donc si Google avait trouvé d'autre erreurs le graphique aurait eu une forme d'escalier...
Après avoir supprimé toutes les erreurs un laps de temps c'est passé sans le retour de ces URL.
Puis les revoilà à nouveau... Marqué en erreur 410, mais il y en a beaucoup.
La technique consistant à marqué de lien en 410 en bien, mais cela ne résous pas le problème de l'origine de ces URL.

Donc je reviens vers vous pour vous remercier de l'aide apporté et également vous demandé si vous n'auriez pas une idée sur comment trouver l'origine de ces URL.

Cordialement

Bobjo
 
WRInaute occasionnel
T'as quelle version de Presta? Je suis dans la même merde, y a pas d'autres mots, sauf que j'ai encore bien plus d'url...L'équipe s'arrache les cheveux
A ta dispo pour en parler en mp
 
Nouveau WRInaute
Une chose qui me semble importante à rapporter.
Lorsque le site subit ces attaque (il me semble que le terme est correct) la fréquentation du site chute de environ moitié.
 
Discussions similaires
Haut