Lien étrange

WRInaute discret
Bonjour tout le monde

Quelqu'un pourrait-il m'expliquer où le Spider Googlebot 2.1 va chercher ce genre de lien fantaisiste lors de son indexation :

Code:
http://milouchouchou.com/index.php/ensemble-du-site/annuaire/chiens/les-photos/chiens-ou-chiots-a-adopter/paradis/paradis/mon-rambo-au-paradis-16/12/les-poemes/groupes-fci-par-pays/paradis/ma-petite-bijou-22/02/ensemble-du-site/ensemble-du-site/html/paradis
Code:
http://milouchouchou.com/index.php?Itemid=78&option=com_contact_enhanced&view=contact&id=5
Code:
http://www.milouchouchou.com/schnauzer-geant

C'est régulièrement par dizaines que je vois des liens de ce genre dans mes statistiques, tous aussi exotiques.

Je n'ai jamais créé ce type de page ou lien, l'adresse de mon site étant tout simplement http://www.milouchouchou.com

Merci d'éclairer ma chandelle, si quelqu'un a la réponse.

Francis
 
WRInaute accro
Tu devrais essayer d'installer le logiciel Xenu Link Sleuth sur ta machine, et le lancer sur ton site, histoire de voir si tu n'a pas un ou plusieurs liens mal structurés sur ton site, qui génèrerais ce genre de chose. Vu le code HTML (des </html> au beau milieu), ça ne m'étonnerais pas.

Faudra que tu nous expliques au passage ta balise noscript gavé de liens, c'est pas très clean, voire même risqué.
 
WRInaute discret
Merci pour ta réponse rapide

La balise noscript est générée automatiquement par le programme que j'utilise pour la création de mes menus qui sont en Javascript, elle est utile pour afficher les liens si le visiteur désactive le ce Javascript.

Le </html> au milieu vient d'être corrigé, une petite erreur de ma part.

Je vais voir pour trouver ce programme et tester mon site comme tu le suggères.

Francis
 
WRInaute impliqué
milouchouchou a dit:
La balise noscript est générée automatiquement par le programme que j'utilise pour la création de mes menus qui sont en Javascript, elle est utile pour afficher les liens si le visiteur désactive le ce Javascript.
On peut faire les même menu en pur html/css. ;-)

Et pour ce qui est des liens, c'est aussi à toi de renvoyer une 404 sur ce type de lien.
 
WRInaute discret
Dolph a dit:
On peut faire les même menu en pur html/css. ;-)

Et pour ce qui est des liens, c'est aussi à toi de renvoyer une 404 sur ce type de lien.
Ok pour le menu, mais apparemment celui-ci fonctionne très bien, mais je vais étudier cette possibilité.

Il y a une 404 personnalisée sur le site et elle fonctionne.
Dans le cas présent, si j'envoie ces liens exotiques, je retombe sur ma page index.

Ce que je voudrais savoir, c'est de où Google tient ces liens ?
J'ai installé le programme Xenu Link Sleuth, il est occupé à vérifier...
 
WRInaute discret
UsagiYojimbo a dit:
Faudra que tu nous expliques au passage ta balise noscript gavé de liens, c'est pas très clean, voire même risqué.

Après vérification de mon générateur de menu, voici la réponse :

Selecting this option will make the output HTML code search engine friendly by outputing <a> tags (HTML links) for each menu item inside a <noscript> tag, therefore allowing search spiders to crawl through your site.
 
WRInaute accro
Je n'avais initialement pas vu que ton menu était totalement en javascript. C'est sûr que ça serait quand même mieux d'avoir une version html/css.
 
WRInaute discret
Bonjour

Voilà, les liens de mon site (plus de 120 000) ont été vérifié, et comme je m'en doutais, tous les liens sont bons.

Ma question initiale reste donc d'actualité : où va-t-il chercher cela ?

Bonne journée.
Francis
 
WRInaute accro
WRInaute discret
Tout ce qui se trouve derrière index.php ne sont que des paramètres inutiles ajoutés par le robot d'indexation, on se retrouve donc automatiquement sur la page index.php

Il n'y a pas de soucis internes, je l'ai signalé dans ma réponse précédente.

Pour les adresses avec ou sans www, le soucis vient à nouveau du robot, mon site est configuré en www et tous les sitemaps le sont aussi.
 
WRInaute accro
Il se peut aussi que ces pages aient été indexées avant que tu ais mis en place la réécriture des url. Il faut donc prévoir les redirections qui vont bien dans ce cas.

Pour le www et sans www, il suffit qu'un lien interne au site pointe vers l'url avec / sans pour que les deux se retrouvent indexées si rien n'a été fait.
 
WRInaute accro
Je ne pense pas que les liens dans les balises noscript soient comptabilisés dans l'algorithme Google, même s'ils sont suivis. Il y avait eu une annonce dans ce sens il y a quelques années pour éviter le spam.
 
WRInaute discret
fredfan a dit:
Je ne pense pas que les liens dans les balises noscript soient comptabilisés dans l'algorithme Google, même s'ils sont suivis. Il y avait eu une annonce dans ce sens il y a quelques années pour éviter le spam.

En HTML, la balise NoScript permet de donner un contenu alternatif quand un script n'a pas pu être exécuté (voir la balise Script).

En pratique, cette balise fait généralement référence au langage Javascript. Actuellement, la majorité des navigateurs reconnaissent le Javascript. Néanmoins, il reste toujours possible pour les internautes de désactiver manuellement ce langage dans les options du navigateur, d'où l'intérêt d'utiliser la balise NoScript.

Je me trompe ou pas ?

UsagiYojimbo a dit:
Il se peut aussi que ces pages aient été indexées avant que tu ais mis en place la réécriture des url. Il faut donc prévoir les redirections qui vont bien dans ce cas.

Pour le www et sans www, il suffit qu'un lien interne au site pointe vers l'url avec / sans pour que les deux se retrouvent indexées si rien n'a été fait.

Ces liens n'ont jamais existé et aucune n'a jamais été faite. Quand aux redirections, je n'ai pas envie de passer le reste de ma vie à suivre les élucubrations des robots, et puis bonjour le fichier htaccess, il risque de prendre des proportions anormales avec toutes ces lignes de redirections.

Toutes les rares pages où se trouve un lien de retour vers la page d'accueil est codée avec un / sans mentionner index.php
 
WRInaute impliqué
milouchouchou a dit:
Il n'y a pas de soucis internes, je l'ai signalé dans ma réponse précédente.

Oui, donc on en revient à ma réponse. Ta faute ou la leur, corrigé ou pas, il faut que ces liens disparaisent de l'index de Google, et donc, seul une gestion htaccess/php via 301 ou 404 solutionnera ton problème.
 
WRInaute discret
fredfan a dit:
C'est un coup de gueule contre Google ou une demande de conseil ?
Je ne vois pas le rapport, je constate et j'essaie de comprendre.

Dolph a dit:
Oui, donc on en revient à ma réponse. Ta faute ou la leur, corrigé ou pas, il faut que ces liens disparaisent de l'index de Google, et donc, seul une gestion htaccess/php via 301 ou 404 solutionnera ton problème.
301 mais pas en PHP, je vois mal où placer un
header("Status: 301 Moved Permanently", false, 301);
header("Location: http://www.xxxxxx);
exit();
vu que les pages n'existent pas, je ne vais quand même pas les créer pour y ajouter un 301

Quand au htaccess, je risque de ralentir considérablement mon site avec l'ajout de xxxx lignes, vu que ce sont à chaque fois des adresses différentes.

Mais on se détourne de ma question initiale qui est " Où va-t-il chercher ces adresses exotiques ? "
C'est ce que je voudrais savoir, je n'ai ni envie de mourir idiot, ni envie de corriger quelque chose qui ne vient pas de chez moi :D
 
WRInaute accro
milouchouchou a dit:
Ces liens n'ont jamais existé et aucune n'a jamais été faite. Quand aux redirections, je n'ai pas envie de passer le reste de ma vie à suivre les élucubrations des robots
D'où ma question. Contrairement à ce que tu affirmes, Google n'invente pas d'url. Il se contente de constater ce qu'on lui met sous les yeux. Le bidouillage de page 404 n'est pas une bonne solution parce que le header reste en 404 et tu peux faire des dégâts à ton référencement. Il faut soit un 301 en htaccess, soit un 301 dans des index.php dans chaque dossier, soit interdire l'indexation dans un robots.txt ou des noindex dans un index.html dans chaque répertoire.
C'est une mauvaise solution d'espérer que Google va réécrire sont algorithme.
 
WRInaute impliqué
milouchouchou a dit:
Oui, donc on en revient à ma réponse. Ta faute ou la leur, corrigé ou pas, il faut que ces liens disparaisent de l'index de Google, et donc, seul une gestion htaccess/php via 301 ou 404 solutionnera ton problème.
301 mais pas en PHP, je vois mal où placer un
header("Status: 301 Moved Permanently", false, 301);
header("Location: http://www.xxxxxx);
exit();
vu que les pages n'existent pas, je ne vais quand même pas les créer pour y ajouter un 301[/quote]
0o

Tu a une page /toto et gg y parvient en mettant /toto/blabla/
eh bien tu vérifie que l'url demandé est la bonne pour afficher, sinon tu redirige 301 ou 404, selon ton choix.

milouchouchou a dit:
Quand au htaccess, je risque de ralentir considérablement mon site avec l'ajout de xxxx lignes, vu que ce sont à chaque fois des adresses différentes.
D'où les redirection php.

milouchouchou a dit:
Mais on se détourne de ma question initiale qui est " Où va-t-il chercher ces adresses exotiques ? "
C'est ce que je voudrais savoir, je n'ai ni envie de mourir idiot, ni envie de corriger quelque chose qui ne vient pas de chez moi :D
Sauf que celles qui sont maintenant dans son index, il faut les gérer. C'est con, mais c'est ainsi. C'est a toi de blinder ton site pour empêcher ce type de chose.
T'a pensé que cela pouvait venir d'un concurrent qui cherche à te déclasser pour duplicate content ?

Bon j'édite mon poste...
Tu as tout un travail de gestion de tes url, parce que ton accueil existe via 4 pages, et GG n'aime pas ça :
http://milouchouchou.com/index.php
http://www.milouchouchou.com/index.php
http://milouchouchou.com/
Et le problème vient du fait que tu ne fais aucune gestion des paramètre d'url, ainsi, moi, je peux aussi en construire une url : http://milouchouchou.com/index.php?Bouhhhh-le-site-quil-est-mal-gere
http://www.milouchouchou.com/
 
WRInaute discret
Mon site a toujours été réglé sur http://www.milouchouchou.com/ si maintenant des urluberlus s'amusent à faire des liens fantaisistes...

Et en fin de compte, je ne sais toujours pas comment ces liens exotiques sont créés :cry: :cry:
Si ça amuse les spiders, c'est leur problème, le mien est d'essayer de comprendre et ne pas avoir à bidouiller des fichiers pour gérer ces erreurs.
De toute façon, tout ce qui est avec index.php est automatiquement redirigé vers l'accueil.
 
WRInaute impliqué
milouchouchou a dit:
De toute façon, tout ce qui est avec index.php est automatiquement redirigé vers l'accueil.
... je crois que tu as d'énormes lacunes.

Oui, toute ces pages affiche l'accueil, le problème, c'est que google va les prendre en compte et pour lui se ra au final 6 pages avec le même contenu et tu te retrouvera pénalisé pour duplication.
 
WRInaute accro
Si c'est indexé, c'est qu'il y a un code d'état 200.
S'il y a un code d'état 200, c'est que le script ne vérifie pas sont URL canonique.

Dès lors que ton script relève les variables envoyées, il doit être capable de déterminer l'URL "légitime" (ou canonique) d'une page, ou de déterminer qu'il s'agit d'une URL erronée, et donc d'effectuer une 301 soit vers l'URL légitime, soit vers la home, soit d'envoyer une 404.

Creuse de ce côté ;)
 
WRInaute discret
Voilà, on dirait que ces problèmes d'URL exotiques soient résolues, reste plus qu'à suivre dans mes stats pour voir s'il ne faut pas ajouter une ligne.

Il y a juste pour le lien
Code:
http://milouchouchou.com/index.php?Bouhhhh-le-site-quil-est-mal-gere
où il reste le ?Bouhhhh-le-site-quil-est-mal-gere après la redirection ce qui donne
Code:
http://milouchouchou.com?Bouhhhh-le-site-quil-est-mal-gere

Une petite idée sur ce dernier point ?

Voici les quelques ligne ajoutées à mon htaccess
Code:
RewriteEngine on

RewriteCond %{HTTP_HOST} ^milouchouchou.com$
RewriteRule ^(.*)$ http://www.milouchouchou.com/ [QSA,L,R=301]

RewriteCond %{QUERY_STRING} ^Itemid=.*$
RewriteRule ^(.*)$ /$1?%1 [L,R=301]
RewriteRule ^index.php	/ [R=301,L]
RewriteRule ^schnauzer-geant / [R=301,L]
 
WRInaute impliqué
Normalement ça, ça fonctionne.

Code:
RewriteRule ^index.php   /? [R=301,L]
Le ? derrière le / permet de ne faire passé aucun critère d'url.
 
WRInaute discret
Code:
RewriteCond %{QUERY_STRING} .+
RewriteRule ^$ /? [L,R=301]

Apparemment, tout serait correct.
Merci pour vos réponses.
Si jamais il y avait du nouveau, je reviens.

Cordialement.
Francis
 
WRInaute discret
Je me demande franchement comment ces "abrutis" font pour en arriver à créer ce type de lien
Code:
/expliquer-votre-reve/chats-ou-chatons-a-adopter
Code:
/les-coups-de-coeur-et-temoignages/les-futures-naissances/colleys-chiots-eleves-en-famille
Ou il y a quelque part un sérieux bug dans les spiders ou alors ceux qui ont codés les routines de recherche ont un petit verre dans le nez :oops:
J'ai actuellement 231 redirection 301 dans mon htaccess
 
WRInaute impliqué
Disons que si tu les ajoutes à la main, ça peut vite devenir lourd.

Le mieux et de gérer en php ce que tu attend comme ULR.
En fonction du critère qui t'interesse, tu rediriges sur la bone url en 301

exemple :

On appel : ./fiche-caniche/la-recette-de-mémé
Toi, tu attend ./fiche-caniche/
tu redirige en php 301 vers ./fiche-caniche/?
 
Discussions similaires
Haut