Lien étrange

milouchouchou · 2 Avril 2011

Bonjour tout le monde

Quelqu'un pourrait-il m'expliquer où le Spider Googlebot 2.1 va chercher ce genre de lien fantaisiste lors de son indexation :

Code:

http://milouchouchou.com/index.php/ensemble-du-site/annuaire/chiens/les-photos/chiens-ou-chiots-a-adopter/paradis/paradis/mon-rambo-au-paradis-16/12/les-poemes/groupes-fci-par-pays/paradis/ma-petite-bijou-22/02/ensemble-du-site/ensemble-du-site/html/paradis

Code:

http://milouchouchou.com/index.php?Itemid=78&option=com_contact_enhanced&view=contact&id=5

Code:

http://www.milouchouchou.com/schnauzer-geant

C'est régulièrement par dizaines que je vois des liens de ce genre dans mes statistiques, tous aussi exotiques.

Je n'ai jamais créé ce type de page ou lien, l'adresse de mon site étant tout simplement http://www.milouchouchou.com

Merci d'éclairer ma chandelle, si quelqu'un a la réponse.

Francis

UsagiYojimbo · 2 Avril 2011

Tu devrais essayer d'installer le logiciel Xenu Link Sleuth sur ta machine, et le lancer sur ton site, histoire de voir si tu n'a pas un ou plusieurs liens mal structurés sur ton site, qui génèrerais ce genre de chose. Vu le code HTML (des </html> au beau milieu), ça ne m'étonnerais pas.

Faudra que tu nous expliques au passage ta balise noscript gavé de liens, c'est pas très clean, voire même risqué.

milouchouchou · 2 Avril 2011

Merci pour ta réponse rapide

La balise noscript est générée automatiquement par le programme que j'utilise pour la création de mes menus qui sont en Javascript, elle est utile pour afficher les liens si le visiteur désactive le ce Javascript.

Le </html> au milieu vient d'être corrigé, une petite erreur de ma part.

Je vais voir pour trouver ce programme et tester mon site comme tu le suggères.

Francis

Dolph · 2 Avril 2011

milouchouchou a dit:
La balise noscript est générée automatiquement par le programme que j'utilise pour la création de mes menus qui sont en Javascript, elle est utile pour afficher les liens si le visiteur désactive le ce Javascript.

On peut faire les même menu en pur html/css. ;-)

Et pour ce qui est des liens, c'est aussi à toi de renvoyer une 404 sur ce type de lien.

milouchouchou · 2 Avril 2011

Dolph a dit:
On peut faire les même menu en pur html/css. ;-)

Et pour ce qui est des liens, c'est aussi à toi de renvoyer une 404 sur ce type de lien.

Ok pour le menu, mais apparemment celui-ci fonctionne très bien, mais je vais étudier cette possibilité.

Il y a une 404 personnalisée sur le site et elle fonctionne.
Dans le cas présent, si j'envoie ces liens exotiques, je retombe sur ma page index.

Ce que je voudrais savoir, c'est de où Google tient ces liens ?
J'ai installé le programme Xenu Link Sleuth, il est occupé à vérifier...

milouchouchou · 2 Avril 2011

UsagiYojimbo a dit:
Faudra que tu nous expliques au passage ta balise noscript gavé de liens, c'est pas très clean, voire même risqué.

Après vérification de mon générateur de menu, voici la réponse :

Selecting this option will make the output HTML code search engine friendly by outputing <a> tags (HTML links) for each menu item inside a <noscript> tag, therefore allowing search spiders to crawl through your site.

UsagiYojimbo · 2 Avril 2011

Je n'avais initialement pas vu que ton menu était totalement en javascript. C'est sûr que ça serait quand même mieux d'avoir une version html/css.

Dolph · 2 Avril 2011

milouchouchou a dit:
Il y a une 404 personnalisée sur le site et elle fonctionne.

La preuve que non sinon ce type de lien aboutirait sur une 404.

milouchouchou · 3 Avril 2011

Bonjour

Voilà, les liens de mon site (plus de 120 000) ont été vérifié, et comme je m'en doutais, tous les liens sont bons.

Ma question initiale reste donc d'actualité : où va-t-il chercher cela ?

Bonne journée.
Francis

UsagiYojimbo · 3 Avril 2011

Déjà les adresses avec et sans www répondent de la même manière, ce qui est déjà un problème en soit.

La deuxième url que tu met à été indexée et répond, ce qui montre, comme le disait Dolph, que ta page 404 fonctionne mal : https://www.google.com/search?hl=fr&client=firefox-a&hs=iAf&rls=org.moz ... =&aql=&oq=

https://www.google.com/search?q=site:milouchouchou.com+inurl:html/parad ... s&filter=0 est également indexée

preuve que tu as sans doute un souci interne avec tes url.

milouchouchou · 4 Avril 2011

Tout ce qui se trouve derrière index.php ne sont que des paramètres inutiles ajoutés par le robot d'indexation, on se retrouve donc automatiquement sur la page index.php

Il n'y a pas de soucis internes, je l'ai signalé dans ma réponse précédente.

Pour les adresses avec ou sans www, le soucis vient à nouveau du robot, mon site est configuré en www et tous les sitemaps le sont aussi.

UsagiYojimbo · 4 Avril 2011

Il se peut aussi que ces pages aient été indexées avant que tu ais mis en place la réécriture des url. Il faut donc prévoir les redirections qui vont bien dans ce cas.

Pour le www et sans www, il suffit qu'un lien interne au site pointe vers l'url avec / sans pour que les deux se retrouvent indexées si rien n'a été fait.

fredfan · 4 Avril 2011

Je ne pense pas que les liens dans les balises noscript soient comptabilisés dans l'algorithme Google, même s'ils sont suivis. Il y avait eu une annonce dans ce sens il y a quelques années pour éviter le spam.

milouchouchou · 4 Avril 2011

fredfan a dit:
Je ne pense pas que les liens dans les balises noscript soient comptabilisés dans l'algorithme Google, même s'ils sont suivis. Il y avait eu une annonce dans ce sens il y a quelques années pour éviter le spam.

En HTML, la balise NoScript permet de donner un contenu alternatif quand un script n'a pas pu être exécuté (voir la balise Script).

En pratique, cette balise fait généralement référence au langage Javascript. Actuellement, la majorité des navigateurs reconnaissent le Javascript. Néanmoins, il reste toujours possible pour les internautes de désactiver manuellement ce langage dans les options du navigateur, d'où l'intérêt d'utiliser la balise NoScript.

Je me trompe ou pas ?

UsagiYojimbo a dit:
Il se peut aussi que ces pages aient été indexées avant que tu ais mis en place la réécriture des url. Il faut donc prévoir les redirections qui vont bien dans ce cas.

Pour le www et sans www, il suffit qu'un lien interne au site pointe vers l'url avec / sans pour que les deux se retrouvent indexées si rien n'a été fait.

Ces liens n'ont jamais existé et aucune n'a jamais été faite. Quand aux redirections, je n'ai pas envie de passer le reste de ma vie à suivre les élucubrations des robots, et puis bonjour le fichier htaccess, il risque de prendre des proportions anormales avec toutes ces lignes de redirections.

Toutes les rares pages où se trouve un lien de retour vers la page d'accueil est codée avec un / sans mentionner index.php

fredfan · 4 Avril 2011

C'est un coup de gueule contre Google ou une demande de conseil ?

Dolph · 4 Avril 2011

milouchouchou a dit:
Il n'y a pas de soucis internes, je l'ai signalé dans ma réponse précédente.

Oui, donc on en revient à ma réponse. Ta faute ou la leur, corrigé ou pas, il faut que ces liens disparaisent de l'index de Google, et donc, seul une gestion htaccess/php via 301 ou 404 solutionnera ton problème.

milouchouchou · 4 Avril 2011

fredfan a dit:
C'est un coup de gueule contre Google ou une demande de conseil ?

Je ne vois pas le rapport, je constate et j'essaie de comprendre.

Dolph a dit:
Oui, donc on en revient à ma réponse. Ta faute ou la leur, corrigé ou pas, il faut que ces liens disparaisent de l'index de Google, et donc, seul une gestion htaccess/php via 301 ou 404 solutionnera ton problème.

301 mais pas en PHP, je vois mal où placer un
header("Status: 301 Moved Permanently", false, 301);
header("Location: http://www.xxxxxx);
exit();
vu que les pages n'existent pas, je ne vais quand même pas les créer pour y ajouter un 301

Quand au htaccess, je risque de ralentir considérablement mon site avec l'ajout de xxxx lignes, vu que ce sont à chaque fois des adresses différentes.

Mais on se détourne de ma question initiale qui est " Où va-t-il chercher ces adresses exotiques ? "
C'est ce que je voudrais savoir, je n'ai ni envie de mourir idiot, ni envie de corriger quelque chose qui ne vient pas de chez moi

fredfan · 4 Avril 2011

milouchouchou a dit:
Ces liens n'ont jamais existé et aucune n'a jamais été faite. Quand aux redirections, je n'ai pas envie de passer le reste de ma vie à suivre les élucubrations des robots

D'où ma question. Contrairement à ce que tu affirmes, Google n'invente pas d'url. Il se contente de constater ce qu'on lui met sous les yeux. Le bidouillage de page 404 n'est pas une bonne solution parce que le header reste en 404 et tu peux faire des dégâts à ton référencement. Il faut soit un 301 en htaccess, soit un 301 dans des index.php dans chaque dossier, soit interdire l'indexation dans un robots.txt ou des noindex dans un index.html dans chaque répertoire.
C'est une mauvaise solution d'espérer que Google va réécrire sont algorithme.

Dolph · 5 Avril 2011

milouchouchou a dit:
Oui, donc on en revient à ma réponse. Ta faute ou la leur, corrigé ou pas, il faut que ces liens disparaisent de l'index de Google, et donc, seul une gestion htaccess/php via 301 ou 404 solutionnera ton problème.

301 mais pas en PHP, je vois mal où placer un
header("Status: 301 Moved Permanently", false, 301);
header("Location: http://www.xxxxxx);
exit();
vu que les pages n'existent pas, je ne vais quand même pas les créer pour y ajouter un 301[/quote]
0o

Tu a une page /toto et gg y parvient en mettant /toto/blabla/
eh bien tu vérifie que l'url demandé est la bonne pour afficher, sinon tu redirige 301 ou 404, selon ton choix.

milouchouchou a dit:
Quand au htaccess, je risque de ralentir considérablement mon site avec l'ajout de xxxx lignes, vu que ce sont à chaque fois des adresses différentes.

D'où les redirection php.

milouchouchou a dit:
Mais on se détourne de ma question initiale qui est " Où va-t-il chercher ces adresses exotiques ? "
C'est ce que je voudrais savoir, je n'ai ni envie de mourir idiot, ni envie de corriger quelque chose qui ne vient pas de chez moi

Sauf que celles qui sont maintenant dans son index, il faut les gérer. C'est con, mais c'est ainsi. C'est a toi de blinder ton site pour empêcher ce type de chose.
T'a pensé que cela pouvait venir d'un concurrent qui cherche à te déclasser pour duplicate content ?

Bon j'édite mon poste...
Tu as tout un travail de gestion de tes url, parce que ton accueil existe via 4 pages, et GG n'aime pas ça :
http://milouchouchou.com/index.php
http://www.milouchouchou.com/index.php
http://milouchouchou.com/
Et le problème vient du fait que tu ne fais aucune gestion des paramètre d'url, ainsi, moi, je peux aussi en construire une url : http://milouchouchou.com/index.php?Bouhhhh-le-site-quil-est-mal-gere
http://www.milouchouchou.com/

milouchouchou · 7 Avril 2011

Mon site a toujours été réglé sur http://www.milouchouchou.com/ si maintenant des urluberlus s'amusent à faire des liens fantaisistes...

Et en fin de compte, je ne sais toujours pas comment ces liens exotiques sont créés :cry: :cry:
Si ça amuse les spiders, c'est leur problème, le mien est d'essayer de comprendre et ne pas avoir à bidouiller des fichiers pour gérer ces erreurs.
De toute façon, tout ce qui est avec index.php est automatiquement redirigé vers l'accueil.

Dolph · 7 Avril 2011

milouchouchou a dit:
De toute façon, tout ce qui est avec index.php est automatiquement redirigé vers l'accueil.

... je crois que tu as d'énormes lacunes.

Oui, toute ces pages affiche l'accueil, le problème, c'est que google va les prendre en compte et pour lui se ra au final 6 pages avec le même contenu et tu te retrouvera pénalisé pour duplication.

milouchouchou · 7 Avril 2011

Le problème du www est résolu, pour le reste, comme je n'y comprends rien, je laisse tel quel.

HawkEye · 8 Avril 2011

Si c'est indexé, c'est qu'il y a un code d'état 200.
S'il y a un code d'état 200, c'est que le script ne vérifie pas sont URL canonique.

Dès lors que ton script relève les variables envoyées, il doit être capable de déterminer l'URL "légitime" (ou canonique) d'une page, ou de déterminer qu'il s'agit d'une URL erronée, et donc d'effectuer une 301 soit vers l'URL légitime, soit vers la home, soit d'envoyer une 404.

Creuse de ce côté

milouchouchou · 8 Avril 2011

Voilà, on dirait que ces problèmes d'URL exotiques soient résolues, reste plus qu'à suivre dans mes stats pour voir s'il ne faut pas ajouter une ligne.

Il y a juste pour le lien

Code:

http://milouchouchou.com/index.php?Bouhhhh-le-site-quil-est-mal-gere

où il reste le ?Bouhhhh-le-site-quil-est-mal-gere après la redirection ce qui donne

Code:

http://milouchouchou.com?Bouhhhh-le-site-quil-est-mal-gere

Une petite idée sur ce dernier point ?

Voici les quelques ligne ajoutées à mon htaccess

Code:

RewriteEngine on

RewriteCond %{HTTP_HOST} ^milouchouchou.com$
RewriteRule ^(.*)$ http://www.milouchouchou.com/ [QSA,L,R=301]

RewriteCond %{QUERY_STRING} ^Itemid=.*$
RewriteRule ^(.*)$ /$1?%1 [L,R=301]
RewriteRule ^index.php	/ [R=301,L]
RewriteRule ^schnauzer-geant / [R=301,L]

Dolph · 8 Avril 2011

Normalement ça, ça fonctionne.

Code:

RewriteRule ^index.php   /? [R=301,L]

Le ? derrière le / permet de ne faire passé aucun critère d'url.

milouchouchou · 8 Avril 2011

Merci mais désolé, j'ai toujours

Code:

http://milouchouchou.com?Bouhhhh-le-site-quil-est-mal-gere

milouchouchou · 8 Avril 2011

Code:

RewriteCond %{QUERY_STRING} .+
RewriteRule ^$ /? [L,R=301]

Apparemment, tout serait correct.
Merci pour vos réponses.
Si jamais il y avait du nouveau, je reviens.

Cordialement.
Francis

milouchouchou · 15 Avril 2011

Je me demande franchement comment ces "abrutis" font pour en arriver à créer ce type de lien

Code:

/expliquer-votre-reve/chats-ou-chatons-a-adopter

Code:

/les-coups-de-coeur-et-temoignages/les-futures-naissances/colleys-chiots-eleves-en-famille

Ou il y a quelque part un sérieux bug dans les spiders ou alors ceux qui ont codés les routines de recherche ont un petit verre dans le nez

J'ai actuellement 231 redirection 301 dans mon htaccess

Dolph · 15 Avril 2011

Disons que si tu les ajoutes à la main, ça peut vite devenir lourd.

Le mieux et de gérer en php ce que tu attend comme ULR.
En fonction du critère qui t'interesse, tu rediriges sur la bone url en 301

exemple :

On appel : ./fiche-caniche/la-recette-de-mémé
Toi, tu attend ./fiche-caniche/
tu redirige en php 301 vers ./fiche-caniche/?