évènement très louche sur mon site perso

WRInaute impliqué
Bonjour,

Voilà l'histoire :
Je créé une nouvelle série d'articles sur mon site avec des fichiers en dur sur mon site en free.fr (pas d'utilisation de BDD) du genre http://monwebsitez.free.fr/cinema/video.php ainsi que http://monwebsitez.free.fr/cinema/video/film1.php, http://monwebsitez.free.fr/cinema/video/film2.php
etc...

Google indexe en 2 jours cette série mais les désindexe le lendemain (sans vraiment m'inquieter, c'est les aléas de google me dis-je), un petit tour sur robotstats pour m'apercevoir qu'il essayait de crawlé http://monwebsitez.free.fr/cinema/video ... /film3.php et des dizaines d'URL du même genre, des URL qui n'existent pas (j'ai vérifié sur mon FTP) & liés de nul part (faîte moi confiance) mais je viens seulement de m'apercevoir aujourd'hui qu'ils renvoyaient des codes 200 OK !!! Je surf dessus & toutes ces pages sont une copie parfaite de http://monwebsitez.free.fr/cinema/video.php

Voilà, questions,
1. comment Google a pu trouver ces pages linkés de nul part & qui n'existe pas dans mon FTP (mais qui renvois un code 200 :?)
2. A la limite Google je m'en fiche, c'est surtout comment ces URL peuvent exister alors que c'est tout simplement impossible...

Super louche non ?
Quelque chose d'énorme a dû m'échapper mais je ne vois pas !!!
Merci de m'aider !
 
WRInaute impliqué
ok, c'est moche mais c'est perso donc mais on rigole pas :mrgreen:

ça c'est l'original qui a été désindexé : http://freetopia.free.fr/cinema/bandes- ... -films.php

Les URLS qui existent (mais pas vraiment) (exemples)
xhttp://freetopia.free.fr/cinema/bandes ... ristal.php
Tu mets n'importe quoi après xhttp://freetopia.free.fr/cinema/bandes-annonces-films/ et ça marche.
Preuve que ce n'est pas possible : http://freetopia.free.fr/cinema/


(j'ai ajouté un x devant les pages inculpées pour éviter que google indexe ces bêtises)
 
WRInaute discret
le HtAccess est une bonne piste

tu n'aurais pas écrit des articles qui ne serait pas publiés ou quelque chose scomme cela
c'est bizzare ton
truc

la page que tu cites existe bel et bien pourtant
 
WRInaute impliqué
raljx a dit:
Google lui indexe des pages qui n'existent pas ...
Pour être exact, elles répondent 200 OK et s'affichent, mais les fichiers et les répertoires N'EXISTENT PAS.

raljx a dit:
Ce qui est bizarre c'est que des pages comme : xhttp://freetopia.free.fr/cinema/bandes ... ristal.php ne sont pas en 404.

Tu as des regles d'URL Rewriting dans un htaccess ?
Free ne supporte même pas l'URL rewriting...
Et je n'ai pas placé d'htaccess sur mon site.



eric-joomla a dit:
tu n'aurais pas écrit des articles qui ne serait pas publiés ou quelque chose scomme cela
c'est bizzare ton
truc

la page que tu cites existe bel et bien pourtant
Elle apparait mais regarde si tu mate la racine de xhttp://freetopia.free.fr/cinema/bandes ... ristal.php c'est à dire http://freetopia.free.fr/cinema le répertoire /cinema/bandes-annonces-films/ n'existe pas.... :?
 
WRInaute passionné
Lorsque tu tapes : -http://freetopia.free.fr/cinema/bandes-annonces-films/sdfsdf/gdfgds c'est a dire n'importe quoi apres l'url d'une page qui existe cela fonctionne :8

et tu as bien un header à 200 OK

Date: Mon, 08 Sep 2008 10:55:39 GMT
Server: Apache/ProXad [Aug 9 2008 02:45:09]
X-Powered-By: PHP/4.4.3-dev
Connection: close
Content-Type: text/html

200 OK

Le code est perso ?
 
WRInaute accro
dans ton htaccess, si tu as une réécriture, il ne faut pas utiliser (.*) mais ([^/]*) ce qui fera que tu ne pourras pas avoir plus de sous répertoires virtuels que nécessaire.
 
WRInaute impliqué
J'ai dis ci-dessus que je n'utilise pas d'url rewriting (blocage de free), ni d'htaccess...

Je sais que quelque chose de très bizarre mais personne n'a la moindre idée ?
 
WRInaute passionné
Hello,

il n'y a rien "d'anormal" à ça....

Le fait qu'en mettant /film1/ on tombe sur /film1.php est normal, c'est le module mod_negotiation d'Apache qui gère ça.

Ensuite le fait que /film1.php/n-importe/quoi-derriere/ fonctionne est également "normal". Je crois que ça a toujours été le cas, non ?

Tu combines ces deux fonctionnalités et tu comprends pourquoi /film1/film2/film3.php fonctionne parfaitement.

Maintenant pourquoi Google index ça ? C'est "simple" : imagine que sur la page film1.php tu mettes simplement un lien vers film2.php au lieu de /film2.php ; si Google a accédé à la page grace à l'adresse /film1/ il traduit automatiquement le lien par /film1/film2.php.
Donc toujours rien d'anormal ; et aucunement besoin de la moindre ré-écriture.

Le seul soucis à la limite c'est pourquoi a t-il commencé à accédé à une adresse telle que /film1/ ? Il ne l'a certainement pas inventé, il y a forcément eu un lien foireux quelque part.
 
WRInaute impliqué
re !
Bool a dit:
Hello,

il n'y a rien "d'anormal" à ça....

Le fait qu'en mettant /film1/ on tombe sur /film1.php est normal, c'est le module mod_negotiation d'Apache qui gère ça.

Ensuite le fait que /film1.php/n-importe/quoi-derriere/ fonctionne est également "normal". Je crois que ça a toujours été le cas, non ?

Tu combines ces deux fonctionnalités et tu comprends pourquoi /film1/film2/film3.php fonctionne parfaitement.
Ah oui tout à fait, tu as raison, j'ai testé avec d'autres fichiers/repertoires de mon site, c'est curieux, je ne savais pas !

Bool a dit:
Maintenant pourquoi Google index ça ? C'est "simple" : imagine que sur la page film1.php tu mettes simplement un lien vers film2.php au lieu de /film2.php ; si Google a accédé à la page grace à l'adresse /film1/ il traduit automatiquement le lien par /film1/film2.php.
Donc toujours rien d'anormal ; et aucunement besoin de la moindre ré-écriture.

Le seul soucis à la limite c'est pourquoi a t-il commencé à accédé à une adresse telle que /film1/ ? Il ne l'a certainement pas inventé, il y a forcément eu un lien foireux quelque part.
Pour l'instant (encore aujourd'hui), il ne fait que crawlé, il a ré indexé les "bonnes" URL, j'espère ne pas voir apparaitre les "fausses" dans les SERPS : Risque de duplicate content maximal sinon !

Je suis à la recherche des liens faussés (je n'ai que quelques pages), rien trouvé pour l'instant... :(

Merci à toi pour l'info et à tout le monde d'avoir essayé de m'aider ! :p
 
WRInaute discret
J'ai exactement le même problème que toi, sur une seule page, avec un de mes sites.
J'ai une url qui est du style :
http://www.example.com/test/150-mon-titre-titre2.html
elle a été indexé en :
http://www.example.com/test/150-mon-titre-.....html

La page existe puisque mon script identifie l'ID de la page (le "150") et renvoie un "200 OK" mais l'url qui a été indexé avec les "...." n'est nul par sur mon site ni sur un site externe.


Je viens de faire une redirection 301 de la mauvaise url vers la bonne...wait and see ;)
 
Discussions similaires
Haut