Indexation bizarre dans Google

Nouveau WRInaute
Bonjour,

Google indexe bizarrement mon site qui est présent sur le web depuis plusieurs années et qui est bien placé sur son domaine :


Les noms de mes pages sont comme ceci:

http://monsiteweb/site_fr/page1.php
http://monsiteweb/site_fr/page2.php
http://monsiteweb/site_fr/page3.php
http://monsiteweb/site_fr/page4.php


Mais dans "suggestions HTML" des Outils pour les webmasters, je peux voir plus de 100 pages avec l’avertissement : "Balise titre en double" pour des pages comme ceci :

http://monsiteweb/site_fr/page1.php/page2.php
http://monsiteweb/site_fr/page1.php/page3.php
etc

Ces pages sont également présentes dans l'index Google.

J'ai utilisé l’utilitaire Xenu, pour explorer mon site entier et identifier de tels mauvais liens, mais ils ne figurent pas dans le récapitulatif: aucune erreur n'est signalée dans Xenu.

Bien sûr, je ne veux pas que ces pages soient indexées par Google.

Est-ce quelqu'un a une idée de la raison d’une telle indexation ?


Pour donner un exemple concret:

http://www.villemagne.net/site_fr/jerusalem-vikings-en-terre-sainte.php existe
http://www.villemagne.net/site_fr/alexandre-le-grand-voyages.php existe

La page suivante est indexée par Google (1), alors qu’elle n’existe pas dans mon site :

http://www.villemagne.net/site_fr/jerusalem-vikings-en-terre-sainte.ph ... oyages.php

(1) Comme on peut le voir en regardant dans Google : inurl:jerusalem-vikings-en-terre-sainte

Bizarre, non ?

Merci de votre aide
Pedibus
 
WRInaute discret
Bonsoir,
C'est a cause de la conception de ton site : si tu regarde les liens de tes page tu retrouves les pages "bizards", il est donc normale qu'elles soit indexées...
 
WRInaute accro
regarde du coté du htaccess, ou alors de liens du style nomdedomaine/repertoire/ tu sais sans fichier derrière. Quelques fois ca merdoie. Je pense que ca vient de ça. J'ai le soucis depuis longtemps.
 
Nouveau WRInaute
Dans le .htaccess, la seule règle de réécriture, c'est :

Options +FollowSymlinks
RewriteEngine on
RewriteRule ^(jscript|css)/(.+)\.(.+)\.(js|css)$ $1/$2.$4 [L]

J'avais repris ça il y a assez longtemps, et je ne sais plus trop ce que ça fait ; l'indexation bizarre pourrait venir de là ?

Ce qui m'étonne le plus, c'est que Xenu n'ait relevé aucun de ces liens bizarres indexés par Google
 
WRInaute discret
Je pense que tu avais du faire une erreur dans un de tes liens..

sur une page par erreur tu as dû mettre un truc du genre par exemple :
<a href="pelerin-d-orient-le-livre.php/">
et vu que la plupart des tes lien dans le code source sont comme ceci :
<a href="pelerin-d-orient-le-livre.php">

Il a donc suffis a google de suivre une seul fois le lien "pelerin-d-orient-le-livre.php/" pour ensuite avoir toutes les page du type "pelerin-d-orient-le-livre.php/pelerin-d-orient-le-livre.php"

La solution pour résoudre ton problème serais donc de mettre tes liens comme ceci :
<a href="/pelerin-d-orient-le-livre.php">
et ensuite de faire des redirection vers la véritable page sur les pages erronées...

Note : attention aux /
 
Nouveau WRInaute
@IllusionPerdu : J'ai scanné tout le site, sans trouver de ".php/", sauf dans la partie blog, qui utilise Wordpress, et voilà les seuls endroits où j'ai trouvé ".php/" ;

Wp-app.php - 40.400 bytes - dim., 18.04.10 at 16:14 - C:\wamp\www\villemagne\Blog\
661 $_SERVER['PATH_INFO'] = preg_replace( '/.*\/wp-app\.php/', '', $_SERVER['REQUEST_URI'] );
Xmlrpc.php - 93.445 bytes - dim., 18.04.10 at 16:14 - C:\wamp\www\villemagne\Blog\
1.811 <api name="Atom" blogID="" preferred="false" apiLink="<?php echo apply_filters('atom_service_url', site_url('wp-app.php/service', 'rpc') ) ?>" />
options-permalink.php - 11.233 bytes - dim., 18.04.10 at 16:14 - C:\wamp\www\villemagne\Blog\Wp-admin\
7.406 Locator">URL</abbr>s here. For example, using <code>topics</code> as your category base would make your category links like <code>http://example.org/index.php/topics/uncategorized/</code>. If you leave these blank the defaults will be used.') ?></p>
Post.php - 49.106 bytes - dim., 18.04.10 at 16:14 - C:\wamp\www\villemagne\Blog\Wp-admin\Includes\
39.632 http://wiki.moxiecode.com/index.php/TinyMCE:plugins/spellchecker
fbconnect.php - 20.569 bytes - dim., 18.04.10 at 16:01 - C:\wamp\www\villemagne\Blog\wp-content\Plugins\wp-facebookconnect\
14.578 http://wiki.developers.facebook.com/index.php/Authenticating_Users_on_Facebook
Facebook.php - 19.294 bytes - dim., 18.04.10 at 16:01 - C:\wamp\www\villemagne\Blog\wp-content\Plugins\wp-facebookconnect\facebook-client\
4.702 * http://wiki.developers.facebook.com/index.php/Verifying_The_Signature
canonical.php - 14.705 bytes - dim., 18.04.10 at 16:14 - C:\wamp\www\villemagne\Blog\wp-includes\
8.721 $paged_redirect['path'] = user_trailingslashit( preg_replace('|/index.php/?$|', '/', $paged_redirect['path']) ); // strip off trailing /index.php/
8.793 $paged_redirect['path'] = user_trailingslashit( preg_replace('|/index.php/?$|', '/', $paged_redirect['path']) ); // strip off trailing /index.php/
8.911 if ( !empty( $addl_path ) && $wp_rewrite->using_index_permalinks() && strpos($paged_redirect['path'], '/index.php/') === false )
9.010 $paged_redirect['path'] = trailingslashit($paged_redirect['path']) . 'index.php/';
10.089 $redirect['path'] = preg_replace('|/index.php/*?$|', '/', $redirect['path']);
10.746 // strip /index.php/ when we're not using PATHINFO permalinks
10.881 $redirect['path'] = str_replace('/index.php/', '/', $redirect['path']);
formatting.php - 90.160 bytes - dim., 18.04.10 at 16:14 - C:\wamp\www\villemagne\Blog\wp-includes\
71.379 substr( $url, 0, 1 ) != '/' && substr( $url, 0, 1 ) != '#' && !preg_match('/^[a-z0-9-]+?\.php/i', $url) )
link-template.php - 53.874 bytes - dim., 18.04.10 at 16:14 - C:\wamp\www\villemagne\Blog\wp-includes\
39.823 $base .= 'index.php/';
Rewrite.php - 57.021 bytes - dim., 18.04.10 at 16:14 - C:\wamp\www\villemagne\Blog\wp-includes\
3.626 * To remove any manually prepended /index.php/.
3.893 $base = preg_replace( '|^/index\.php/|', '', $base );
4.870 // added 'www.', or added 'index.php/' that will mess up our WP_Query
5.478 // Strip 'index.php/' if we're not using path info permalinks
5.599 $url = str_replace('index.php/', '', $url);

Je crois que je ne suis jamais allé modifier quoi que ce soit dans ces fichiers, qui doivent être le standard Wordpress.
Donc je ne vois pas encore où j'ai fait l'erreur...
 
Discussions similaires
Haut