Htaccess et robot Google

Discussion dans 'URL Rewriting et .htaccess' créé par zelaz, 6 Janvier 2014.

Tags:
  1. zelaz
    zelaz Nouveau WRInaute
    Inscrit:
    1 Septembre 2013
    Messages:
    2
    J'aime reçus:
    0
    Bonjour,

    Quelqu'un pourrait-il m'aider à comprendre où se trouvent les erreurs de mon htaccess ?

    Voilà 8 mois que j'ai mis en place l'URL rewriting et certaines requêtes des robots me laissent perplexes.
    Le site est assez simple et affiche une galerie de photos et de peintures avec possibilité d'afficher en taille moyenne ou en taille écran la photo ou la peinture voulue. Des options supplémentaires et banales comme une fiche de contact, un livre d'or, un historique des expositions et un calendrier des expositions.
    Le site est essentiellement composé de 3 dossiers avec la hiérarchie suivante :
    http://monsite.com/creations/usrcrt/ où usrcrt contient les programmes.
    http://monsite.com/creations/usrpho/ où usrpho contient les photos à afficher et dont l'accès est protégé dans robots.txt.

    Le fichier htaccess est placé dans usrcrt.
    Les redirections se font en grande partie dans les programmes et sont accompagnées de header("Status: 301 Moved Permanently", false, 301).
    Si le programme est appelé avec d'anciens paramètres (notamment des Id de photos ou d'albums), la redirection se fait automatiquement vers une URL correcte, sinon, si le paramètre passé est une URL, le programme s'exécute normalement.
    Tous les programmes comportent la balise <base href=<?php echo $chemin_programme; ?>> où la variable $chemin_programme est initialisée avec '/creations/usrcrt/'.

    Je joins ci-dessous le fichier htaccess.

    Code:
    ErrorDocument 404 /creations/usrcrt/a14erreur_404.php
    
    Redirect permanent /creations/usrcrt/a14alb_usr.php /creations/usrcrt/albums-peintures
    Redirect permanent /creations/usrcrt/a14gal_usr.php /creations/usrcrt/galerie-peintures
    
    Options +FollowSymlinks
    RewriteEngine on
    
    RewriteRule ^accueil/?$ a14gal_pho_usr.php?g_opt_etq=Galerie [L]
    RewriteRule ^expositions/?$ a14usrmnu_pnt.php?g_opt_etq=Expositions [L]
    RewriteRule ^historique/?$ a14usrmnu_pnt.php?g_opt_etq=Historique [L]
    RewriteRule ^liens/?$ a14lnk_usr.php?g_opt_etq=Liens [L]
    RewriteRule ^contact/?$ a14cnt_usr.php?g_opt_etq=Contact [L]
    
    RewriteRule ^livre-d-or/saisie-d-un-message/?$ a14liv_usr.php?g_wbm_form_id=398&g_opt_etq=Livre_d_or [L]
    RewriteRule ^livre-d-or/page-([0-9-]+)/?$ a14liv_usr.php?g_wbm_form_id=397&g_opt_etq=Livre_d_or&g_wbm_typact=Nouvelle_page&g_wbm_affpag=$1 [L]
    RewriteRule ^livre-d-or/?$ a14liv_usr.php?g_opt_etq=Livre_d_or [L]
    
    RewriteRule ^album-photos/([a-zA-Z0-9-]+)/page-([0-9-]+)/?$ a14albpho_pho_usr.php?g_wbm_form_id=505&g_opt_etq=Albums&g_wbm_typact=Nouvelle_page&g_alb_url_lbl=$1&g_wbm_affpag=$2 [L]
    RewriteRule ^album-photos/([a-zA-Z0-9-]+)/([a-zA-Z0-9-]+)-taille-ecran/?$ a14albpho_pho_usr_affmax.php?g_opt_etq=Albums&g_alb_url_lbl=$1&g_gal_url_lbl=$2 [L]
    RewriteRule ^album-photos/([a-zA-Z0-9-]+)/([a-zA-Z0-9-]+)/?$ a14albpho_pho_usr_affmoy.php?g_opt_etq=Albums&g_alb_url_lbl=$1&g_gal_url_lbl=$2 [L]
    RewriteRule ^album-photos/([a-zA-Z0-9-]+)/?$ a14albpho_pho_usr.php?g_opt_etq=Albums&g_alb_url_lbl=$1 [L]
    RewriteRule ^albums-photos/?$ a14alb_pho_usr.php?g_opt_etq=Albums [L]
    
    RewriteRule ^album-peintures/([a-zA-Z0-9-]+)/page-([0-9-]+)/?$ a14albpho_pnt_usr.php?g_wbm_form_id=472&g_opt_etq=Albums&g_wbm_typact=Nouvelle_page&g_alb_url_lbl=$1&g_wbm_affpag=$2 [L]
    RewriteRule ^album-peintures/([a-zA-Z0-9-]+)/([a-zA-Z0-9-]+)-taille-ecran/?$ a14albpho_pnt_usr_affmax.php?g_opt_etq=Albums&g_alb_url_lbl=$1&g_gal_url_lbl=$2 [L]
    RewriteRule ^album-peintures/([a-zA-Z0-9-]+)/([a-zA-Z0-9-]+)/?$ a14albpho_pnt_usr_affmoy.php?g_opt_etq=Albums&g_alb_url_lbl=$1&g_gal_url_lbl=$2 [L]
    RewriteRule ^album-peintures/([a-zA-Z0-9-]+)/?$ a14albpho_pnt_usr.php?g_opt_etq=Albums&g_alb_url_lbl=$1 [L]
    RewriteRule ^albums-peintures/?$ a14alb_pnt_usr.php?g_opt_etq=Albums [L]
    
    RewriteRule ^galerie-photos/page-([0-9-]+)/?$ a14gal_pho_usr.php?g_wbm_form_id=503&g_opt_etq=Galerie&g_wbm_typact=Nouvelle_page&g_wbm_affpag=$1 [L]
    RewriteRule ^galerie-photos/([a-zA-Z0-9-]+)-taille-ecran/?$ a14gal_pho_usr_affmax.php?g_opt_etq=Galerie&g_gal_url_lbl=$1 [L]
    RewriteRule ^galerie-photos/([a-zA-Z0-9-]+)/?$ a14gal_pho_usr_affmoy.php?g_opt_etq=Galerie&g_gal_url_lbl=$1 [L]
    RewriteRule ^galerie-photos/?$ a14gal_pho_usr.php?g_opt_etq=Galerie [L]
    
    RewriteRule ^galerie-peintures/page-([0-9-]+)/?$ a14gal_pnt_usr.php?g_wbm_form_id=433&g_opt_etq=Galerie&g_wbm_typact=Nouvelle_page&g_wbm_affpag=$1 [L]
    RewriteRule ^galerie-peintures/([a-zA-Z0-9-]+)-taille-ecran/?$ a14gal_pnt_usr_affmax.php?g_opt_etq=Galerie&g_gal_url_lbl=$1 [L]
    RewriteRule ^galerie-peintures/([a-zA-Z0-9-]+)/?$ a14gal_pnt_usr_affmoy.php?g_opt_etq=Galerie&g_gal_url_lbl=$1 [L]
    RewriteRule ^galerie-peintures/?$ a14gal_pnt_usr.php?g_opt_etq=Galerie [L]
    
    Tout fonctionne à merveille pour un utilisateur humain.
    Les appels avec URL sont corrects.
    Les redirections s'effectuent correctement si le programme est appelé avec d'anciens paramètres.

    Par contre, le problème vient des robots qui, au contraire, font des requêtes aberrantes comme :
    galerie-peintures/expositions
    ce qui voudrait dire qu'il essaye d'afficher une peinture "expositions" qui bien sûr n'existe pas. D'où le message "Photo inconnue".

    Aucun programme ne compose d'Url aussi farfelues. C'est comme si le robot essayait à tout prix d'accéder à toute combinaison d'URL diverses et aléatoires qui n'ont rien à voir entre elles.

    Voici un florilège des requêtes aberrantes que j'ai relevées et qui, toutes, aboutissent à l'erreur 404 ou à Photo inconnue :
    album-peintures/faune-et-flore/album-peintures/faune-et-flore/les-liserons
    galerie-peintures/galerie-peintures/galerie-peintures-taille-ecran
    album-peintures/nature-morte/album-peintures/nature-morte/livre-d-or-taille-ecran
    album-peintures/au-fil-de-l-eau/historique
    album-peintures/contact
    galerie-photos/expositions
    galerie-peintures/livre-d-or
    livre-d-or/livre-d-or/page-4
    etc...

    Ce qui m'inquiète, c'est qu'un robot de Google (66.249.75.107) commence à faire de même.

    Pourriez-vous m'aider et m'indiquer ce qui cloche dans mon htaccess ?
     
  2. nickargall
    nickargall WRInaute accro
    Inscrit:
    13 Juin 2005
    Messages:
    6 661
    J'aime reçus:
    4
    Bonjour
    Je ne pense pas que les robots se mettent à inventer des "href" ou des "src" selon leur gré, ils ont du trouver un chemin pour en arriver là

    Je te conseillerais de lancer Xenu Link Sleuth sur ton site pour voir si tu n'as pas des accès ouverts vers ces URL redondantes (peut être un lien HREF ou SRC laissé en relatif et qui se prend les pieds dans le paillasson du fait des répertoires virtuels ?)
     
  3. zelaz
    zelaz Nouveau WRInaute
    Inscrit:
    1 Septembre 2013
    Messages:
    2
    J'aime reçus:
    0
    Bonjour Nickargall,

    J'ai chargé Xenu Link Sleuth comme tu me l'as conseillé, mais ses résultats ne sont guère convaincants.
    Les premiers résultats mettent en évidence de nombreuses URLS non trouvées, alors que si je les tape sur la barre d'adresses, elles sont correctes.
    Je n'ai pas l'habitude de ce logiciel et je crois que je ne sais pas l'utiliser. Je me renseigne sur son utilisation et te recontacte plus tard.

    Edit :
    Sur un autre forum, on m'a signalé qu'il fallait mettre la balise <base href> en adresses absolues alors qu'auparavant c'était en adresses relatives.
    J'ai repassé Xenu Link Sleuth après cette modification et maintenant tout semble être rentré dans l'ordre.
    Je vais attendre pour voir les résultats futurs. En tous cas, merci de ton aide.
     
Chargement...
Similar Threads - Htaccess robot Google Forum Date
Où puis-je configurer le fichier robots.txt et le htaccess ? Débuter en référencement 10 Avril 2018
Bloquer robot explorateurs .htaccess Crawl et indexation Google, sitemaps 17 Novembre 2014
Exception htaccess robots.txt URL Rewriting et .htaccess 22 Mai 2014
Supprimer 200 pages inexistantes avec un robots.txt et redirection dans un htaccess Crawl et indexation Google, sitemaps 27 Juin 2011
htaccess qui fonctionne partout sauf sur 1 seul PC URL Rewriting et .htaccess 28 Juillet 2021
modification fichier htaccess URL Rewriting et .htaccess 25 Juillet 2021
Protection de site web : quel code ajouter dans htaccess ? URL Rewriting et .htaccess 5 Mars 2021
Blocage d'un visiteur via le fichier .htaccess URL Rewriting et .htaccess 5 Janvier 2021
sécurité avec htaccess URL Rewriting et .htaccess 18 Décembre 2020
Récriture .htaccess (sous-domaine + répertoire) URL Rewriting et .htaccess 11 Août 2020