Htaccess et robot Google

Discussion dans 'URL Rewriting et .htaccess' créé par zelaz, 6 Janvier 2014.

Tags:
  1. zelaz
    zelaz Nouveau WRInaute
    Inscrit:
    1 Septembre 2013
    Messages:
    2
    J'aime reçus:
    0
    Bonjour,

    Quelqu'un pourrait-il m'aider à comprendre où se trouvent les erreurs de mon htaccess ?

    Voilà 8 mois que j'ai mis en place l'URL rewriting et certaines requêtes des robots me laissent perplexes.
    Le site est assez simple et affiche une galerie de photos et de peintures avec possibilité d'afficher en taille moyenne ou en taille écran la photo ou la peinture voulue. Des options supplémentaires et banales comme une fiche de contact, un livre d'or, un historique des expositions et un calendrier des expositions.
    Le site est essentiellement composé de 3 dossiers avec la hiérarchie suivante :
    http://monsite.com/creations/usrcrt/ où usrcrt contient les programmes.
    http://monsite.com/creations/usrpho/ où usrpho contient les photos à afficher et dont l'accès est protégé dans robots.txt.

    Le fichier htaccess est placé dans usrcrt.
    Les redirections se font en grande partie dans les programmes et sont accompagnées de header("Status: 301 Moved Permanently", false, 301).
    Si le programme est appelé avec d'anciens paramètres (notamment des Id de photos ou d'albums), la redirection se fait automatiquement vers une URL correcte, sinon, si le paramètre passé est une URL, le programme s'exécute normalement.
    Tous les programmes comportent la balise <base href=<?php echo $chemin_programme; ?>> où la variable $chemin_programme est initialisée avec '/creations/usrcrt/'.

    Je joins ci-dessous le fichier htaccess.

    Code:
    ErrorDocument 404 /creations/usrcrt/a14erreur_404.php
    
    Redirect permanent /creations/usrcrt/a14alb_usr.php /creations/usrcrt/albums-peintures
    Redirect permanent /creations/usrcrt/a14gal_usr.php /creations/usrcrt/galerie-peintures
    
    Options +FollowSymlinks
    RewriteEngine on
    
    RewriteRule ^accueil/?$ a14gal_pho_usr.php?g_opt_etq=Galerie [L]
    RewriteRule ^expositions/?$ a14usrmnu_pnt.php?g_opt_etq=Expositions [L]
    RewriteRule ^historique/?$ a14usrmnu_pnt.php?g_opt_etq=Historique [L]
    RewriteRule ^liens/?$ a14lnk_usr.php?g_opt_etq=Liens [L]
    RewriteRule ^contact/?$ a14cnt_usr.php?g_opt_etq=Contact [L]
    
    RewriteRule ^livre-d-or/saisie-d-un-message/?$ a14liv_usr.php?g_wbm_form_id=398&g_opt_etq=Livre_d_or [L]
    RewriteRule ^livre-d-or/page-([0-9-]+)/?$ a14liv_usr.php?g_wbm_form_id=397&g_opt_etq=Livre_d_or&g_wbm_typact=Nouvelle_page&g_wbm_affpag=$1 [L]
    RewriteRule ^livre-d-or/?$ a14liv_usr.php?g_opt_etq=Livre_d_or [L]
    
    RewriteRule ^album-photos/([a-zA-Z0-9-]+)/page-([0-9-]+)/?$ a14albpho_pho_usr.php?g_wbm_form_id=505&g_opt_etq=Albums&g_wbm_typact=Nouvelle_page&g_alb_url_lbl=$1&g_wbm_affpag=$2 [L]
    RewriteRule ^album-photos/([a-zA-Z0-9-]+)/([a-zA-Z0-9-]+)-taille-ecran/?$ a14albpho_pho_usr_affmax.php?g_opt_etq=Albums&g_alb_url_lbl=$1&g_gal_url_lbl=$2 [L]
    RewriteRule ^album-photos/([a-zA-Z0-9-]+)/([a-zA-Z0-9-]+)/?$ a14albpho_pho_usr_affmoy.php?g_opt_etq=Albums&g_alb_url_lbl=$1&g_gal_url_lbl=$2 [L]
    RewriteRule ^album-photos/([a-zA-Z0-9-]+)/?$ a14albpho_pho_usr.php?g_opt_etq=Albums&g_alb_url_lbl=$1 [L]
    RewriteRule ^albums-photos/?$ a14alb_pho_usr.php?g_opt_etq=Albums [L]
    
    RewriteRule ^album-peintures/([a-zA-Z0-9-]+)/page-([0-9-]+)/?$ a14albpho_pnt_usr.php?g_wbm_form_id=472&g_opt_etq=Albums&g_wbm_typact=Nouvelle_page&g_alb_url_lbl=$1&g_wbm_affpag=$2 [L]
    RewriteRule ^album-peintures/([a-zA-Z0-9-]+)/([a-zA-Z0-9-]+)-taille-ecran/?$ a14albpho_pnt_usr_affmax.php?g_opt_etq=Albums&g_alb_url_lbl=$1&g_gal_url_lbl=$2 [L]
    RewriteRule ^album-peintures/([a-zA-Z0-9-]+)/([a-zA-Z0-9-]+)/?$ a14albpho_pnt_usr_affmoy.php?g_opt_etq=Albums&g_alb_url_lbl=$1&g_gal_url_lbl=$2 [L]
    RewriteRule ^album-peintures/([a-zA-Z0-9-]+)/?$ a14albpho_pnt_usr.php?g_opt_etq=Albums&g_alb_url_lbl=$1 [L]
    RewriteRule ^albums-peintures/?$ a14alb_pnt_usr.php?g_opt_etq=Albums [L]
    
    RewriteRule ^galerie-photos/page-([0-9-]+)/?$ a14gal_pho_usr.php?g_wbm_form_id=503&g_opt_etq=Galerie&g_wbm_typact=Nouvelle_page&g_wbm_affpag=$1 [L]
    RewriteRule ^galerie-photos/([a-zA-Z0-9-]+)-taille-ecran/?$ a14gal_pho_usr_affmax.php?g_opt_etq=Galerie&g_gal_url_lbl=$1 [L]
    RewriteRule ^galerie-photos/([a-zA-Z0-9-]+)/?$ a14gal_pho_usr_affmoy.php?g_opt_etq=Galerie&g_gal_url_lbl=$1 [L]
    RewriteRule ^galerie-photos/?$ a14gal_pho_usr.php?g_opt_etq=Galerie [L]
    
    RewriteRule ^galerie-peintures/page-([0-9-]+)/?$ a14gal_pnt_usr.php?g_wbm_form_id=433&g_opt_etq=Galerie&g_wbm_typact=Nouvelle_page&g_wbm_affpag=$1 [L]
    RewriteRule ^galerie-peintures/([a-zA-Z0-9-]+)-taille-ecran/?$ a14gal_pnt_usr_affmax.php?g_opt_etq=Galerie&g_gal_url_lbl=$1 [L]
    RewriteRule ^galerie-peintures/([a-zA-Z0-9-]+)/?$ a14gal_pnt_usr_affmoy.php?g_opt_etq=Galerie&g_gal_url_lbl=$1 [L]
    RewriteRule ^galerie-peintures/?$ a14gal_pnt_usr.php?g_opt_etq=Galerie [L]
    
    Tout fonctionne à merveille pour un utilisateur humain.
    Les appels avec URL sont corrects.
    Les redirections s'effectuent correctement si le programme est appelé avec d'anciens paramètres.

    Par contre, le problème vient des robots qui, au contraire, font des requêtes aberrantes comme :
    galerie-peintures/expositions
    ce qui voudrait dire qu'il essaye d'afficher une peinture "expositions" qui bien sûr n'existe pas. D'où le message "Photo inconnue".

    Aucun programme ne compose d'Url aussi farfelues. C'est comme si le robot essayait à tout prix d'accéder à toute combinaison d'URL diverses et aléatoires qui n'ont rien à voir entre elles.

    Voici un florilège des requêtes aberrantes que j'ai relevées et qui, toutes, aboutissent à l'erreur 404 ou à Photo inconnue :
    album-peintures/faune-et-flore/album-peintures/faune-et-flore/les-liserons
    galerie-peintures/galerie-peintures/galerie-peintures-taille-ecran
    album-peintures/nature-morte/album-peintures/nature-morte/livre-d-or-taille-ecran
    album-peintures/au-fil-de-l-eau/historique
    album-peintures/contact
    galerie-photos/expositions
    galerie-peintures/livre-d-or
    livre-d-or/livre-d-or/page-4
    etc...

    Ce qui m'inquiète, c'est qu'un robot de Google (66.249.75.107) commence à faire de même.

    Pourriez-vous m'aider et m'indiquer ce qui cloche dans mon htaccess ?
     
  2. nickargall
    nickargall WRInaute accro
    Inscrit:
    13 Juin 2005
    Messages:
    6 601
    J'aime reçus:
    4
    Bonjour
    Je ne pense pas que les robots se mettent à inventer des "href" ou des "src" selon leur gré, ils ont du trouver un chemin pour en arriver là

    Je te conseillerais de lancer Xenu Link Sleuth sur ton site pour voir si tu n'as pas des accès ouverts vers ces URL redondantes (peut être un lien HREF ou SRC laissé en relatif et qui se prend les pieds dans le paillasson du fait des répertoires virtuels ?)
     
  3. zelaz
    zelaz Nouveau WRInaute
    Inscrit:
    1 Septembre 2013
    Messages:
    2
    J'aime reçus:
    0
    Bonjour Nickargall,

    J'ai chargé Xenu Link Sleuth comme tu me l'as conseillé, mais ses résultats ne sont guère convaincants.
    Les premiers résultats mettent en évidence de nombreuses URLS non trouvées, alors que si je les tape sur la barre d'adresses, elles sont correctes.
    Je n'ai pas l'habitude de ce logiciel et je crois que je ne sais pas l'utiliser. Je me renseigne sur son utilisation et te recontacte plus tard.

    Edit :
    Sur un autre forum, on m'a signalé qu'il fallait mettre la balise <base href> en adresses absolues alors qu'auparavant c'était en adresses relatives.
    J'ai repassé Xenu Link Sleuth après cette modification et maintenant tout semble être rentré dans l'ordre.
    Je vais attendre pour voir les résultats futurs. En tous cas, merci de ton aide.
     
Chargement...
Similar Threads - Htaccess robot Google Forum Date
Où puis-je configurer le fichier robots.txt et le htaccess ? Débuter en référencement 10 Avril 2018
Bloquer robot explorateurs .htaccess Crawl et indexation Google, sitemaps 17 Novembre 2014
Exception htaccess robots.txt URL Rewriting et .htaccess 22 Mai 2014
Supprimer 200 pages inexistantes avec un robots.txt et redirection dans un htaccess Crawl et indexation Google, sitemaps 27 Juin 2011
Restriction : htaccess ou robots URL Rewriting et .htaccess 15 Décembre 2008
[RESOLU] difference fichier robots et htaccess ? Débuter en référencement 2 Septembre 2008
Mon .htaccess anti robot Spammeur ? URL Rewriting et .htaccess 6 Mai 2008
[résolu]htaccess, et robot Problèmes de référencement spécifiques à vos sites 5 Septembre 2007
Htaccess, robots et sitemap chez 1&1 Administration d'un site Web 3 Septembre 2007
Interdire un dossier sans htaccess no robots.txt ? Débuter en référencement 27 Février 2007
Gestion de robots.txt des pages créées en htaccess URL Rewriting et .htaccess 23 Mars 2006
Detection des robots / htaccess Débuter en référencement 20 Juillet 2004
Redirection 404 via le .htaccess / pb avec les liens relatifs Débuter en référencement 5 Mai 2022
WordPress Petit souci de redirection htaccess URL Rewriting et .htaccess 3 Mai 2022
htaccess vs modifications site, quelle stratégie ? Merci URL Rewriting et .htaccess 10 Mars 2022
Redirection url htaccess Développement d'un site Web ou d'une appli mobile 14 Janvier 2022
Priorité entre le serveur et le fichier Htaccess URL Rewriting et .htaccess 4 Janvier 2022
importance de l'ordre des instructions dans un fichier htaccess URL Rewriting et .htaccess 3 Janvier 2022
Variables SetEnv dans un fichier htaccess URL Rewriting et .htaccess 25 Décembre 2021
htaccess qui fonctionne partout sauf sur 1 seul PC URL Rewriting et .htaccess 28 Juillet 2021