Indexation urls inexistantes et GWT balise title en double

Discussion dans 'Crawl et indexation Google, sitemaps' créé par abouvard, 16 Juillet 2010.

  1. abouvard
    abouvard WRInaute occasionnel
    Inscrit:
    17 Août 2004
    Messages:
    400
    J'aime reçus:
    0
    Hello tous !

    Un problème récent pour des pages existant depuis longtemps :
    Une image pour l'illustrer:
    [​IMG]
    Les pages mentionnées ici dans les Outils Webmasters sont indexées par google.
    J'ai refait un crawl complet du site, les liens erronés (cf les flèches rouges, tels que: site-installation-energies-reno...bles-ile-france-1357.html) ne sont pas présents en interne,
    et je ne parviens pas à trouver en externe l'origine de ses URLs : comment faire ?

    Pour l'instant j'ai opéré des redirections 301, ai-je bien fait ?

    Merci
    bonne journée
    Arnaud
     
  2. bg62
    bg62 WRInaute impliqué
    Inscrit:
    25 Mai 2006
    Messages:
    661
    J'aime reçus:
    0
  3. abouvard
    abouvard WRInaute occasionnel
    Inscrit:
    17 Août 2004
    Messages:
    400
    J'aime reçus:
    0
    Merci pour ta réponse;
    Mais je ne comprends rien à ton analyse.

    Pour info, microferma n'est pas mon site.
    Les url que j'ai mentionnées concernent mon portail -www.energies-nouvelles.net
     
  4. bg62
    bg62 WRInaute impliqué
    Inscrit:
    25 Mai 2006
    Messages:
    661
    J'aime reçus:
    0
    il aurait fallu le dire avant ...
    mais même réponse : rien !
    recherche:
    https://www.google.fr/search?hl=fr&source=hp&q=site%3Awww.energies-nouv ... =&gs_rfai=
    capture :
    http://www.cijoint.fr/cjlink.php?file=cj201007/cij8V4Ghhp.jpg
    dernier passage de google :
    :wink:
     
  5. abouvard
    abouvard WRInaute occasionnel
    Inscrit:
    17 Août 2004
    Messages:
    400
    J'aime reçus:
    0
    Ben ca ne m'avance pas beaucoup, mais merci quand même :wink:

    Personne d'autre n'a d'idées sur la provenance de ces url bizarroïdes qui au final me génère du duplicate ?
    (elles sont indexées par GG, et je ne parviens pas à identifier leur origine : comment faire ?)
     
  6. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 878
    J'aime reçus:
    73
    La 301 va résoudre le souci de toutes façons.
     
  7. abouvard
    abouvard WRInaute occasionnel
    Inscrit:
    17 Août 2004
    Messages:
    400
    J'aime reçus:
    0
    Ok, merci UsagiYojimbo, pour la confirmation que la 301 pallie au problème.

    GG me rajoutant 2 urls inexistantes par jour, cela me contraint à gérer le pb quotidiennement, et la liste de 301 risque fort de s'allonger.

    J'ai donc complété le dispositif par une balise rel=canonical, qui sera présente dans les pages aux URL venues d'ailleurs.

    Toutefois, je soigne ici les effets, et je préfèrerai éradiquer la cause !!!
    L'origine de ces URL reste un mystère pour moi, alors si quelqu'un a des pistes, il aura toute ma gratitude :wink:
     
  8. bg62
    bg62 WRInaute impliqué
    Inscrit:
    25 Mai 2006
    Messages:
    661
    J'aime reçus:
    0
    :p
    un peu lourd quand même je viens de te mettre le lien chez google : il n'y a rien !
    + une capture d'écran
    as-tu regardé au moins ???
     
  9. abouvard
    abouvard WRInaute occasionnel
    Inscrit:
    17 Août 2004
    Messages:
    400
    J'aime reçus:
    0
    Je dois être stupide, je ne comprends pas ce que je dois voir.

    La commande site:www.energies-nouvelles.net ? oui ? et alors ?
     
  10. bg62
    bg62 WRInaute impliqué
    Inscrit:
    25 Mai 2006
    Messages:
    661
    J'aime reçus:
    0
    ben elle te donne les pages qui sont chez google et l'on ne voit rien de tel comme ce que tu décris en début de post ...
    vide ton cache et essaie, google ne donne pas des résultats différents selon les utilisateurs quand même ... 8O
     
  11. abouvard
    abouvard WRInaute occasionnel
    Inscrit:
    17 Août 2004
    Messages:
    400
    J'aime reçus:
    0
    Merci pour ton aide, mais avant de poster, j'ai vérifié :ces url anormales sont bien présentes dans l'index (probablement pas sur tous les datacenters), et donc reportées dans GWT.

    chez moi :
    https://www.google.fr/search?q=site:www.energies-nouvelles.net+altereco ... r&filter=0
    -> clique sur pages ignorées et tu auras 2 des urls incriminées.

    D'ailleurs ce n'est pas pour rien que les bonnes URL, autrefois positionnées dans les tous premiers résultats, ont été déclassées. Le Duplicate content est avéré.

    La question principale reste ouverte : ou GG les a-t-il donc pêchées ces URL erronées ? d'où mon appel à l'aide pour identifier leur origine
     
  12. alex84
    alex84 WRInaute impliqué
    Inscrit:
    6 Mars 2010
    Messages:
    745
    J'aime reçus:
    0
    j'ai le même soucis que toi google me sort des url qui n'existe pas du style www.mondomaine.com/?option=1 j'ai mis une balise cannonical sur la page d'acceuil en espérant que çà règle le soucis.
     
  13. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 192
    J'aime reçus:
    1
    Vous affichez vos référents quelque part par hasard ?
     
  14. abouvard
    abouvard WRInaute occasionnel
    Inscrit:
    17 Août 2004
    Messages:
    400
    J'aime reçus:
    0
    Hum ! Tu peux préciser !??
     
  15. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 192
    J'aime reçus:
    1
    Est ce que tu affiche des liens de pages qui renvoient sur ton site (-http://fr.wikipedia.org/wiki/R%C3%A9f%C3%A9rant)
    Si oui et qu'elles sont "indexable" l'url bidon d'origine ne viens pas forcement de chez toi.

    Sinon techniquement c'est pas super bon ta gestion des url car du moment que l'id de page est bon on peut mettre n'importe quoi dans l'url ce qui fait que si je décide de couler ton site je génère vite fait des milliers de liens pour tes pages et tu tombe en duplicate.

    Hors sujet tu as un souci avec au moins deux pages : https://www.google.fr/search?q=site%3Awww.energies-nouvelles.net+Warning
     
  16. abouvard
    abouvard WRInaute occasionnel
    Inscrit:
    17 Août 2004
    Messages:
    400
    J'aime reçus:
    0
    Merci pour les pistes de réflexion, Zeb.

    A priori non, pas d'affichages de référents.

    Tu as raison !
    Ma gestion URL est intimement liée à mes maigres connaissances en URL rewriting :wink:
    La meilleure façon de construire les url ?

    Vu. Merci !!!
     
  17. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 192
    J'aime reçus:
    1
    A première vue tes URLs sont sour la forme :

    Domain / titre de page en minuscule plus tiret - ID de page.HTML
    genre : -http://www.energies-nouvelles.net/site-electricite-chaleur-par-combustion-biomasse-lyon-ecoren-1354.html

    Perso pour des raisons de sécurité et éviter ça :

    Je mettrai un petit test en place en tête de page (avant tout traitement) qui recomposerai l'URL pour vérifier que c'est bien la même que $_SERVER['SCRIP_URI'].
    Théoriquement dans le script qui gère la fabrication de la page tu dois pouvoir intercepter l'ID de page (seul truc pas modifiable sans changer de page), donc le titre, donc tu dois pouvoir déduire que l'url réelle de la page est -http://www.energies-nouvelles.net/site-electricite-chaleur-par-combustion-biomasse-lyon-ecoren-1354.html
    et si c'est différent de $_SERVER['SCRIP_URI'] alors tu peut te dire que l'url est forgée ailleurs et renvoyer avec un header vers une page spécialisée dans ce traitement ou alors renvoyer vers l'url que tu as calculé toujours avec la fonction header (d'où l'importance de faire se traitement en amont de l'envoie de toute données sinon header ne marchera pas)

    La réécriture d'url est pas forcement le moyen le plus adapté pour traiter ce genre de souci je pense.
    Ou alors il faudrait vérifier dans le Htaccess que l'url demandé est valide et je voie pas comment faire dans la mesure ou je ne voie pas comment accéder aux titres de pages (qui sont la partie fragile de ton système) depuis ce fichier de traitement.

    Autre souci si je forge une URL bidon avec un ID trop haut genre :
    -http://www.energies-nouvelles.net/site-electricite-chaleur-par-combustion-biomasse-lyon-ecoren-100354.html

    tu obtiens un code erreur dans la page renvoyée :
     
  18. abouvard
    abouvard WRInaute occasionnel
    Inscrit:
    17 Août 2004
    Messages:
    400
    J'aime reçus:
    0
    Cool ! :D
    Je te remercie pour toutes ces infos détaillées et ces conseils !
    Je crois avoir capté, je vais bosser là-dessus ...
    Bonne journée
    Arnaud
     
  19. vicky06
    vicky06 Nouveau WRInaute
    Inscrit:
    27 Septembre 2012
    Messages:
    2
    J'aime reçus:
    0
    Bonjour,
    Je rencontre exactement le même problème sur mon site.
    As-tu pu trouver (depuis 2004) la raison du problème de duplicate content et URL inexistantes indexées par google?
    Si oui, je suis vraiment intéressée.
    Vicky
     
  20. abouvard
    abouvard WRInaute occasionnel
    Inscrit:
    17 Août 2004
    Messages:
    400
    J'aime reçus:
    0
    Hello.
    A l'époque j'ai mis en place un test de comparaison entre l'url canonical (= la bonne url à indexer) et l'adresse appelée par le navigateur.
    Si elles sont identiques, alors seulement j'autorise l'indexation.
     
  21. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 192
    J'aime reçus:
    1
    content que tu t'en sois sorti. Dans le cas inverse (url canonique != demande navigateur) qu'a tu fait avec la requête ?

    * R 301 sur la bonne page ?
    * 404 pour gérer et désindexer ?
    * autre ?
     
Chargement...
Similar Threads - Indexation urls inexistantes Forum Date
Desindexation d'URLs via htaccess Crawl et indexation Google, sitemaps 2 Août 2018
Indexation d'urls étranges ??? Référencement Google 8 Septembre 2016
Indexation urls mobile sur Google Desktop Crawl et indexation Google, sitemaps 19 Juin 2015
Non indexation urls et adwords Crawl et indexation Google, sitemaps 24 Avril 2012
Adwords: URLs et indexation AdWords 27 Janvier 2011
Empêcher l'indexation des urls a paramètres sur robots.txt ? Débuter en référencement 30 Mars 2010
Désindexation progressive / urls canoniques ? Problèmes de référencement spécifiques à vos sites 8 Septembre 2009
Temps d'indexation pour 12000 urls ? Problèmes de référencement spécifiques à vos sites 25 Août 2009
Bloquer l'indexation https, urls avec variables, etc, Débuter en référencement 12 Août 2009
Résolu Indexation : Erreur 503 et Qwant Autres moteurs de recherche connus Dimanche à 12:30
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice