Indexation urls inexistantes et GWT balise title en double

WRInaute occasionnel
Hello tous !

Un problème récent pour des pages existant depuis longtemps :
Une image pour l'illustrer:
gwtpburl.png

Les pages mentionnées ici dans les Outils Webmasters sont indexées par google.
J'ai refait un crawl complet du site, les liens erronés (cf les flèches rouges, tels que: site-installation-energies-reno...bles-ile-france-1357.html) ne sont pas présents en interne,
et je ne parviens pas à trouver en externe l'origine de ses URLs : comment faire ?

Pour l'instant j'ai opéré des redirections 301, ai-je bien fait ?

Merci
bonne journée
Arnaud
 
WRInaute occasionnel
Merci pour ta réponse;
Mais je ne comprends rien à ton analyse.

Pour info, microferma n'est pas mon site.
Les url que j'ai mentionnées concernent mon portail -www.energies-nouvelles.net
 
WRInaute impliqué
abouvard a dit:
Merci pour ta réponse;
Mais je ne comprends rien à ton analyse.

Pour info, microferma n'est pas mon site.
Les url que j'ai mentionnées concernent mon portail -www.energies-nouvelles.net
il aurait fallu le dire avant ...
mais même réponse : rien !
recherche:
https://www.google.fr/search?hl=fr&source=hp&q=site%3Awww.energies-nouv ... =&gs_rfai=
capture :
http://www.cijoint.fr/cjlink.php?file=cj201007/cij8V4Ghhp.jpg
dernier passage de google :
Il s'agit d'un instantané de la page telle qu'elle était affichée le 10 juil. 2010 17:58:10 GMT
:wink:
 
WRInaute occasionnel
Ben ca ne m'avance pas beaucoup, mais merci quand même :wink:

Personne d'autre n'a d'idées sur la provenance de ces url bizarroïdes qui au final me génère du duplicate ?
(elles sont indexées par GG, et je ne parviens pas à identifier leur origine : comment faire ?)
 
WRInaute occasionnel
Ok, merci UsagiYojimbo, pour la confirmation que la 301 pallie au problème.

GG me rajoutant 2 urls inexistantes par jour, cela me contraint à gérer le pb quotidiennement, et la liste de 301 risque fort de s'allonger.

J'ai donc complété le dispositif par une balise rel=canonical, qui sera présente dans les pages aux URL venues d'ailleurs.

Toutefois, je soigne ici les effets, et je préfèrerai éradiquer la cause !!!
L'origine de ces URL reste un mystère pour moi, alors si quelqu'un a des pistes, il aura toute ma gratitude :wink:
 
WRInaute impliqué
abouvard a dit:
Ben ca ne m'avance pas beaucoup, mais merci quand même :wink:
Personne d'autre n'a d'idées sur la provenance de ces url bizarroïdes qui au final me génère du duplicate ?
(elles sont indexées par GG, et je ne parviens pas à identifier leur origine : comment faire ?)
:p
un peu lourd quand même je viens de te mettre le lien chez google : il n'y a rien !
+ une capture d'écran
as-tu regardé au moins ???
 
WRInaute occasionnel
Je dois être stupide, je ne comprends pas ce que je dois voir.

La commande site:www.energies-nouvelles.net ? oui ? et alors ?
 
WRInaute impliqué
abouvard a dit:
Je dois être stupide, je ne comprends pas ce que je dois voir.

La commande site:www.energies-nouvelles.net ? oui ? et alors ?
ben elle te donne les pages qui sont chez google et l'on ne voit rien de tel comme ce que tu décris en début de post ...
vide ton cache et essaie, google ne donne pas des résultats différents selon les utilisateurs quand même ... 8O
 
WRInaute occasionnel
Merci pour ton aide, mais avant de poster, j'ai vérifié :ces url anormales sont bien présentes dans l'index (probablement pas sur tous les datacenters), et donc reportées dans GWT.

chez moi :
https://www.google.fr/search?q=site:www.energies-nouvelles.net+altereco ... r&filter=0
-> clique sur pages ignorées et tu auras 2 des urls incriminées.

D'ailleurs ce n'est pas pour rien que les bonnes URL, autrefois positionnées dans les tous premiers résultats, ont été déclassées. Le Duplicate content est avéré.

La question principale reste ouverte : ou GG les a-t-il donc pêchées ces URL erronées ? d'où mon appel à l'aide pour identifier leur origine
 
WRInaute impliqué
abouvard a dit:
Merci pour ton aide, mais avant de poster, j'ai vérifié :ces url anormales sont bien présentes dans l'index (probablement pas sur tous les datacenters), et donc reportées dans GWT.

chez moi :
https://www.google.fr/search?q=site:www.energies-nouvelles.net+altereco ... r&filter=0
-> clique sur pages ignorées et tu auras 2 des urls incriminées.

D'ailleurs ce n'est pas pour rien que les bonnes URL, autrefois positionnées dans les tous premiers résultats, ont été déclassées. Le Duplicate content est avéré.

La question principale reste ouverte : ou GG les a-t-il donc pêchées ces URL erronées ? d'où mon appel à l'aide pour identifier leur origine

j'ai le même soucis que toi google me sort des url qui n'existe pas du style www.mondomaine.com/?option=1 j'ai mis une balise cannonical sur la page d'acceuil en espérant que çà règle le soucis.
 
WRInaute accro
Est ce que tu affiche des liens de pages qui renvoient sur ton site (-http://fr.wikipedia.org/wiki/R%C3%A9f%C3%A9rant)
Si oui et qu'elles sont "indexable" l'url bidon d'origine ne viens pas forcement de chez toi.

Sinon techniquement c'est pas super bon ta gestion des url car du moment que l'id de page est bon on peut mettre n'importe quoi dans l'url ce qui fait que si je décide de couler ton site je génère vite fait des milliers de liens pour tes pages et tu tombe en duplicate.

Hors sujet tu as un souci avec au moins deux pages : https://www.google.fr/search?q=site%3Awww.energies-nouvelles.net+Warning
 
WRInaute occasionnel
Merci pour les pistes de réflexion, Zeb.

zeb a dit:
Est ce que tu affiche des liens de pages qui renvoient sur ton site (-http://fr.wikipedia.org/wiki/R%C3%A9f%C3%A9rant)
Si oui et qu'elles sont "indexable" l'url bidon d'origine ne viens pas forcement de chez toi.
A priori non, pas d'affichages de référents.

zeb a dit:
Sinon techniquement c'est pas super bon ta gestion des url car du moment que l'id de page est bon on peut mettre n'importe quoi dans l'url ce qui fait que si je décide de couler ton site je génère vite fait des milliers de liens pour tes pages et tu tombe en duplicate.
Tu as raison !
Ma gestion URL est intimement liée à mes maigres connaissances en URL rewriting :wink:
La meilleure façon de construire les url ?

zeb a dit:

Vu. Merci !!!
 
WRInaute accro
abouvard a dit:
zeb a dit:
Sinon techniquement c'est pas super bon ta gestion des url car du moment que l'id de page est bon on peut mettre n'importe quoi dans l'url ce qui fait que si je décide de couler ton site je génère vite fait des milliers de liens pour tes pages et tu tombe en duplicate.
Tu as raison !
Ma gestion URL est intimement liée à mes maigres connaissances en URL rewriting :wink:
La meilleure façon de construire les url ?

A première vue tes URLs sont sour la forme :

Domain / titre de page en minuscule plus tiret - ID de page.HTML
genre : -http://www.energies-nouvelles.net/site-electricite-chaleur-par-combustion-biomasse-lyon-ecoren-1354.html

Perso pour des raisons de sécurité et éviter ça :

bvwg.actulab.net a dit:
Exploitez des URLs multiples

Exploitation du problème connu sous le nom d'"URL canonique" dans Google. Il a ruiné de nombreux sites en propulsant leurs pages dans l'index supplémentaire de Google pour cause de "duplicate content". La plupart des sites y est vulnérable, à partir du moment où plusieurs de leurs URLs présentent un contenu identique.

Pour tuer votre concurrent, l'idée est de faire des liens vers ses pages au contenu identique à celles qui sont indexées dans Google. Par exemple vers http://domaine.tld si son site est référencé sous l'URL http://www.domaine.tld et que http://domaine.tld ne fait pas de redirection 301 vers http://www.domaine.tld. Ou vers http://www.domaine.tld/index.html. Ou vers http://bvwg.actulab.net/15-t-es-mort.seo au lieu de http://bvwg.actulab.net/15-eliminer-vos-concurrents-dans-google.seo (Eh oui, le blogs, en particulier sous dotclear, sont des proies très vulnérables LOL )

Je mettrai un petit test en place en tête de page (avant tout traitement) qui recomposerai l'URL pour vérifier que c'est bien la même que $_SERVER['SCRIP_URI'].
Théoriquement dans le script qui gère la fabrication de la page tu dois pouvoir intercepter l'ID de page (seul truc pas modifiable sans changer de page), donc le titre, donc tu dois pouvoir déduire que l'url réelle de la page est -http://www.energies-nouvelles.net/site-electricite-chaleur-par-combustion-biomasse-lyon-ecoren-1354.html
et si c'est différent de $_SERVER['SCRIP_URI'] alors tu peut te dire que l'url est forgée ailleurs et renvoyer avec un header vers une page spécialisée dans ce traitement ou alors renvoyer vers l'url que tu as calculé toujours avec la fonction header (d'où l'importance de faire se traitement en amont de l'envoie de toute données sinon header ne marchera pas)

La réécriture d'url est pas forcement le moyen le plus adapté pour traiter ce genre de souci je pense.
Ou alors il faudrait vérifier dans le Htaccess que l'url demandé est valide et je voie pas comment faire dans la mesure ou je ne voie pas comment accéder aux titres de pages (qui sont la partie fragile de ton système) depuis ce fichier de traitement.

Autre souci si je forge une URL bidon avec un ID trop haut genre :
-http://www.energies-nouvelles.net/site-electricite-chaleur-par-combustion-biomasse-lyon-ecoren-100354.html

tu obtiens un code erreur dans la page renvoyée :
Warning: Cannot modify header information - headers already sent by (output started at /home/web/energies-nouvelles.net/ftp/www/includes/fonctions.php:95) in /home/web/energies-nouvelles.net/ftp/www/site.php on line 23
Warning: Cannot modify header information - headers already sent by (output started at /home/web/energies-nouvelles.net/ftp/www/includes/fonctions.php:95) in /home/web/energies-nouvelles.net/ftp/www/404.php on line 2
Warning: Cannot modify header information - headers already sent by (output started at /home/web/energies-nouvelles.net/ftp/www/includes/fonctions.php:95) in /home/web/energies-nouvelles.net/ftp/www/404.php on line 3
 
WRInaute occasionnel
Cool ! :D
Je te remercie pour toutes ces infos détaillées et ces conseils !
Je crois avoir capté, je vais bosser là-dessus ...
Bonne journée
Arnaud
 
Nouveau WRInaute
Bonjour,
Je rencontre exactement le même problème sur mon site.
As-tu pu trouver (depuis 2004) la raison du problème de duplicate content et URL inexistantes indexées par google?
Si oui, je suis vraiment intéressée.
Vicky
 
WRInaute occasionnel
Hello.
A l'époque j'ai mis en place un test de comparaison entre l'url canonical (= la bonne url à indexer) et l'adresse appelée par le navigateur.
Si elles sont identiques, alors seulement j'autorise l'indexation.
 
WRInaute accro
abouvard a dit:
Si elles sont identiques, alors seulement j'autorise l'indexation.
content que tu t'en sois sorti. Dans le cas inverse (url canonique != demande navigateur) qu'a tu fait avec la requête ?

* R 301 sur la bonne page ?
* 404 pour gérer et désindexer ?
* autre ?
 
Discussions similaires
Haut