Gros mélange de nom de domaine dans les résultats de recherche

WRInaute discret
Bonjour,

J’ai un bug avec un Drupal 7 sur mon serveur sur lequel j’héberge plusieurs sites (des Joomla, des prestashop, des WordPress).

Il y a quelques temps, j’ai remarqué quand je recevais des mails automatiques envoyés depuis le drupal pour m’informer des mises à jour à faire que les urls comportaient de grosse erreurs : mélange avec des urls de site hébergés sur le même serveur avec d’autres noms de domaines rattachés.

Le site Drupal a cette url :
http://www.nom_1.com

Voilà le type de lien que je pouvais trouver dans le mail :

Voir la page des mises à jour disponibles pour plus d'informations :
http://www.nom_2.com/nom_du_dossier_sur_le_serveur/fr/admin/reports/updates

Le domaine nom_2.com n’a rien à faire ici. C’est un autre domaine rattaché à cet hébergement mais on ne devrait pas le voir.

J’ai donc modifié mon fichier de configuration pour indiquer clairement l’url à utiliser car visiblement la fonction utilisée par Drupal pour le faire automatiquement ne fonctionne pas sur l’hébergement.
Depuis, les liens de mises à jours sont bons.

Aujourd’hui mon client me dit qu’on trouve plein d’url erronées dans les résultats de recherche Google.

Par exemple :

http://www.nom_2.com/dossier_du_site_sur_le_serveur/fr/node/146

Il y a en plein comme ça. Je ne sais même pas comment c’est possible que le site Drupal soit affiché avec un autre domaine rattaché à un autre site. Le pire, c'est qu'on peut accéder au site via ces urls complément erronées.

Donc j’ai déjà contacté l’hébergeur pour voir si il avait une explication.

De mon côté, j’ai ajouté une balise no-index sur toutes les pages car ce site n’a pas vocation a être bien référencé (c’est un journal interne). Heureusement que ce client ne cherche pas être dans le top des résultats, sinon, c’était la cata pour son réf. Donc, je vais essayer de tout désindexer. J’essaye de faire supprimer ces urls et je cherche du coté de drupal à comprendre l’origine de ce bug.

J’ai ajouté aussi une balise canonical avec le bon domaine.

Est ce que vous avez déjà été confronté à ce type de problème ?
Vous avez d’autres suggestions ?

C’est dommage dans la search console, il n’y a pas d’option pour demander à désindexer tout un site. Il faut y aller par url ou par répertoire.
Ça me semble compliqué dans mon cas.
 
WRInaute discret
Oui, je pense aussi à un problème lié à l’hébergement car j’ai trouvé d’autres résultats aberrants dans les résultats de recherche sur d’autres noms de domaine rattachés à mon hébergement

Des urls comme :

http://w.ndd.com

Pourquoi un seul w ?

Effectivement, ce n’est pas à la base un problème SEO mais les conséquences sont visibles dans les résultats de recherche. D’où ma question pour essayer de nettoyer ça. Mais la priorité est effectivement de trouver l’origine.

Je suis développeur mais je ne suis pas spécialiste en hébergement. C’est un mutualisé et il ne me semble pas avoir modifié ma configuration.

Je vais voir avec eux. Je me demande comment google peut trouver ces urls. A partir de quel lien il peut crawler ces urls.

Je reviendrai vous dire quand j’aurai trouvé l’explication.

Merci pour l’astuce pour désindexer complétement le site, je n’y avais pas pensé.
 
WRInaute discret
Hello,

Donc j’ai contacté mon hébergeur.

J’ai un dossier www à la racine de mon serveur qui contient les dossiers des différents sites.

D’après ce qu’il m’a expliqué, il était possible de revenir à la racine et d’atteindre via des sous domaines les autres dossiers.

Ça n’explique pas comment Google arrive à trouver ces liens mais techniquement il pouvait le faire.

J’ai donc supprimé de la zone DNS l’enregistrement * IN A qui autorise tous les sous domaines. J’ai recréé des enregistrements spécifiquement pour les sous domaines que j’utilise, par exemple, mon-sous-domaine IN A

Résultat, on ne peut déjà plus atteindre ces pages avec des urls bizarre (en fait, c’était bien des sous domaine comme par exemple :

http://ww.w.ndd.com/dossier-site/fr/node/146

Donc, j’imagine que Google va désindexer ces urls en ne le trouvant plus.

En espérant que ce problème soit réglé !
 
Discussions similaires
Haut