Mauvaise indexation. Pages d'un autre site sur le serveur

Nouveau WRInaute
Bonjour à tous,

Nous avons plusieurs sites sur un même serveur, dont un principal, disons A, avec un très grand nombre de pages référencées.

Ce site A est passé en https et pas les autres (qui sont des petits sites de quelques pages).

Or 2 des petits sites, B et C, ont été indexés par Google en https avec une partie du contenu de A soit plus de 200000 pages pour un des 2 sites !

Et comble de malheur, ceci apparait comme des backlinks dans Search console.

Bilan des courses: A se retrouve avec des tonnes de backlinks qui n'en sont pas car c'est son propre contenu qui est vu comme backlink.

Et bien entendu une page indexée par google, qui est donc de type https://www.B.fr/page_de_A renvoie une erreur car ce site n'est pas en https et la page n'existe pas.

Par contre si on regarde le cache, on voit que pour le cache de https://www.B.fr/page_de_A google précise bien que le cache de B est https://www.A.fr/page_de_A avec donc le contenu réel de A.

A noter que:
- Le certificat SSL est bien affecté uniquement à A
- nous avons changé l'IP de A qui est donc maintenant différente de celle de B et C
- le port 443 est fermé sur le l'IP de B et C (depuis peu mais ça ne change rien car on a du cache plus récent).

Quelqu'un aurait une petite idée ?

Merci d'avance pour votre aide.
 
Membre Honoré
Bonjour,

Il faut continuer de corriger les erreurs et tester les sites (vous pouvez indiquer les URL).
Plusieurs possibilités pour corriger (cf. les autres sujets similaires).

Complément : Comment supprimer les erreurs 404 listées dans Google Search Console.

N'hésitez pas à vous présenter au forum : ici et entre deux messages présenter vos avis aussi sur les sujets : ici, pour aider les autres personnes de la communauté d'entraide.

Temps de réponse : 2 minutes.
Cordialement.
 
Nouveau WRInaute
Bonjour,
Je vous remercie d'avoir pris le temps de répondre.
Cependant je ne vois pas le lien avec les erreurs 404. Ce n'est pas du tout ce qui nous arrive.
Tapez comboost dans google et vous verrez en bas de page et en début de suivante des pages des sites B et C que je mentionne, et si vous regardez leur cache vous comprendrez le phénomène.
Merci.
 
Membre Honoré
Bonjour,
Tapez comboost dans google et vous verrez en bas de page et en début de suivante des pages des sites B et C que je mentionne, et si vous regardez leur cache vous comprendrez le phénomène.
Sachant que les résultats sont personnalisés, vous pouvez indiquer les URL (et exemples).
Il faudrait vérifier les paramètres du serveur (un des sites à priori ne répond pas en HTTPS).
Avez-vous testé les pages générées avec l'outil de Google Search Console ?

Temps de réponse : 5 minutes.
Cordialement.
 
Nouveau WRInaute
Bonjour,

Je voulais éviter de mettre des liens mais ce sera plus clair.
Voici une page de comboost https://www.comboost.com/partage-album-photo.aspx qui est bien réelle.

Le site fresneau.fr n'a pas de ssl, mais en https il est indexé avec le contenu de comboost en cache https://www.fresneau.fr/partage-album-photo.aspx est donc indexé mais n'existe pas car c'est une page de comboost.
Si vous cliquez sur le lien vous aurez une erreur car le navigateur ne trouve ni ssl ni page ce qui est logique. Or cette page est quand même indexée !

Si vous regardez le cache vous verrez que google donne le contenu mais aussi l'url de comboost.
Voici le message : Ceci est le cache Google de https://www.comboost.com/partage-album-photo.aspx. Il s'agit d'un instantané de la page telle qu'elle était affichée le 7 sept. 2018 16:11:50 GMT

Et le search console de comboost voit ce contenu comme des liens depuis fresneau, donc comme des backlinks. Le propre contenu de comboost se retrouve vu comme des milliers de backlinks.

On pourrait tenter de désindexer depuis fresneau sauf que le site est en fait inaccessible en https donc google ne lit pas le robots. Et le fait d'avoir bien fermé le 443 et séparé les ip ne change rien.

Le robots google ne cherche pas à indexer l'url principale mais continue à indexer l'url de contenu. Les 2 semblent séparés dans son fonctionnement. Donc pour indexer cette supposée url de fresneau il va chercher à chaque fois l'url précisée après "ceci est le cache de..." qui est celle de comboost.

Est-ce plus clair ?

Merci pour vos conseils.
 
Membre Honoré
Bonjour,

Voici une page de comboost [...] qui est bien réelle.
Le site fresneau n'a pas de ssl, mais en https il est indexé avec le contenu de comboost en cache [...] est donc indexé mais n'existe pas car c'est une page de comboost.
Vous devez vérifier le serveur et le code source des sites (niveau serveur), normalement c'est un problème à ce niveau, pas externe, vous devez en parler avec votre développeur.

Temps de réponse : 5 minutes.
Cordialement.
 
WRInaute discret
Ca ressemble trop à un problème d'un site qui pointe sur pleins de sites
Avec par exemple un même dns cname ou un même dossier dans /home/user/www/partage-album-photo.aspx et que tous les sites pointent sur "user" mais que la page index est unique pour chaque domaine comme si qu'il y avait du rewriterules+htaccess la dedans pour tout pointer sur un même dossier
En résumé c'est très mal configuré.
 
Nouveau WRInaute
Merci pour vos réponses.
Le problème est que rien n'a été changé de ce point de vue en 10 ans et que ça vient d'apparaitre depuis le passage en https.
Rien vu au niveau du rewirte mais je vais revoir ça, ainsi que le CNAME.
Encore merci, et bon week-end.
 
Membre Honoré
Bonjour,

Après plusieurs vérifications, c'est bien un problème interne.
Il faut demander à votre développeur de corriger les erreurs.

N'hésitez pas à vous présenter au forum : ici et entre deux messages présenter vos avis aussi sur les sujets : ici, pour aider les autres personnes de la communauté d'entraide.

Temps de réponse : 15 minutes.
Cordialement.
 
Discussions similaires
Haut