Indexation d'un site en construction

Discussion dans 'Crawl et indexation Google, sitemaps' créé par emrik-site, 1 Août 2019.

  1. emrik-site
    emrik-site Nouveau WRInaute
    Inscrit:
    1 Août 2019
    Messages:
    8
    J'aime reçus:
    0
    Bonjour à tous,

    Tout d'abord merci pour le contenu de ce site et les échanges qui m'ont aidé dans plusieurs cas.

    Je suis actuellement en train de construire un site sous wordpress pour ma future entreprise. Dès l'obtention de l'hébergement, j'ai verrouillé l'accès au site par un mot de passe (.htaccess + .htpasswd), principalement pour éviter que le site soit indexé par les moteurs de recherches. J'ai enlevé la protection par mot de passe pendant une dizaine de minutes afin de tester un plugin qui ne fonctionnait pas (WP Super Cache).

    Avec la fonction inurl:monsite.fr, je viens de voir que la page d'accueil de mon site est indexée sur google, ainsi que quelques autres pages (dont certaines totalement "random" avec du texte en anglais et latin). Avec la fonction cache:monsite.fr, je vois que l'heure de l'indexation correspond au créneau d'une dizaine de minutes où mon site était accessible sans mot de passe.

    Je me pose donc les questions suivantes:

    1) Comment google a-t-il eu connaissance de mon site, sachant qu'il n'y a en principe aucun lien externe pointant vers celui-ci? Cela peut-il être via une carte google maps que j'ai insérée dans mon site, par exemple?
    2) Y-a-t-il une raison expliquant que mon site ait été "crawlé" justement pendant l'intervalle de 10 minutes sans mot de passe? Ou c'est simplement que le robot est passé au mauvais endroit au mauvais moment... (pas de chance) ?
    3) En attendant que mon site soit terminé et publié, que me recommandez-vous pour faire désindexer ces pages?
    - attendre: les pages seront-elles désindexées naturellement, étant donné que leur accès est verrouillé?
    - demander la désindexation via la Search Console: mais cela sera-t-il préjudiciable pour l'indexation à l'avenir?
    - autre...?

    Je vous remercie!
     
  2. Li0n.
    Li0n. Nouveau WRInaute
    Inscrit:
    16 Juillet 2019
    Messages:
    27
    J'aime reçus:
    1
    Alors, je pense que d'autres te donneront leur avis mais voici le mien :

    1) As-tu coché la case qui demande de ne pas indexer ton site dans les réglages wordpress ? (réglages => lecture). Je ne sais pas exactement comment ça fonctionne mais c'est une piste.

    2) Voir 1)

    3) Ça va dépendre du temps qui sera mis avant que tu publies ton site ? Si cela va prendre encore un peu de temps, tu peux éventuellement faire une 302 de toutes les pages indexées vers une page qui dit que ton site est en construction ou tu peux aussi essayer de mettre toutes tes pages en 410.
     
  3. emrik-site
    emrik-site Nouveau WRInaute
    Inscrit:
    1 Août 2019
    Messages:
    8
    J'aime reçus:
    0
    Bonjour,

    Non, je n'ai pas coché l'option dans Wordpress car j'ai lu que ce n'était pas forcément efficace. J'ai préféré le choix plus radical de mettre un mot de passe via le .htaccess, ce qui en principe est infaillible. Mais je ne pensais pas qu'en l'enlevant 10 minutes je risquais d'être indexé!

    Le site sera prêt d'ici un mois au plus tôt. Je me demande comment réagit Google quand il tente de visiter à nouveau une page bloquée par .htaccess: sera-t-elle désindexée, ou alors il n'y aura aucun changement?

    Merci
     
  4. Furtif
    Furtif WRInaute accro
    Inscrit:
    9 Août 2005
    Messages:
    2 530
    J'aime reçus:
    152
    Ca mange pas de pain, un robots.txt :

    User-agent: *
    Disallow: /
     
  5. cthierry
    cthierry WRInaute passionné
    Inscrit:
    15 Janvier 2005
    Messages:
    2 194
    J'aime reçus:
    40
  6. emrik-site
    emrik-site Nouveau WRInaute
    Inscrit:
    1 Août 2019
    Messages:
    8
    J'aime reçus:
    0
    Merci, mais maintenant que ma page a été indexée pendant le laps de temps sans mot de passe, va-t-elle être désindexée même avec le mot de passe actif?

    J'ai vérifié le timing, la page a été indexée 3 secondes avant que j'ai uploadé le .htaccess avec le mot de passe... vraiment pas de chance!
     
  7. freestyle83
    freestyle83 WRInaute occasionnel
    Inscrit:
    19 Novembre 2011
    Messages:
    359
    J'aime reçus:
    10
    Tu as regardé quand les archives du net si ton domaine n'existait pas auparavant ? Ce qui pourrait expliquer pourquoi les bots ont crawlés.

    Mais si tu ne voulais pas qu'il soit en ligne, pourquoi ne pas avoir fait la prod en local ?

    En attendant, là tu perds ta prime de fraîcheur.
    Et pour les pages ben je serais d'avis de conserver l'accueil et de mettre un genre de compte a rebours et en profiter pour attirer du monde sur ton futur projet (en passant pas les réseaux sociaux), avec pourquoi pas un petit formulaire pour rappeler à l'ouverture (ça dépend de ton site en fait).Quitte à perdre la fraîcheur autant en profiter pour en tirer quelque chose.
    Les autres pages, tu les passes en noindex, nofollow. ou en 302 vers la home, comme l'a suggéré une autre personne au dessus.
     
  8. KOogar
    KOogar WRInaute accro
    Inscrit:
    16 Novembre 2004
    Messages:
    4 465
    J'aime reçus:
    48
    Bien sur ca peu, donc soit avec google map, ou avec les fonts google... ou avec ton navigateur tout simplement... Tu as été activé :) :) :)

    Tu crois que le critère "prime fraicheur" est bourrin a ce point? Le site a été en ligne 10 minutes...
     
  9. freestyle83
    freestyle83 WRInaute occasionnel
    Inscrit:
    19 Novembre 2011
    Messages:
    359
    J'aime reçus:
    10
    Je crois que la prime de fraîcheur démarre au moment où le site est indexé pour la première fois. o_O

    C'est peut-être dix minutes, mais il a été indexé, donc elle est en cours...
     
  10. KOogar
    KOogar WRInaute accro
    Inscrit:
    16 Novembre 2004
    Messages:
    4 465
    J'aime reçus:
    48
    J'avais compris ton raisonnement. Tu dis bien "Je crois"... ca reste une supposition. Je sais j'suis ch..
     
  11. emrik-site
    emrik-site Nouveau WRInaute
    Inscrit:
    1 Août 2019
    Messages:
    8
    J'aime reçus:
    0
    Bonjour à tous,

    Mon site étant maintenant en ligne, je reviens faire un point sur ce sujet et pour avoir votre avis sur une possible pénalité de google.

    Rappel des faits:
    - le 30/07/19: mon site en construction, normalement protégé par htaccess/htpasswd, est mis en ligne pendant 10 minutes. Pendant ce laps de temps Google l'a crawlé et a indexé des pages de test n'ayant rien à voir avec le sujet du site. Après ces 10 minutes, la protection par htaccess/htpasswd est à nouveau mise en place.
    - 04/10/19: mise en ligne de la version finale du site, levée de la protection htaccess/htpasswd. Dans la foulée, création des comptes Google Search Console et Google Analytics. Suppression manuelle des pages obsolètes crawlées en juillet.
    - 31/10/19: aujourd'hui, l’intégralité du contenu final est indexé par Google, et tout le contenu obsolète a bien été exclu.

    Je compare mon positionnement sur bing et google et j'ai les résultats suivants pour 4 principales requêtes de recherche:

    Bing : 1 / 4 / 21 / 11
    Google : 25 / 48 / >300 / >300

    Je sais bien que les 2 moteurs n'ont pas le même fonctionnement, mais ces différences m'interpellent quand même. Concernant google, pensez-vous que cela est dû à la jeunesse du site (<1 mois), ou peut-on penser que la fuite du site en construction me pénalise aujourd'hui? Je n'ai rien dans les actions manuelles de la GSC.

    Merci!
     
  12. passion
    passion WRInaute accro
    Inscrit:
    6 Janvier 2006
    Messages:
    3 676
    J'aime reçus:
    121
    Arrête de te prendre la tête !
    Du moment que tu as fait le nécessaire pour virer les pages tests de ton site et qu'elles ont été désindexées proprement (R301), maintenant travailles ton site. T'occupes pas de GG. Plus tu travailleras ton site (contenus, backlinks...) et plus son robot viendra t'apporter du crédit à ses crawls.
    Sors la tête du guidon ;)
     
  13. emrik-site
    emrik-site Nouveau WRInaute
    Inscrit:
    1 Août 2019
    Messages:
    8
    J'aime reçus:
    0
    Merci pour cet avis positif ;)
    Je précise juste que les pages tests ont seulement été supprimées du site, et celles qui apparaissaient encore dans les SERP ont été déclarées dans l'outil de suppression manuelle. Pas de redirection 301 donc.
    Maintenant ces pages ont le statut "Exclues: Explorée, actuellement non indexée"
     
  14. rollback
    rollback WRInaute occasionnel
    Inscrit:
    5 Novembre 2018
    Messages:
    461
    J'aime reçus:
    49
    juste pour mettre de l'eau au oulin
    le web / http, c'est un protocole applicatif à un niveau très haut dans ce qu'on appelle la pile réseau,
    du coup il y a énormément d'autres lieux pour découvrir l'existence d'un nouveau site.
    Donc sans tomber dans la paranoia, les outils sont plus rapides que nous pour aller chercher des nouveaux contenus. ils ont l'information très tôt sur la création de nouveau sites, mouvement d’hébergement...
     
  15. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    3 751
    J'aime reçus:
    83
    Ce n'est pas la bonne solution car tu agis seulement en fonction de google et il existe d'autres moteurs qui peuvent avoir connaissance de ces pages.
    La solution est que si tu vois dans google search console une page qui n'existe plus où qui n'a pas lieu d'être, il faut systématiquement lui faire une redirection 301.
    et si tu supprimes une page du site, faire une redirection 301 également, à partir du moment où elle a existé et qu'elle était indexable.
    Tu peux aussi demander à la search console de supprimer la page de l'index, mais cette page peut revenir si tu as un lien quelque part vers cette page. Peut-être qu'un autre site a fait un lien, tu ne peux pas le contrôler. Donc 301 pour être certain qu'elle disparaisse.
     
  16. phonyclic
    phonyclic WRInaute discret
    Inscrit:
    25 Octobre 2017
    Messages:
    207
    J'aime reçus:
    50
    La réponse est dans la question.
    Tu dis avoir testé WP Super Cache, tu a donc mis ton site en cache (donc indexé) voilà la source.
    Après comme dit @passion travaille ton contenu et sort la tête du guidon sur ces détails.
    Tu semble bien placé sur Bing sur certaines recherches, ne te focalise pas sur GG, si ton contenue est pertinent tu remontera petit a petit sur GG en travaillant les backlinks, le maillage interne ...
     
  17. freestyle83
    freestyle83 WRInaute occasionnel
    Inscrit:
    19 Novembre 2011
    Messages:
    359
    J'aime reçus:
    10
    Surtout que sur un nouveau site, il faut bien six mois, de façon naturelle, pour commencer a avoir de bons résultats... donc au boulot :D
     
Chargement...
Similar Threads - Indexation construction Forum Date
Indexation site web dans la thématique "érotisme" Problèmes de référencement spécifiques à vos sites Samedi à 11:55
Rythme d'indexation Google aléatoire Crawl et indexation Google, sitemaps 3 Décembre 2019
Désindexation des images quasi totales YouTube, Google Images et Google Maps 1 Décembre 2019
Indexation d'un blog wordpress Problèmes de référencement spécifiques à vos sites 28 Novembre 2019
Indexation Google refusée Crawl et indexation Google, sitemaps 23 Novembre 2019
WordPress Désindexation / réindexation Débuter en référencement 21 Novembre 2019
Indexation longue depuis quelques jours :/ Problèmes de référencement spécifiques à vos sites 20 Novembre 2019
Site piraté - indexation massive Problèmes de référencement spécifiques à vos sites 19 Novembre 2019
Comment accélérer la désindexation de pages en noindex Crawl et indexation Google, sitemaps 17 Novembre 2019
Problèmes d'indexation et robots.txt Crawl et indexation Google, sitemaps 14 Octobre 2019
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice