Site démo en ligne - indexation par Google

jason-bourne · 2 Juin 2010

Bonjour

Une agence professionnelle est en train de finaliser la création de mon site Internet. Dans quelques jours ils vont mettre en ligne sur un espace de leur serveur une version démo pour que je puisse tester le site, et surtout corriger les nombreuses fautes d'orthographe!

L'URL de chaque page aura le début de chaque URL défini par moi même, mais il y aura en plus quelques éléments dans les URLS pour cette version provisoire en ligne.

Est-ce que Google peut indexer automatiquement le site? Je veux dire ce n'est pas moi qui inscris le site sur Google, ou procède à d'autres démarches.

Est-ce que cela va poser des problèmes niveau référencement si les spiders passent dessus, et que moi je mette en ligne la version définitive dans 2 semaines avec les bonnes URLS, et contenus sans fautes d'orthographe?

J'ai essayé d'être clair, j'espère que vous avez compris mon problème -)

Merci
Bonne journée
Jason

Anto1982 · 2 Juin 2010

Demande a ton agence qu'ils interdisent aux spiders de google de visiter ton site (Voir du coté du fichier robot.txt, ils devraient savoir).

Tu peux également leur demander de mettre noindex dans les balises des pages.

HawkEye · 2 Juin 2010

EN DEV ? > protection par .htaccess !

Marie-Aude · 2 Juin 2010

normalement, cela devrait être mis en noindex
ou protégé par un mot de passe, ça évite toute mauvaise surprise

jason-bourne · 2 Juin 2010

Merci pour vos réponses!

Et bien c'est là que je commence à m'inquiéter! Je lui en ai parlé mais il m'a dit qu'au contraire que c'était mieux pour le référencement, donc tout à fait le contraire de ce que je pensais, et le contraire de ce que vous êtes tous en train de confirmer.

Je débute en référencement, donc je n'étais pas sûr.
Qu'est ce qui est le plus simple, mettre en noindex chaque page ou alors opter pour le fichier robots.txt configuré de sorte à ce qu'aucun robot accède au site?

Merci à tous!
Jason

HawkEye · 2 Juin 2010

Avec noindex, les crawlers qui respectent la consigne n'indexeront pas la page. Ils les crawleront quand même, et sont susceptibles de les revisiter plus tard.
> Si la directive noindex disparaît, il se peut qu'ils indexent une page qui ne devrait pas l'être.
> A l'inverse, il se peut également que si la page doit légitiment être indexée, un "noindex" préalable ait un effet négatif.
> Ca ne te protège pas contre l'exploration des pages liées depuis les pages en noindex: tu risques de permettre l'exploration de pages qui ne sont pas encore protégées, ou qui ne devraient pas être crawlées.

Via robots.txt, c'est la même situation.

Dans ces deux cas, les robots qui ne respectent pas la consigne vont crawler et indexer.

A noter que les URLs à crawler peuvent être détectés par:

- la toolbar google
- google analytics
- google AdSense
...pour ne citer qu'eux.

Avec une protection par mot de passe (htaccess+htpasswd), tu es protégé de toute situation farfelue: personne n'a accès sans mot de passe.

NB: le gars qui t'a dit que le fait de laisser le bot explorer des pages dont l'url n'est pas définitive ou n'est pas l'url canonique est bénéfique pour ton ref ferait mieux de se cantonner à du dev, et laisser le SEO aux SEO :roll:

jason-bourne · 2 Juin 2010

OK merci

Il vaut mieux donc mieux passer par "htaccess+htpasswd", la protection par mot de passe! Avec ceci je suis sûr qu'aucun robot n'accèdera à mon site?

Ce n'est plus la peine de passer par le fichier robots.txt et le no index, si on prend la protection par mot de passe?

Comme tu dis, il connaît bien son domaine, mais question référencement, moi qui ne suis qu'un amateur je peux dire qu'il n'est pas au top!

Jason

bproductiv · 2 Juin 2010

D'un autre coté, si il n'y a que quelques fautes à corriger et que la mise en ligne est sur le domaine final, autant commencer l'indexation.
Après si il y à encore des bugs et beaucoup de taff ou hébergé en sous domaine, etc..là oui faut protéger.