Fonctionnement de Google

alainp · 23 Mai 2011

Bonsoir,

Etant en désaccord avec mon hébergeur, je souhaiterai avoir votre avis sur le fonctionnement des robots Google

Mon hébergeur me certifie que ces robots peuvent trouver tout seuls l'URL d'un site même si cette URL n'apparaît nulle part.

Personnellement, je pense que Google ne peut trouver des adresses au hazard et qu'il a bien fallu, à un moment donné, que cette URL lui soit donnée ou qu'elle apparaisse sur un site.

Merci pour vos avis

M&B Multimédia · 23 Mai 2011

Bsr alainp,

Globalement, Google navigue de site en site en suivant les liens qu'il trouve.

Si personne ne dit à Google qu'un site existe sur -http://www.ertfgkuhsdfgoywtkszgtg.fr, il n'ira sans doutes jamais voir ce qu'il y a à cette adresse...

alainp · 23 Mai 2011

Merci M&B Multimédia, j'en suis réellement persuadé mais je suis tombé sur un technicien qui me soutient que Google, avec ses milliers d'ordinateurs, peut trouver un site tout seul.

Je vais voir si je peux joindre un technicien Google mais je crois que c'est mission impossible

Bonne soirée

Marie-Aude · 23 Mai 2011

Il est cependant possible pour Google de trouver des sites sans qu'il y ait un lien : il suffit que tu passes le consulter avec la googlebar activée. Ton technicien n'a donc pas tort en pratique, même si l'explication n'est pas la même

Leonick · 23 Mai 2011

sans oublier google analytics

alainp · 23 Mai 2011

Effectivement, ce sont des éventualités mais là, il s'agit de l'URL "informatique" du site et non l'URL de mon nom de domaine.

Je ne connaissais pas cette URL "technique" et je ne l'ai jamais utilisée, la Google Bar et google Analytics ne pouvaient donc pas la voir en ce qui me concerne

OTP · 23 Mai 2011

C'est à dire ???

Booble · 23 Mai 2011

Je pense à un autre moyen (non encore cité ...dans cette page)
Mais une "URL informatique" : je ne vois pas ...

Le technicien ne t'as pas donné une piste vérifiable, un nom ... technique ?

JanoLapin · 23 Mai 2011

Je suppose qu'il parle de l'url réelle que chaque client (en mutu) a, sur la structure suivante:
ex.: -domainehebergeur.ext/n°client/répertoiredusiteduclient qui vient en DC de domaineclient.ext.

alainp · 24 Mai 2011

JanoLapin a dit:
Je suppose qu'il parle de l'url réelle que chaque client (en mutu) a, sur la structure suivante:
ex.: -domainehebergeur.ext/n°client/répertoiredusiteduclient qui vient en DC de domaineclient.ext.

C'est tout à fait çà, désolé si je n'ai pas été plus clair
Et dans la partie domainehebergeur, çà ne reprend même qu'une partie du vrai domaine
Je préfère ne pas mettre cette pseudo url en clair pour éviter de participer à sa diffusion.

Quant au technicien, à part maintenir le fait que ce sont les robots de Google qui trouvent cette adresse tout seul, c'est tout ce que j'obtiens.

C'est avec l'aide d'un forum que j'ai corrigé mon htaccess pour rediriger ces pages mais le mal est fait, plus de 700 pages en duplicate content

nickargall · 24 Mai 2011

Une visite avec la Google Toolbar activée peut en effet faire indexer une URL non liée ailleurs, qu'elle soit sur un 'vrai' domaine ou sur un domaine de 'pré-production' . J'en ai eu également la désagréable expérience fut un temps.

Marie-Aude · 24 Mai 2011

"le mal est fait" pas pour très longtemps, htaccess plus demande de suppression de site dans GWT et c'est réparé dans deux jours

alainp · 24 Mai 2011

Marie-Aude a dit:
"le mal est fait" pas pour très longtemps, htaccess plus demande de suppression de site dans GWT et c'est réparé dans deux jours

Bonjour Marie-Aude

Pour le htaccess, c'est fait mais pour la suppression, impossible ou bien je m'y suis mal pris

Je suis allé dans les outils pour les webmasters, Accès du robot d'exploration et onglet supprimer l'url

Une fois que j'ai renseigné l'url d'une page à supprimer avec cette pseudo url de l'hébergeur, l'outil à rajouté cette dernière à l'url exacte de mon site de cette façon

http://www.monvraisite.net/http://xxxxxx.xxxxxxx.ovh.net/nom-de-la-page.html

Bien entendu les xxxxxx ne sont là que pour ne pas diffuser la pseudo url "fausse"
Voyant çà, j'ai annulé ma demande de suppression

Etais-je au bon endroit ?
Merci

JanoLapin · 24 Mai 2011

si tu as déjà corrigé avec du htaccess, alors il te suffit d'attendre. Les bots vont rapsser et -après délai- nettoyer l'index de Google

Il n'y a rine d'autre à faire: Google fera tout de lui-même. Tu n'as pas de raison de t'inquiéter

alainp · 24 Mai 2011

Je m'inquiète un peu dans la mesure où mon site est actuellement en chute libre et je ne sais pas jusqu'où il va descendre.

Merci pour les conseils

JanoLapin · 24 Mai 2011

Tu as mis en place les redir nécessaires. Donc c'ets suffisnat. Comme de toute façon, tu ne pourras jamais supprimer les urls de ton hébergeur via GWT (puisque ce n'est pas ton domaine), tu ne peux plus rien fiare d'autre.
S'inquiéter ne sert à rien

HawkEye · 24 Mai 2011

La balise rel="canonical" peut aider :roll:

Jahmasta · 24 Mai 2011

En passant Google est informé quasi en temps réel de la présence d'un nouveau site au niveau des DNS root que telle IP correspond à tel domaine. Donc dans le cas d'un nouveau site, Google vient faire un tour dessus. (ils sont bien placés pour savoir ce qui se passe en haut de la pyramide http://www.republique-des-lettres.fr/491-google.php)
Sans aucun lien entrant Google peut donc crawler un site.
Si tu veux éviter le crawl tu bloques avec un robot.txt, no-index/no-follow dans tes metas, et htacess > ça devrait être bon avec tout ça ;o)

haydarpottery · 24 Mai 2011

Pour que google peut detecter vos liens, il vous faut lui envoyer un Sitemap à l'aide du google webmaster tools (bien sur après avoir enregistrer votre site avec cet outils)
Sinon vous devez attendre pour que le robot du Google detect un lien vers votre site quelque part.

lunicrea · 24 Mai 2011

haydarpottery a dit:
Pour que google peut detecter vos liens, il vous faut lui envoyer un Sitemap à l'aide du google webmaster tools (bien sur après avoir enregistrer votre site avec cet outils)
Sinon vous devez attendre pour que le robot du Google detect un lien vers votre site quelque part.

Salut !

Sauf que c'est exactement le contraire que veut faire alainp, à savoir désindexer pléthore de pages issus du nom de domaine "mutu"...

alainp · 24 Mai 2011

Jahmasta a dit:
Si tu veux éviter le crawl tu bloques avec un robot.txt, no-index/no-follow dans tes metas, et htacess > ça devrait être bon avec tout ça ;o)

Oui mais le robot.txt, je ne peux le mettre que dans mon domaine principal et le but n'est pas de bloquer celui-ci
Je n'ai apparamment pas accès à l'adresse du domaine mutualisé fourni par OVH

lunicrea a dit:
haydarpottery a dit:

Pour que google peut detecter vos liens, il vous faut lui envoyer un Sitemap à l'aide du google webmaster tools (bien sur après avoir enregistrer votre site avec cet outils)
Sinon vous devez attendre pour que le robot du Google detect un lien vers votre site quelque part.

Cliquez pour agrandir...

Salut !

Sauf que c'est exactement le contraire que veut faire alainp, à savoir désindexer pléthore de pages issus du nom de domaine "mutu"...

Lunicrea a raison, je ne veux pas diffuser les adresses du domaine mutualisé. Bien au contraire, je veux qu'elles disparaissent
Cà fait un peu plus d'une semaine que j'ai découvert ce problème et que j'ai redirigé par le htaccess

Au lieu de diminuer, le nombre de ces pages parasites augmente, pas beaucoup mais de quelques unités chaque jour.

Merci à tous

lunicrea · 24 Mai 2011

alainp a dit:
Au lieu de diminuer, le nombre de ces pages parasites augmente, pas beaucoup mais de quelques unités chaque jour.

Merci à tous

Oui c'est totalement normal.
Le temps que tu mettes en place ton .htaccess, ce coquin de Google a déjà ingurgité beaucoup de pages issues de ce nom de domaine "doublon".

Du coup, tu as malheureusement pas le choix que d'attendre que le robot soit redirigé en 301 sur chaque page qu'il va crawlé

Patience !

alainp · 24 Mai 2011

Je m'en doutais un peu mais on trouve le temps long quand le nombre de pages visitées diminue sans qu'on puisse intervenir.

Je préfère un chute liée à une bêtise de ma part, je corrige et c'est reparti après une paire de claques perso.

JanoLapin · 24 Mai 2011

la reccomandation d'hawkeye avec la balise canocical est une excellente suggestion. Ne passes pas à côté!

alainp · 24 Mai 2011

JanoLapin a dit:
la reccomandation d'hawkeye avec la balise canocical est une excellente suggestion. Ne passes pas à côté!

J'ai déjà parcouru un certain nombre de pages sur ce sujet mais je reconnais que je ne suis pas à l'aise avec cette balise.

Sans vouloir faire dévier le présent fil vers ce sujet ni vous inciter à me donner un cours, j'ai l'impression qu'il faut mettre la balise <link rel="canonical" href="h**p://www.monsite.net"/> sur toutes les pages non canoniques.

Si c'est bien çà, l'idéal serait que cette balise soit sur les pages dont je ne veux plus (celles de l'adresse du mutualisé) mais je n'y ai pas accès.

Ai-je bien compris.

JanoLapin · 24 Mai 2011

Je laisse d'autres s'exprimer sur l'intérêt pour des pages hors site.

Pour les pages internes à ton site, il suffit de rajouter sur chaque page produite une balise meta supplémentaire, laquelle indique l'adresse canonique de la page. (Pour les CMS, il y a un certain nombre de modules / plugins qui font cela très bien)

Cela permet ainsi aux pages internes redondantes, quelqu'en soit la raison (systèmes défaillant de productions d'url, variables additionnelles, etc..) de comporter ainsi cette même balise que celle de la page originale, en indiquant ainsi qu'elle ne sont pas la page originale et de fournir l'adresse de la page originale.

Concrètement:
page originale: example.com/ma-page.php
passage de variable dans l'url: example.com/ma-page.php?id=1254&tralala=651 --> même contenu.

la balise canonical de la page originale, comportant comme url d'origine example.com/ma-page.php sera présente à l'l'identique dans example.com/ma-page.php?id=1254&tralala=651
==> example.com/ma-page.php?id=1254&tralala=651 renverra donc bien à l'url example.com/ma-page.php

(je ne sais pas si j'ai été clair)

alainp · 24 Mai 2011

Merci JanoLapin, je vais me documenter un peu plus sur cette balise

alainp · 26 Mai 2011

Bonjour,

Pas de nouveau à propos de mes pages en double mais je remarque l'apparition d'une anomalie que je n'avais pas vu depuis longtemps dans mes url

Pour info, mon htaccess est désormais le suivant, suite au problème des pages en double (extrait) :

Code:

RewriteEngine on
RewriteCond %{HTTP_HOST} !^www.monsite\.net$
RewriteRule ^(.*) http://www.monsite.net/$1 [QSA,L,R=301]

Ce matin, je découvre l'url suivante qui a été utilisée et qui fonctionne :

h**p://www.monsite.net/?__utma=1.112495506.1306384870.1306384870.1306384870.1&__utmb=1.15.10.1306384870&__utmc=1&__utmx=-&__utmz=1.1306384870.1.1.utmcsr=(direct)%7Cutmccn=(direct)%7Cutmcmd=(none)&__utmv=-&__utmk=29070524

De plus, cette url reste affichée dans la fenêtre du navigateur.
Qu'en pensez-vous, je risque d'avoir de nouvelles pages en duplicat content
Merci pour vos conseils

alainp · 26 Mai 2011

Petite réponse à moi-même mais qui mériterait d'avoir votre avis.

En fouillant un peu sur le web, il semblerait que celà corresponde à des cookies de Google analytics

J'ai trouvé çà

Mais revenons aux cookies… Il y a en tout cinq cookies Google Analytics :
__utma - 2 ans - Gère l’identification du visiteur (ex : est-il déjà venu sur le site ?)
__utmb - 30 minutes - Gère les données relatives à la session du visiteur
__utmc - session - Fonctionne avec utmb
__utmv - 2 ans - Ce cookie est posé en cas d’utilisation de la fonction utmSetVar qui permet de segmenter les visiteurs
__utmz - 6 mois - Gère les informations de provenance de l’internaute

Petit focus sur le cookie UTMz :
Ce cookie est très important car c’est grâce à lui que l’ont peut suivre la performance des campagnes marketing et des autres sources de trafic. On y retrouve différentes variables qui constituent la provenance de l’internaute pour GA :
utmcsr = la source
utmccn = le nom de la campagne
utmcmd = le support
utmctr = le terme
utmcct = le contenu

Donc, si c'est bien çà, aucune raison de s'inquiéter ?

Dans le cas où les codes indiqués dans l'url transmise pourrait être interprétés, je remercie les administrateurs du forum de les effacer.

UsagiYojimbo · 26 Mai 2011

Pour info la balise canonical s'avère utile quand elle est mise en place avant que le problème survienne. Pour du correctif, des tests que j'ai pu faire, la redirection via .htaccess ou la suppression des pages est le plus efficace et rapide.

Pour la suppression via GWT, il faut le faire depuis le profil GWT du domaine erroné, donc valider celui-ci sur GWT (en théorie), de manière à pouvoir ensuite supprimer cette page (tu ne peux supprimer une page que sur un domaine que tu as validé). Cette suppression ne peut pas se faire si une redirection a été mise en place, parce que dans ce cas le domaine hébergeur n'est plus accessible pour le robot.

alainp · 26 Mai 2011

Bonjour UsagiYojimbo,

Dans GWT, j'ai effectivement la possibilité d'enregistrer l'url parasite du site dont je voudrai la suppression des pages mais je rappelle que cette url est celle du serveur mutualisé où se trouve l'url exacte de mon site.

Ces url "parasites" sont données dès la création d'un hébergement OVH avec un nom de domaine pour avoir plusieurs possibilités d'accéder à l'espace d'hébergement mais en fait, il s'agit du même site.

Sur GWT, je n'ai pas validé ma demande d'ajout de site dans la mesure où je ne peux pas transférer le fichier de validation html qui découle de cette inscription vers la racine de l'url parasite.

En outre et si j'y parvenais, et que je demande la suppression des pages parasites, est-ce que je ne risque pas de supprimer les pages réelles de mon site qui sont indexées.

Désolé si je ne suis pas très clair.

jeffman · 31 Mai 2011

Perso, ca m'est deja arrivé que gg trouve une url tout seul !!!