Fonctionnement de Google

Discussion dans 'Crawl et indexation Google, sitemaps' créé par alainp, 23 Mai 2011.

  1. alainp
    alainp WRInaute discret
    Inscrit:
    13 Juin 2003
    Messages:
    125
    J'aime reçus:
    0
    Bonsoir,

    Etant en désaccord avec mon hébergeur, je souhaiterai avoir votre avis sur le fonctionnement des robots Google

    Mon hébergeur me certifie que ces robots peuvent trouver tout seuls l'URL d'un site même si cette URL n'apparaît nulle part.

    Personnellement, je pense que Google ne peut trouver des adresses au hazard et qu'il a bien fallu, à un moment donné, que cette URL lui soit donnée ou qu'elle apparaisse sur un site.

    Merci pour vos avis
     
  2. M&B Multimédia
    M&B Multimédia WRInaute passionné
    Inscrit:
    1 Octobre 2009
    Messages:
    1 117
    J'aime reçus:
    0
    Bsr alainp,


    Globalement, Google navigue de site en site en suivant les liens qu'il trouve.

    Si personne ne dit à Google qu'un site existe sur -http://www.ertfgkuhsdfgoywtkszgtg.fr, il n'ira sans doutes jamais voir ce qu'il y a à cette adresse...
     
  3. alainp
    alainp WRInaute discret
    Inscrit:
    13 Juin 2003
    Messages:
    125
    J'aime reçus:
    0
    Merci M&B Multimédia, j'en suis réellement persuadé mais je suis tombé sur un technicien qui me soutient que Google, avec ses milliers d'ordinateurs, peut trouver un site tout seul.

    Je vais voir si je peux joindre un technicien Google mais je crois que c'est mission impossible

    Bonne soirée
     
  4. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 473
    J'aime reçus:
    34
    Il est cependant possible pour Google de trouver des sites sans qu'il y ait un lien : il suffit que tu passes le consulter avec la googlebar activée. Ton technicien n'a donc pas tort en pratique, même si l'explication n'est pas la même
     
  5. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 417
    J'aime reçus:
    0
    sans oublier google analytics
     
  6. alainp
    alainp WRInaute discret
    Inscrit:
    13 Juin 2003
    Messages:
    125
    J'aime reçus:
    0
    Effectivement, ce sont des éventualités mais là, il s'agit de l'URL "informatique" du site et non l'URL de mon nom de domaine.

    Je ne connaissais pas cette URL "technique" et je ne l'ai jamais utilisée, la Google Bar et google Analytics ne pouvaient donc pas la voir en ce qui me concerne
     
  7. OTP
    OTP WRInaute accro
    Inscrit:
    16 Décembre 2005
    Messages:
    14 715
    J'aime reçus:
    3
    C'est à dire ???
     
  8. Booble
    Booble WRInaute discret
    Inscrit:
    18 Septembre 2006
    Messages:
    120
    J'aime reçus:
    0
    Je pense à un autre moyen (non encore cité ...dans cette page)
    Mais une "URL informatique" : je ne vois pas ...

    Le technicien ne t'as pas donné une piste vérifiable, un nom ... technique ?
     
  9. JanoLapin
    JanoLapin WRInaute accro
    Inscrit:
    21 Septembre 2008
    Messages:
    4 249
    J'aime reçus:
    0
    Je suppose qu'il parle de l'url réelle que chaque client (en mutu) a, sur la structure suivante:
    ex.: -domainehebergeur.ext/n°client/répertoiredusiteduclient qui vient en DC de domaineclient.ext.
     
  10. alainp
    alainp WRInaute discret
    Inscrit:
    13 Juin 2003
    Messages:
    125
    J'aime reçus:
    0
    C'est tout à fait çà, désolé si je n'ai pas été plus clair
    Et dans la partie domainehebergeur, çà ne reprend même qu'une partie du vrai domaine
    Je préfère ne pas mettre cette pseudo url en clair pour éviter de participer à sa diffusion.

    Quant au technicien, à part maintenir le fait que ce sont les robots de Google qui trouvent cette adresse tout seul, c'est tout ce que j'obtiens.

    C'est avec l'aide d'un forum que j'ai corrigé mon htaccess pour rediriger ces pages mais le mal est fait, plus de 700 pages en duplicate content
     
  11. nickargall
    nickargall WRInaute accro
    Inscrit:
    13 Juin 2005
    Messages:
    6 661
    J'aime reçus:
    4
    Une visite avec la Google Toolbar activée peut en effet faire indexer une URL non liée ailleurs, qu'elle soit sur un 'vrai' domaine ou sur un domaine de 'pré-production' . J'en ai eu également la désagréable expérience fut un temps.
     
  12. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 473
    J'aime reçus:
    34
    "le mal est fait" pas pour très longtemps, htaccess plus demande de suppression de site dans GWT et c'est réparé dans deux jours
     
  13. alainp
    alainp WRInaute discret
    Inscrit:
    13 Juin 2003
    Messages:
    125
    J'aime reçus:
    0
    Bonjour Marie-Aude

    Pour le htaccess, c'est fait mais pour la suppression, impossible ou bien je m'y suis mal pris

    Je suis allé dans les outils pour les webmasters, Accès du robot d'exploration et onglet supprimer l'url

    Une fois que j'ai renseigné l'url d'une page à supprimer avec cette pseudo url de l'hébergeur, l'outil à rajouté cette dernière à l'url exacte de mon site de cette façon

    htt​p:/​/ww​w.monvraisite​.ne​t/h​ttp​://xxxxxx.​xxxxxxx.o​vh.​net​/nom-de-la-page.h​tml

    Bien entendu les xxxxxx ne sont là que pour ne pas diffuser la pseudo url "fausse"
    Voyant çà, j'ai annulé ma demande de suppression

    Etais-je au bon endroit ?
    Merci
     
  14. JanoLapin
    JanoLapin WRInaute accro
    Inscrit:
    21 Septembre 2008
    Messages:
    4 249
    J'aime reçus:
    0
    si tu as déjà corrigé avec du htaccess, alors il te suffit d'attendre. Les bots vont rapsser et -après délai- nettoyer l'index de Google

    Il n'y a rine d'autre à faire: Google fera tout de lui-même. Tu n'as pas de raison de t'inquiéter
     
  15. alainp
    alainp WRInaute discret
    Inscrit:
    13 Juin 2003
    Messages:
    125
    J'aime reçus:
    0
    Je m'inquiète un peu dans la mesure où mon site est actuellement en chute libre et je ne sais pas jusqu'où il va descendre.

    Merci pour les conseils
     
  16. JanoLapin
    JanoLapin WRInaute accro
    Inscrit:
    21 Septembre 2008
    Messages:
    4 249
    J'aime reçus:
    0
    Tu as mis en place les redir nécessaires. Donc c'ets suffisnat. Comme de toute façon, tu ne pourras jamais supprimer les urls de ton hébergeur via GWT (puisque ce n'est pas ton domaine), tu ne peux plus rien fiare d'autre.
    S'inquiéter ne sert à rien
     
  17. HawkEye
    HawkEye WRInaute accro
    Inscrit:
    23 Février 2004
    Messages:
    13 932
    J'aime reçus:
    5
    La balise rel="canonical" peut aider :roll:
     
  18. Jahmasta
    Jahmasta Nouveau WRInaute
    Inscrit:
    23 Mars 2004
    Messages:
    27
    J'aime reçus:
    0
    En passant Google est informé quasi en temps réel de la présence d'un nouveau site au niveau des DNS root que telle IP correspond à tel domaine. Donc dans le cas d'un nouveau site, Google vient faire un tour dessus. (ils sont bien placés pour savoir ce qui se passe en haut de la pyramide http://www.republique-des-lettres.fr/491-google.php)
    Sans aucun lien entrant Google peut donc crawler un site.
    Si tu veux éviter le crawl tu bloques avec un robot.txt, no-index/no-follow dans tes metas, et htacess > ça devrait être bon avec tout ça ;o)
     
  19. haydarpottery
    haydarpottery Nouveau WRInaute
    Inscrit:
    15 Juin 2008
    Messages:
    3
    J'aime reçus:
    0
    Pour que google peut detecter vos liens, il vous faut lui envoyer un Sitemap à l'aide du google webmaster tools (bien sur après avoir enregistrer votre site avec cet outils)
    Sinon vous devez attendre pour que le robot du Google detect un lien vers votre site quelque part.
     
  20. lunicrea
    lunicrea WRInaute occasionnel
    Inscrit:
    30 Août 2010
    Messages:
    479
    J'aime reçus:
    1
    Salut !

    Sauf que c'est exactement le contraire que veut faire alainp, à savoir désindexer pléthore de pages issus du nom de domaine "mutu"...
     
  21. alainp
    alainp WRInaute discret
    Inscrit:
    13 Juin 2003
    Messages:
    125
    J'aime reçus:
    0
    Oui mais le robot.txt, je ne peux le mettre que dans mon domaine principal et le but n'est pas de bloquer celui-ci
    Je n'ai apparamment pas accès à l'adresse du domaine mutualisé fourni par OVH

    Lunicrea a raison, je ne veux pas diffuser les adresses du domaine mutualisé. Bien au contraire, je veux qu'elles disparaissent
    Cà fait un peu plus d'une semaine que j'ai découvert ce problème et que j'ai redirigé par le htaccess

    Au lieu de diminuer, le nombre de ces pages parasites augmente, pas beaucoup mais de quelques unités chaque jour.

    Merci à tous
     
  22. lunicrea
    lunicrea WRInaute occasionnel
    Inscrit:
    30 Août 2010
    Messages:
    479
    J'aime reçus:
    1
    Oui c'est totalement normal.
    Le temps que tu mettes en place ton .htaccess, ce coquin de Google a déjà ingurgité beaucoup de pages issues de ce nom de domaine "doublon".

    Du coup, tu as malheureusement pas le choix que d'attendre que le robot soit redirigé en 301 sur chaque page qu'il va crawlé ;)

    Patience !
     
  23. alainp
    alainp WRInaute discret
    Inscrit:
    13 Juin 2003
    Messages:
    125
    J'aime reçus:
    0
    Je m'en doutais un peu mais on trouve le temps long quand le nombre de pages visitées diminue sans qu'on puisse intervenir.

    Je préfère un chute liée à une bêtise de ma part, je corrige et c'est reparti après une paire de claques perso.
     
  24. JanoLapin
    JanoLapin WRInaute accro
    Inscrit:
    21 Septembre 2008
    Messages:
    4 249
    J'aime reçus:
    0
    la reccomandation d'hawkeye avec la balise canocical est une excellente suggestion. Ne passes pas à côté!
     
  25. alainp
    alainp WRInaute discret
    Inscrit:
    13 Juin 2003
    Messages:
    125
    J'aime reçus:
    0
    J'ai déjà parcouru un certain nombre de pages sur ce sujet mais je reconnais que je ne suis pas à l'aise avec cette balise.

    Sans vouloir faire dévier le présent fil vers ce sujet ni vous inciter à me donner un cours, j'ai l'impression qu'il faut mettre la balise <link rel="canonical" href="h**p://www.monsite.net"/> sur toutes les pages non canoniques.

    Si c'est bien çà, l'idéal serait que cette balise soit sur les pages dont je ne veux plus (celles de l'adresse du mutualisé) mais je n'y ai pas accès.

    Ai-je bien compris.
     
  26. JanoLapin
    JanoLapin WRInaute accro
    Inscrit:
    21 Septembre 2008
    Messages:
    4 249
    J'aime reçus:
    0
    Je laisse d'autres s'exprimer sur l'intérêt pour des pages hors site.

    Pour les pages internes à ton site, il suffit de rajouter sur chaque page produite une balise meta supplémentaire, laquelle indique l'adresse canonique de la page. (Pour les CMS, il y a un certain nombre de modules / plugins qui font cela très bien)

    Cela permet ainsi aux pages internes redondantes, quelqu'en soit la raison (systèmes défaillant de productions d'url, variables additionnelles, etc..) de comporter ainsi cette même balise que celle de la page originale, en indiquant ainsi qu'elle ne sont pas la page originale et de fournir l'adresse de la page originale.

    Concrètement:
    page originale: example.com/ma-page.php
    passage de variable dans l'url: example.com/ma-page.php?id=1254&tralala=651 --> même contenu.

    la balise canonical de la page originale, comportant comme url d'origine example.com/ma-page.php sera présente à l'l'identique dans example.com/ma-page.php?id=1254&tralala=651
    ==> example.com/ma-page.php?id=1254&tralala=651 renverra donc bien à l'url example.com/ma-page.php

    (je ne sais pas si j'ai été clair)
     
  27. alainp
    alainp WRInaute discret
    Inscrit:
    13 Juin 2003
    Messages:
    125
    J'aime reçus:
    0
    Merci JanoLapin, je vais me documenter un peu plus sur cette balise
     
  28. alainp
    alainp WRInaute discret
    Inscrit:
    13 Juin 2003
    Messages:
    125
    J'aime reçus:
    0
    Bonjour,

    Pas de nouveau à propos de mes pages en double mais je remarque l'apparition d'une anomalie que je n'avais pas vu depuis longtemps dans mes url

    Pour info, mon htaccess est désormais le suivant, suite au problème des pages en double (extrait) :

    Code:
    RewriteEngine on
    RewriteCond %{HTTP_HOST} !^www.monsite\.net$
    RewriteRule ^(.*) http://www.monsite.net/$1 [QSA,L,R=301]
    Ce matin, je découvre l'url suivante qui a été utilisée et qui fonctionne :

    h**p://www.monsite.net/?__utma=1.112495506.1306384870.1306384870.1306384870.1&__utmb=1.15.10.1306384870&__utmc=1&__utmx=-&__utmz=1.1306384870.1.1.utmcsr=(direct)%7Cutmccn=(direct)%7Cutmcmd=(none)&__utmv=-&__utmk=29070524

    De plus, cette url reste affichée dans la fenêtre du navigateur.
    Qu'en pensez-vous, je risque d'avoir de nouvelles pages en duplicat content
    Merci pour vos conseils
     
  29. alainp
    alainp WRInaute discret
    Inscrit:
    13 Juin 2003
    Messages:
    125
    J'aime reçus:
    0
    Petite réponse à moi-même mais qui mériterait d'avoir votre avis.

    En fouillant un peu sur le web, il semblerait que celà corresponde à des cookies de Google analytics

    J'ai trouvé çà
    Donc, si c'est bien çà, aucune raison de s'inquiéter ?

    Dans le cas où les codes indiqués dans l'url transmise pourrait être interprétés, je remercie les administrateurs du forum de les effacer.
     
  30. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 928
    J'aime reçus:
    78
    Pour info la balise canonical s'avère utile quand elle est mise en place avant que le problème survienne. Pour du correctif, des tests que j'ai pu faire, la redirection via .htaccess ou la suppression des pages est le plus efficace et rapide.

    Pour la suppression via GWT, il faut le faire depuis le profil GWT du domaine erroné, donc valider celui-ci sur GWT (en théorie), de manière à pouvoir ensuite supprimer cette page (tu ne peux supprimer une page que sur un domaine que tu as validé). Cette suppression ne peut pas se faire si une redirection a été mise en place, parce que dans ce cas le domaine hébergeur n'est plus accessible pour le robot.
     
  31. alainp
    alainp WRInaute discret
    Inscrit:
    13 Juin 2003
    Messages:
    125
    J'aime reçus:
    0
    Bonjour UsagiYojimbo,

    Dans GWT, j'ai effectivement la possibilité d'enregistrer l'url parasite du site dont je voudrai la suppression des pages mais je rappelle que cette url est celle du serveur mutualisé où se trouve l'url exacte de mon site.

    Ces url "parasites" sont données dès la création d'un hébergement OVH avec un nom de domaine pour avoir plusieurs possibilités d'accéder à l'espace d'hébergement mais en fait, il s'agit du même site.

    Sur GWT, je n'ai pas validé ma demande d'ajout de site dans la mesure où je ne peux pas transférer le fichier de validation html qui découle de cette inscription vers la racine de l'url parasite.

    En outre et si j'y parvenais, et que je demande la suppression des pages parasites, est-ce que je ne risque pas de supprimer les pages réelles de mon site qui sont indexées.

    Désolé si je ne suis pas très clair.
     
  32. jeffman
    jeffman WRInaute discret
    Inscrit:
    25 Septembre 2006
    Messages:
    160
    J'aime reçus:
    0
    Perso, ca m'est deja arrivé que gg trouve une url tout seul !!!
     
Chargement...
Similar Threads - Fonctionnement Google Forum Date
Un tel fonctionnement de google est-il possible ? Référencement Google 4 Mars 2020
Fonctionnement des stats Commerce Electronique sur Google Analytics? Google Analytics 5 Septembre 2013
Fonctionnement de la recherche de blogs Google Référencement Google 4 Avril 2013
Le nouveau fonctionnement de la recherche Google : contreproductif pour le référencement ? Référencement Google 26 Novembre 2012
La recherche link:votresite.com sur google - Disfonctionnement? Netlinking, backlinks, liens et redirections 15 Janvier 2012
fonctionnement précis outil suppression url search console Débuter en référencement Lundi à 08:45
Récapitulatif Les CMP (Consent Management Platform) : intérêt, fonctionnement... Administration d'un site Web 30 Mars 2021
Activation suivi e-commerce et fonctionnement côté GA Google Analytics 15 Mars 2021
Fonctionnement CPC/CPM AdSense 16 Avril 2020
Logique de fonctionnement d'une application mobile Développement d'un site Web ou d'une appli mobile 17 Mars 2020