[Googlebot] - Indexation, Noframe et pages sat

Discussion dans 'Crawl et indexation Google, sitemaps' créé par spidetra, 23 Juillet 2003.

  1. spidetra
    spidetra WRInaute passionné
    Inscrit:
    7 Juillet 2003
    Messages:
    1 216
    J'aime reçus:
    0
    Bonjour à tous,

    Et tout d'abors félicitation à Olivier pour son site. J'ai raté ta conf à Toulouse mais d'après ce que l'on m'a dit la salle était bondé :D

    Est-ce que Googlebot indexe encore les balises Noframes ?

    La réponse est oui mais je me pose quand même des questions.

    J'ai fait un test avec trois pages sat au mois d'avril. Le 23 juillet ces pages ne sont pas indexées dans Google.
    Je ne parle pas de positionnement, mais simplement d'indexation des pages.

    Je vais essayer de vous donner un max d'infos tech :

    1. Le site à un petit PR. 3 pour la page d'accueil, 2 pour les pages internes du site.
    2. Environs 114 pages sont présentes dans google. Toutes sauf les 3 pages sat citées au-dessus.
    3. Les 3 pages sat sont accessibles à partir de la page d'accueil (les liens sont dans la balise NOFRAME).
    4. J'ai mis ces pages en ligne vers la mi-avril.

    5. Le 26 avril Googlebot passe et crawle ces pages :
    crawl1.googlebot.com - - [26/Apr/2003:09:21:42 +0200] "GET /sat1 HTTP/1.0" 200 4239 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"
    crawl4.googlebot.com - - [26/Apr/2003:04:33:41 +0200] "GET /sat2 HTTP/1.0" 200 5363 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"
    crawl3.googlebot.com - - [26/Apr/2003:07:02:53 +0200] "GET /sat3 HTTP/1.0" 200 5652 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"

    Puis, PLUS RIEN :evil:

    Ce que je sais :
    - La balise <NOFRAME> a bien été indexé. Des recherches sur 3 keywords présent uniquement dans cette balise me donnent bien la page d'accueil en réponse.
    - Les 3 liens ont bien été suivie (cf log ci-dessus).
    - J'ai déjà utilisé avec succés cette méthode à +sieurs reprises.

    Le même "test" fait sur un site de PR 6 donne les mêmes résultats. Le pb avec le site de PR 6, c'est que c'est pas un test :?

    Des idées ?
    --
    Philippe
     
  2. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 060
    J'aime reçus:
    329
    Tout d'abord, bienvenue et merci pour les félicitations :oops:
    Des conférences, j'espère en donner d'autres 8)

    Pour ton histoire, ces pages sont les seules à ne pas avoir été indexées ? Et les mots-clés pour ton test, tu les avais mis dans la partie noframe, à côté des liens vers les pages sat ?

    En tout cas, si Google commençait à détecter les pages sat, ce serait le pied (pour moi entre autres, pas pour certains ça c'est évident...). Affaire à suivre !
     
  3. spidetra
    spidetra WRInaute passionné
    Inscrit:
    7 Juillet 2003
    Messages:
    1 216
    J'aime reçus:
    0
    OUI. Ce sont les seules pages à ne pas avoir été crawlées.
    Le site est statique et comporte une centaine de pages en HTML, comptible W3C. Tu peux même naviguer sur le site avec lynx :lol:

    Je te donne un exemple (bidon), je ne peux malheureusement pas te communiquer l'adresse du site en question.

    <!-- sur la page d'accueil -->
    <noframes>
    Trois logiciels ont ete selectionne :
    <a href="/sat1.htm" title="truc Muche">Le truc Muche V1.0</a><br>
    <a href="/sat2.htm" title="Patin-couffin">Le Plug-in patin-couffin</a><br>
    <a href="/sat3.htm" title="Toto à roulette">Le toto à roulette</a>
    bla bla bla
    </noframes>

    Chacun de ces 3 requêtes : truc Muche, Plug-in Patin-couffin, toto à roulette, est présente sur 2 pages :
    - la page d'accueil et la page sat correspondante.

    En interrogeant google avec ces trois requêtes :
    - seule la page d'accueil "réagit".

    Mes conclusions :
    - la balise NOFRAME est tjrs indexé par Google.
    - Il a bien crawler les 3 pages
    - Il refuse de les mettre dans son index.

    Le même cas (technique exactement identique) se présente avec deux sites distinct. Le second à un PR de 6.

    Tout à fait d'accord avec toi pour l'utilisation des pages sat.
    Mes hypothèses :
    a) Un seul lien entrant sur chacune de ces pages.
    => ça j'y crois pas, j'ai d'autres pages sur le même site avec un seul lien entrant. Ces pages arrivent même à se positionner en 1° page de Google.

    b) Google détecte les pages sat.
    Comment ?
    Le graphe du site. :idea:

    Mon hypothèse va te sembler farfelue.

    Si je devais détecter des pages sat, je me baserai sur la théorie des graphes.

    Lorsque tu fait un site "naturellement" le graphe de ton site se structure d'une certaine façons. Disons que le graphe est : "cohérent", "homogène", "bô", ou n'importe quel mot qui désigne une structure de graphe "naturelle."

    Une page sat, c'est une "coquille", une "pétouille" sur un site web !
    Mon flair me dit qu'il doit être possible de détecter ces "coquilles".

    Farfelues :?:
    ou :idea:
    A suivre...
    --
    Philippe
     
Chargement...
Similar Threads - [Googlebot] Indexation Noframe Forum Date
Site piraté - indexation massive Problèmes de référencement spécifiques à vos sites Hier à 16:46
Comment accélérer la désindexation de pages en noindex Crawl et indexation Google, sitemaps Dimanche à 16:54
Problèmes d'indexation et robots.txt Crawl et indexation Google, sitemaps 14 Octobre 2019
Problème d'indexation Débuter en référencement 8 Octobre 2019
Indexation, contenu et saisonnalité Rédaction web et référencement 29 Septembre 2019
Indexation longue / Aucune visibilité Google Actualité Crawl et indexation Google, sitemaps 26 Septembre 2019
Indexation, pagination : comment gérer les URL de tri des colonnes ? Crawl et indexation Google, sitemaps 24 Septembre 2019
Indexation malgré le robots.txt Problèmes de référencement spécifiques à vos sites 23 Septembre 2019
Désindexation Bing Débuter en référencement 27 Août 2019
WordPress Indexation d'un site sur Google Débuter en référencement 4 Août 2019
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice