[Googlebot] - Indexation, Noframe et pages sat

Discussion dans 'Crawl et indexation Google, sitemaps' créé par spidetra, 23 Juillet 2003.

  1. spidetra
    spidetra WRInaute passionné
    Inscrit:
    7 Juillet 2003
    Messages:
    1 216
    J'aime reçus:
    0
    Bonjour à tous,

    Et tout d'abors félicitation à Olivier pour son site. J'ai raté ta conf à Toulouse mais d'après ce que l'on m'a dit la salle était bondé :D

    Est-ce que Googlebot indexe encore les balises Noframes ?

    La réponse est oui mais je me pose quand même des questions.

    J'ai fait un test avec trois pages sat au mois d'avril. Le 23 juillet ces pages ne sont pas indexées dans Google.
    Je ne parle pas de positionnement, mais simplement d'indexation des pages.

    Je vais essayer de vous donner un max d'infos tech :

    1. Le site à un petit PR. 3 pour la page d'accueil, 2 pour les pages internes du site.
    2. Environs 114 pages sont présentes dans google. Toutes sauf les 3 pages sat citées au-dessus.
    3. Les 3 pages sat sont accessibles à partir de la page d'accueil (les liens sont dans la balise NOFRAME).
    4. J'ai mis ces pages en ligne vers la mi-avril.

    5. Le 26 avril Googlebot passe et crawle ces pages :
    crawl1.googlebot.com - - [26/Apr/2003:09:21:42 +0200] "GET /sat1 HTTP/1.0" 200 4239 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"
    crawl4.googlebot.com - - [26/Apr/2003:04:33:41 +0200] "GET /sat2 HTTP/1.0" 200 5363 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"
    crawl3.googlebot.com - - [26/Apr/2003:07:02:53 +0200] "GET /sat3 HTTP/1.0" 200 5652 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"

    Puis, PLUS RIEN :evil:

    Ce que je sais :
    - La balise <NOFRAME> a bien été indexé. Des recherches sur 3 keywords présent uniquement dans cette balise me donnent bien la page d'accueil en réponse.
    - Les 3 liens ont bien été suivie (cf log ci-dessus).
    - J'ai déjà utilisé avec succés cette méthode à +sieurs reprises.

    Le même "test" fait sur un site de PR 6 donne les mêmes résultats. Le pb avec le site de PR 6, c'est que c'est pas un test :?

    Des idées ?
    --
    Philippe
     
  2. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 663
    J'aime reçus:
    434
    Tout d'abord, bienvenue et merci pour les félicitations :oops:
    Des conférences, j'espère en donner d'autres 8)

    Pour ton histoire, ces pages sont les seules à ne pas avoir été indexées ? Et les mots-clés pour ton test, tu les avais mis dans la partie noframe, à côté des liens vers les pages sat ?

    En tout cas, si Google commençait à détecter les pages sat, ce serait le pied (pour moi entre autres, pas pour certains ça c'est évident...). Affaire à suivre !
     
  3. spidetra
    spidetra WRInaute passionné
    Inscrit:
    7 Juillet 2003
    Messages:
    1 216
    J'aime reçus:
    0
    OUI. Ce sont les seules pages à ne pas avoir été crawlées.
    Le site est statique et comporte une centaine de pages en HTML, comptible W3C. Tu peux même naviguer sur le site avec lynx :lol:

    Je te donne un exemple (bidon), je ne peux malheureusement pas te communiquer l'adresse du site en question.

    <!-- sur la page d'accueil -->
    <noframes>
    Trois logiciels ont ete selectionne :
    <a href="/sat1.htm" title="truc Muche">Le truc Muche V1.0</a><br>
    <a href="/sat2.htm" title="Patin-couffin">Le Plug-in patin-couffin</a><br>
    <a href="/sat3.htm" title="Toto à roulette">Le toto à roulette</a>
    bla bla bla
    </noframes>

    Chacun de ces 3 requêtes : truc Muche, Plug-in Patin-couffin, toto à roulette, est présente sur 2 pages :
    - la page d'accueil et la page sat correspondante.

    En interrogeant google avec ces trois requêtes :
    - seule la page d'accueil "réagit".

    Mes conclusions :
    - la balise NOFRAME est tjrs indexé par Google.
    - Il a bien crawler les 3 pages
    - Il refuse de les mettre dans son index.

    Le même cas (technique exactement identique) se présente avec deux sites distinct. Le second à un PR de 6.

    Tout à fait d'accord avec toi pour l'utilisation des pages sat.
    Mes hypothèses :
    a) Un seul lien entrant sur chacune de ces pages.
    => ça j'y crois pas, j'ai d'autres pages sur le même site avec un seul lien entrant. Ces pages arrivent même à se positionner en 1° page de Google.

    b) Google détecte les pages sat.
    Comment ?
    Le graphe du site. :idea:

    Mon hypothèse va te sembler farfelue.

    Si je devais détecter des pages sat, je me baserai sur la théorie des graphes.

    Lorsque tu fait un site "naturellement" le graphe de ton site se structure d'une certaine façons. Disons que le graphe est : "cohérent", "homogène", "bô", ou n'importe quel mot qui désigne une structure de graphe "naturelle."

    Une page sat, c'est une "coquille", une "pétouille" sur un site web !
    Mon flair me dit qu'il doit être possible de détecter ces "coquilles".

    Farfelues :?:
    ou :idea:
    A suivre...
    --
    Philippe
     
Chargement...
Similar Threads - [Googlebot] Indexation Noframe Forum Date
Search Console Google n'explore pas les liens du sitemap (de desindexation) Crawl et indexation Google, sitemaps 6 Juillet 2020
WordPress Désindexation en masse de mes pages Problèmes de référencement spécifiques à vos sites 1 Juillet 2020
Empêcher l'indexation d'images dont le nom contient une chaîne donnée Crawl et indexation Google, sitemaps 27 Juin 2020
Search Console Problème indexation très faible Crawl et indexation Google, sitemaps 19 Mai 2020
Problème indexation page d'accueil incompatible mobile Crawl et indexation Google, sitemaps 19 Avril 2020
Peut-on demander l'indexation de plusieurs pages dans la search console ? Problèmes de référencement spécifiques à vos sites 18 Avril 2020
Rupture d'indexation Débuter en référencement 31 Mars 2020
Redirection 301 et indexation Crawl et indexation Google, sitemaps 24 Février 2020
Résolu Indexation : Erreur 503 et Qwant Autres moteurs de recherche connus 16 Février 2020
Search Console désindexation url spam Crawl et indexation Google, sitemaps 11 Février 2020
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice