Goggle crawle les feuilles de styles CSS

Yvel · 23 Juin 2006

relevé dans mes log ce matin :

crawl-66-249-66-82.googlebot.com 27627 0 - [23/Jun/2006:03:32:37 +0200] "GET /style/cv.css HTTP/1.1" 200 240 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"

crawl-66-249-66-82.googlebot.com 27989 0 - [23/Jun/2006:03:32:20 +0200] "GET /style/corps.css HTTP/1.1" 200 613 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"

avez-vous constaté la même chose ???

Pikooz · 23 Juin 2006

je croyais qu'il ne rentrait pas dedans ???

serval2a · 23 Juin 2006

Obligatoirement si, du moins si il veut vérifier les textes cachés.

@+

Cendrillon · 23 Juin 2006

très intéressant ... cela fait un moment que je pense que le rapprochement Google/firefox a permi à Google de faire considérablement évoluer ses bots (je pense que Google utilise maintenant la technologie Gecko dans ses bots) ... :wink:

dh · 23 Juin 2006

depuis plus de deux mois mes css sont crawles

dh

nagafolk · 23 Juin 2006

Est ce que l'architecture, le nom des balises et de nom d'une feuille de style peuvent-ils influencer sur la manière dont google bot crawl un site ?

Grantome · 23 Juin 2006

Ca va blacklister à mort ...

WRI va exploser son serveur "Pourquoi mon site est BL ?"

radiotrance · 23 Juin 2006

et tu vas voir tous les geeks changer le nom de leur classe et foutre des mots clef dans les feuilles css. :lol:

jeanluc · 24 Juin 2006

Je confirme, si nécessaire, que Googlebot lit les css.

Code:

crawl-66-249-66-197.googlebot.com - - [23/Jun/2006:04:14:40 +0200] "GET /style.css HTTP/1.1" 200 7431 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"

Facile à détecter avec fr.spider-reporter.com. :wink:

Jean-Luc

Szarah · 24 Juin 2006

Radiotrance a dit:
et tu vas voir tous les geeks changer le nom de leur classe et foutre des mots clef dans les feuilles css.

Trop bon

HawkEye · 24 Juin 2006

T'imagines un peu les feuilles de style dans les résultats de recherche...

Voici les résultats pour votre recherche "référencement" (1 à 10):

Style.css
#referencement {...}
.referencement {...}
.seo_open {...}
.seo_closed {...}
°http://www.example.com/style.css [en cache] [pages similaires]

etc...

:mrgreen:

radiotrance · 25 Juin 2006

HawkEye a dit:
T'imagines un peu les feuilles de style dans les résultats de recherche...

Voici les résultats pour votre recherche "référencement" (1 à 10):

Style.css
#referencement {...}
.referencement {...}
.seo_open {...}
.seo_closed {...}
°http://www.example.com/style.css [en cache] [pages similaires]

etc...

:mrgreen:

:lol: :lol: :lol:

Yvel · 25 Juin 2006

jeanluc a dit:
Je confirme, si nécessaire, que Googlebot lit les css.

Code:

crawl-66-249-66-197.googlebot.com - - [23/Jun/2006:04:14:40 +0200] "GET /style.css HTTP/1.1" 200 7431 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"

Facile à détecter avec fr.spider-reporter.com. :wink:

Jean-Luc

oui, bien sûr Jean Luc .
L'objet de mon post n'était pas de mettre en avant un exploit personnel mais de partager une info qui m'a semblé importante.
J'en étais resté au fait que GG ne lisait pas les css et je n'avais encore jamais lu d'infos précisant le contraire.

Il m'a semblé important de partager ma toute petite découverte.

Une autre option aurait été de ne rien dire et de participer ainsi à une certaine forme d'obscurantisme ou de désinformation.
Je n'ai cependant pas l'impression que ce genre de motivation anime les membres de WRI.

:roll:

jeanluc · 25 Juin 2006

Yvel,

Désolé, pour le malentendu. Je voulais seulement confirmer ton information. :wink:

Je pense que c'est un scoop, parce que je n'ai pas vu cette info diffusée publiquement de façon claire jusqu'à présent. Bravo et merci.

Jean-Luc

Albert1 · 25 Juin 2006

Yvel a dit:
Il m'a semblé important de partager ma toute petite découverte.

à tout hasard, existerait il une page avec un lien direct vers cette page CSS, par exemple un forum où tu aurais demandé de l'aide ou que sais je ?

Yvel · 25 Juin 2006

Albert1 a dit:
Yvel a dit:

Il m'a semblé important de partager ma toute petite découverte.

Cliquez pour agrandir...

à tout hasard, existerait il une page avec un lien direct vers cette page CSS, par exemple un forum où tu aurais demandé de l'aide ou que sais je ?

Je n'ai jamais déposé de liens vers mes CSS.
De plus, il s'agit de mes premieres pages CSS, celles que j'ai codée lorsque je commençais les CSS..... donc loin d'être des cas d'école méritant d'être citées en exemple lol.

arffff un lien naturel vers un CSS alors que j'ai tellement de mal à en avoir vers mes pages htm .... j'y crois pas (très sérieusement)

Albert1 · 25 Juin 2006

sait on jamais, c'était juste pour être sûr

pene-r · 25 Juin 2006

Même si on en avait pas entendu parler (peut être que google se l'interdisait ?)
Techniquement il n'y a rien qui gène la lecture et l'indexation des css par les robots, non (c'est du texte) ??
Je crois d'ailleurs que certaine feuille sortent sur yahoo :?
[édit]margin-left
elles sortent/édit]

Par contre si il se met à les interprété, y en a qui vont pas rire :lol:

[édit2] une sur google qui a été mal nommé
.css.txt

Albert1 · 25 Juin 2006

pene-r a dit:
Techniquement il n'y a rien qui gène la lecture et l'indexation des css par les robots, non (c'est du texte) ??

Google desktop indexe parfaitement les CSS dans un environnement PC/Win
alors pourquoi pas sur le web ...

après quel intérêt ça peut avoir :roll:
un CSS seul ne veut rien dire ; un CSS+HTML je doute qu'un robot puisse interprêter les multiples et subtiles combinaisons possibles !
si il y arrivent, qu'ils en fassent profiter le W3C pour un nouveau validator CSS

jeanluc · 25 Juin 2006

Comme Yvel, je n'ai pas fait de liens vers mes .css dans des forums, etc. Les seuls liens existants sont dans les en-têtes des pages qui les utilisent.

Quel intérêt pour Google ? C'est de faire le ménage évidemment et pas d'indexer les css dans les résultats de recherche. 8O

Si mon navigateur sait interprèter les css, pourquoi Google n'y arriverait pas ? Faut pas les sous-estimer à ce point-là ! :lol:

Jean-Luc

Szarah · 25 Juin 2006

Bah, ils se mettent peut-être à traquer automatiquement les hidden et les positions négatives pour les DIV.
Pour dégrossir le boulot et allumer des petites diodes oranges A approfondir.

Albert1 · 25 Juin 2006

Szarah a dit:
Bah, ils se mettent peut-être à traquer automatiquement les hidden et les positions négatives pour les DIV.

bé ils risquent d'avoir énormément de boulot pour un bien maigre résultat ...

Szarah · 25 Juin 2006

Hihi oui

Mais bon, il reste des trucs incroyables dans les CSS (trouvé sur le site de Malaiac qui rapporte cette curiosité) :

/*LIENS CACHES POUR REFERENCEMENT*/
.lien_cache { cursor: text; text-decoration: none; color: #000000}

Edit : c'est là, avec plein d'autres trucs marrants
http://www.malaiac.net/category/seoenologie

Cendrillon · 25 Juin 2006

bien sûr que Google ne lit pas les css pour les indexer, mais bel et bien, comme le souligne Jean-Luc, pour les interpréter ... :wink:

cela fait pourtant plusieurs semaines que je fais passer le message ... je suis convaincue que Google ne positionne plus les pages sur la vue source mais sur la vue telle que la voit les utilisateurs dans leur navigateur ...

je pense (sans pouvoir le prouver, bien sûr) que pour cela ils utilisent un nouveau bot embarquant le moteur Gecko (très certainement issu du rapprochement Google/Mozilla) ... et je soupsonne que cela soit une des grandes innovations cachées de BigDaddy ... :wink:

Albert1 · 25 Juin 2006

Szarah a dit:
il reste des trucs incroyables dans les CSS

ah oui ! là, le mot est adéquat 8O :lol:
y a aussi pitoyable, lamentable ...
puis j'aime bien le petit commentaire, des fois qu'il oublie ...
il sait pas que n'importe qui peut lire sa feuille de style ?

heureusement que le ridicule ne tue pas

Szarah · 25 Juin 2006

Cendrillon a dit:
(...)je suis convaincue que Google ne positionne plus les pages sur la vue source mais sur la vue telle que la voit les utilisateurs dans leur navigateur ... (...)

Tu dois avoir raison : il y a une meilleure IA qu'on le croit derrière le bonhomme Google. Et une autre indication, c'est leur réponse à l'attaque des éditeurs contre le scan sauvage de certains fonds d'édition : C'est pour donner à lire à une IA, pas aux humains répond en substance Google.
Perso, je tiens compte de ce genre d'indices.

Yvel · 25 Juin 2006

sur un listage des page de mon site www sur yahoo, quelques CSS ressortent.
pas sur GG.

il est évident que l'interprétation des css "peux permettre à GG (entre autre) de faire un peu ou beaucoup de ménage et de gagner ainsi pas mal de place mémoire (n'était-ce pas un problème évoqué récemment)

d'autre part, suite à la mise en place de big daddy, il me semble de mémoire que matt machin dans son blog annonçait une prochaine phase qui consisterait en une "chasse aux tricheurs"

j'ai tendance à être ok avec Cendrillon : qu'est-ce qui aurait pu motiver GG à mettre en place un nouveau bot si ce n'est une amélioration significative de la qualité des crawl ? car pour l'unique aspect "quantité", les anciens bot faisaient bien l'affaire.

donc,
- la mise en place de big daddy (nouvel algo)
- l'annonce de Matt...
- le remplacement des bots
- les Pb de place
- le crawl des CSS

et je dois en oublier .... tout cela va dans le sens d'un changement important, lent et maitrisé, même si parfois on a l'impression que GG est à la ramasse.

Cendrillon · 25 Juin 2006

sans oublier tout ceux qui (même si ce n'est pas vraiment de la triche) cherchaient néanmoins à "tromper" les moteurs en présentant des pages sources # des pages affichées grâce aux calques+css (calques affichés dans l'ordre qui les arrangeaient, # de l'ordre d'affichage dans le navigateur) ... :lol:

Yvel · 25 Juin 2006

Cendrillon a dit:
sans oublier tout ceux qui (même si ce n'est pas vraiment de la triche) cherchaient néanmoins à "tromper" les moteurs en présentant des pages sources # des pages affichées grâce aux calques+css (calques affichés dans l'ordre qui les arrangeaient, # de l'ordre d'affichage dans le navigateur) ... :lol:

ben oui hein ! .... même après en avoir échangé sur WRI

remarque qu'avec les balises en ligne ou en block il est difficile de déterminer à quel emplacement on doit mettre telle ou telle infos dans le code. Ce qui est à droite doit-il être codé avant ou après ce qui est en dessous ? .... plein de trucs comme ça.
quelle logique adopter ? celle des mouvements naturels de l'oeil, celle du sens traditionnel de lecture, celle du w3c .... ??

plus généralement,
La question pourrait être : des infos à notre disposition aujourd'hui, peut-on anticiper de nouvelles règles d'optimisation ?
lesquelles ?

pene-r · 25 Juin 2006

Que googlesache les lire et les analyser les css, ça me parait normal.

Par contre qu'il les rapproche d'une mise en page, ça me parait incroyable (peut être je me trompe hein :wink: ).

Il y a encore des sites bien classé avec des <noframe> gavées de <h1>, sans <frame> dans le source

Il me semble que tant que google ne sait pas éjecter automatiquement ces sites là, il n'a aucun intérêt à décortiquer une css.
Peut être en serat il capable dans pas longtemps par contre (ça je veux bien le croire et je l'espère même).

Szarah · 25 Juin 2006

Pene-r a dit:
Il y a encore des sites bien classé avec des <noframe> gavées de <h1>, sans <frame> dans le source

Vi, et il faudrait être innocent pour croire que Google ne le sait pas, et qu'il n'a pas la liste des téméraires.

Pene-r a dit:
Il me semble que tant que google ne sait pas éjecter autopmayiquement ces sites là, il n'a aucun intérêt à décortiquer une css.

Peut-être en est-il capable mais ne veut-il pas travailler au coup par coup, attendant son heure.

Pene-r a dit:
Peut être en serat il capable dans pas longtemps par contre (ça je veux bien le croire et je l'espère même).

Cela fait plus de deux ans que les SEO savent qu'il y a de nouvelles règles, ils ont eu tout le loisir de changer leurs méthodes.
Ce que moi j'espère, c'est qu'en réponse à la montée de la concurrence, Google procède d'un coup d'un seul au grand nettoyage, pour nous donner un Web tout propre

pene-r · 25 Juin 2006

Ce que moi j'espère, c'est qu'en réponse à la montée de la concurrence, Google procède d'un coup d'un seul au grand nettoyage, pour nous donner un Web tout propre Smile

ça foutrait un beau bordel, mais ça me plairait bien aussi

Vi, et il faudrait être innocent pour croire que Google ne le sait pas, et qu'il n'a pas la liste des téméraires

Pour la liste caché de google, c'est peut-être ben vrai. Il se disait dans un autre topic, qu'il y aura bientôt un labs google en France je crois, peut être que la liste va entrer en action à ce moment là ??

Pour ceux qui observent google aux états-unis;
Y a-t-il aussi des margoulins (grossier comme mon exemple ci dessus) qui passent au travers là bas ??

Yvel · 25 Juin 2006

Szarah a dit:
....
Ce que moi j'espère, c'est qu'en réponse à la montée de la concurrence, Google procède d'un coup d'un seul au grand nettoyage, pour nous donner un Web tout propre

une mise à jour en une fois !!!
genre "on appuie sur le bouton !?
techniquement cela est-il possible ?
cela ne suppose t il pas une recette monumentale...
mise à jour de l'ensemble des DC
régler les bogues
traiter les réclamations
réindexer les site exclus par erreurs
réajuster les positionnements
...etc...
une grosse GD .... ENORME !!!

Szarah · 25 Juin 2006

Les index ont déjà été reconstruits, ça se voit bien dans les effets

Les mettre en oeuvre massivement, je ne vois pas le prob technique.

Je vais répondre à ceci :

Yvel a dit:
traiter les réclamations
réindexer les site exclus par erreurs

1. Traiter les réclamations.
Ma ché réclamations ?
La phase des blacklistages a été une phase de communication pure sur le mode WARNING ! ACHTUNG ! PAS-OP ! ATTENTION ! On vous a repéré !
Cette phase est formative pour dresser les nouveaux webmasters.
Le blacklistage n'est plus nécessaire si la règle devient Tu triches ? Tu tombes au fond du classement.
Tu les verrais courir, les tricheurs, avec leur balai et leur grattoir, pour nettoyer leur code et récupérer une juste place

2. Les sites exclus par erreur.
Je suis désolée : je n'ai pas vu un seul cas de pénalité par erreur. Pas un seul.

WebRankInfo · 25 Juin 2006

merci pour l'info Yvel, voici mon résumé:

Google crawle les fichiers CSS

Jusqu'à présent, Google ignorait totalement les feuilles de styles (CSS), mais on voit désormais des robots de Google venir les crawler. Quels sont les objectifs de Google ?

Tout comme le JavaScript, les feuilles de styles CSS sont ignorées des moteurs de recherche. Il faudra peut-être bientôt dire étaient ignorées car des robots de Google viennent en effet les crawler (c'est-à-dire venir lire les fichiers). Pour des pages web classiques, Google indexe les pages qu'il a crawlées, mais qu'en est-il des feuilles de styles ?

Google n'a aucun intérêt à indexer les feuilles de styles puisqu'elles ne contiennent pas l'information, seulement la mise en forme. L'hypothèse la plus probable est que Google commence à chercher comment lutter contre le spam basé sur les styles CSS. Rien de plus facile en effet que de cacher du texte avec le CSS, il y a même de nombreuses méthodes.

Pour cela, Google doit interpréter ces feuilles de styles, ce que savent très bien faire les navigateurs, et donc aussi Google (surtout que Google est très proche des développeurs de Firefox).

Difficile de pronostiquer une suppression rapide de l'index Google des sites utilisant des styles CSS dans l'unique but de cacher du texte. En effet, même d'autres techniques bien plus anciennes ne sont pas souvent sanctionnées...

Cendrillon · 25 Juin 2006

pene-r a dit:
Par contre qu'il les rapproche d'une mise en page, ça me parait incroyable (peut être je me trompe hein :wink: ).

incroyable ? un simple navigateur arrive à le faire ... pourquoi le fait qu'un bot (qui se comporte comme un navigateur ... de moins en moins rustre) te sembles si incroyable que ça ? :lol:

SiM07 · 25 Juin 2006

Et pendant ce temps les autres moteurs prennent du retard et toujours du retard !

Que fera-t-on d'Exalead lorsque Google surfera comme un surfeur ?

Cendrillon · 25 Juin 2006

n'oublie pas que Micro$oft connait bien les navigateurs aussi ... :wink:

Remi L. · 25 Juin 2006

C'est effectivement étonnant : les css de tous les sites auxquels j'ai accès ont été lus dans la journée du 23/06. En ce qui me concerne, je suis certain que c'est la première fois (du moins par le robot officiel).

Maintenant, pour qu'il interpréte correctement les css, le moteur Gecko ne suffit pas...
Prenez le cas des menus déroulants. :?

Albert1 · 25 Juin 2006

Remi L. a dit:
Prenez le cas des menus déroulants. :?

en "pur CSS" ou Js+CSS ?

de toute façon avec la complexification de l'usage des CSS, je pense qu'ils auront du boulot ! et bien sûr sans parler du DOM et donc de Js+CSS ...
mais, bien sûr, ce n'est que mon avis :wink:

Malaiac · 25 Juin 2006

le css cloaking, voila l'avenir !

Un coup d'UR, une creation dynamique de css, et le tour est joué (et le moteur berné)

Albert1 · 25 Juin 2006

Malaiac a dit:
Un coup d'UR, une creation dynamique de css

rewrite pas obligé ...
à mon avis rien n'interdit à une feuille de style d'avoir l'extension php ...
alors une feuille de style simplement en PHP, en plus on peut directement profiter de Gzip !
et détecter (pour réagir ?) les plages IP suspectes :lol: et pour tenir des logs bien à jour ...

rien que pour Gzip, ça peut valoir le coup, sans rire

Cendrillon · 25 Juin 2006

quoi que vous fassiez, il faudra bien que les internautes (et donc les navigateurs) recoivent une page HTML avec une css qu'elle puisse interpréter ... et si un navigateur y arrive, les bots devraient y arriver ... :lol:

Albert1 · 25 Juin 2006

Cendrillon a dit:
et si un navigateur y arrive, les bots devraient y arriver ... :lol:

les plages IP des bots sont loin d'être mystérieuses
(bien moins que d'autres aspects du référencement)
un bot peut consulter le contenu sans avoir besoin du CSS
(à l'instar des navigateurs textes, comme Lynx)

je te laisse faire le lien entre ces 2 aspects de ma pensée ainsi que mon post précédent
et en tirer les conlusions adéquates :wink:

dreamclic · 25 Juin 2006

Ca me parait quand même zarb que les bots aillent creuser aussi loin alors qu'ils en sont encore à se faire berner par des pseudo techniques comme le texte de la couleur du fond, les balises hidden...

J'avais noté il y a quelques mois que GG avait indexé en priorité les liens hidden que j'avais mis en place sur une page pour des raisons techniques. Les liens normaux ont dû patienter...

jeanluc · 25 Juin 2006

Albert Ier,

Tu suggères qu'une organisation comme Google n'est pas en mesure d'utiliser des proxies ou des banales adresses d'ISP pour faire certaines vérifications sur des URL qui lui ont été dénoncées comme cloakées par des spams reports ?

Ce serait un peu fort, non ?

Jean-Luc

Albert1 · 25 Juin 2006

si je peux le faire, pourquoi pas Google

donc, je ne suggère rien de tel ...
c'était par amusement seulement,
et puis bon, le seul grand intérêt de coupler CSS à PHP serait la compression côté serveur, j'avais bien appuyé ce point, mais ça n'a semblé émouvoir personne :lol:

Lord_Coder · 26 Juin 2006

Salut ,

impossible

Disons que le visiteur a Konqueror ( d'où vient le Mozilla 5.0 ) et l'a configuré pour qu'il soit identifié comme GoogleBot :lol: ( c'est possible en fouillant un peu

) .

Albert1 · 26 Juin 2006

Lord_Coder a dit:
a configuré pour qu'il soit identifié comme GoogleBot :lol: ( c'est possible en fouillant un peu ) .

c'est bien pour cette raison qu'il vaut mieux identifier des plages IP que des UA ...
le plus facile à modifier sur quel que soit le système, nav ou bot, est le UA ...
Même avec Lynx c'est très facile de spoofer son UA ... alors avec Konqueror :lol:

epokhe · 26 Juin 2006

Bonjour,

Comment Google, s'il se comporte comme Gecko, va-t-il pouvoir continuer à alimenter son index et ses milliards de pages ? Cela va lui prendre beaucoup de temps ! Si Monsieur Google lit la feuille de styles, ira-t-il lire les feuilles de styles descendantes, si l'on décide d'utiliser @import url(); ?

dmathieu · 26 Juin 2006

La chose est toute nouvelle epokhe, tu peut le voir en lisant ce topic

Mais si ils décident de commencer à crawler les feuilles de style, il les lira toutes. Ce serait trop simple de camoufler du contenu en faisant des imports en cascade.

Et ils adapteront alors leur infrastructure.
Ils ont d'ailleurs déjà commencé ... -http://actu.abondance.com/2006-25/google-datacenter.php

Dandu · 26 Juin 2006

Lord_Coder a dit:
Salut ,

impossible
Disons que le visiteur a Konqueror ( d'où vient le Mozilla 5.0 ) et l'a configuré pour qu'il soit identifié comme GoogleBot :lol: ( c'est possible en fouillant un peu ) .

Mozilla5.0 vient pas de Konqueror, il vient de netscape, mis en OpenSource.

Safaris (sous OS X) et le navigateur de Nokia pour smartphone viennent de Konqueror.

Et jouer sur les UA, 'est risqué, comme tu le dis, ça se change facilement.

spidetra · 26 Juin 2006

Juste pour info, la couverture fonctionnelle des bots "privés" est bc plus large que celle des bots "publics".
La mise en production d'une nouvelle fonctionalité correspond généralement à une "barrière" techno qui tombe.

Des fonctionalités simple à mettre en oeuvre sur des petits index ( quelques millions de pages ) deviennent problématiques sur des index de +sieurs milliards de pages.

Bobi La Pointe · 26 Juin 2006

Cendrillon a dit:
... je suis convaincue que Google ne positionne plus les pages sur la vue source mais sur la vue telle que la voit les utilisateurs dans leur navigateur ...

+1 avec toi Cendrillon

Ce genre d'analyse 'visuelle' de la page peut donner des tas d'infos pertinentes sur la qualité des liens (menu pied de page ou intégré dans une info) ou même la valeur d'un titre H1 bien visible en haut plutôt que tout en bas en scrollant.

Ca doit sacrément fumer dans les calculateurs de Google...

Cendrillon · 26 Juin 2006

spidetra a dit:
Des fonctionalités simple à mettre en oeuvre sur des petits index ( quelques millions de pages ) deviennent problématiques sur des index de +sieurs milliards de pages.

tout à fait d'accord avec toi spid, sans compter les effets de bords (qui peuvent expliquer certains retours en arrière "inexpliqués" de Google) ... :wink:

spidetra · 26 Juin 2006

Cendrillon a dit:
spidetra a dit:

Des fonctionalités simple à mettre en oeuvre sur des petits index ( quelques millions de pages ) deviennent problématiques sur des index de +sieurs milliards de pages.

Cliquez pour agrandir...

tout à fait d'accord avec toi spid, sans compter les effets de bords (qui peuvent expliquer certains retours en arrière "inexpliqués" de Google) ... :wink:

inexpliqué.... tu veux dire totalement instable et totalement imprévisible :mrgreen:

C'est Andrey Kolmogorov * qui doit se tordre de rire dans sa tombe.

* Andrey Kolmogorov : théorie du chaos ( en résumé ) !

dobey · 26 Juin 2006

Que Google tente de voir la page "comme l'utilisateur", ça semble logique et tout le monde semble d'accord. Mais jusqu'où peut il aller actuellement?

Anecdote :
J'avais de bons vieux liens en bas de page sur mes sites (pour les lier entre eux), un paragraphe simplement en bas du code. Il y a deux semaines, j'ai mis ces liens dans un calque. Dans le code, il est tout en haut, et à l'affichage il est toujours en bas de page (un grand classique quoi!). Eh bien le résultat sur les sites liés est flagrant, de +15% à +30% de visiteurs en plus depuis Google (on dirait une pub pour un SEO véreux). Donc, si la détection de ce genre d'astuce est au programme, ce n'est visiblement pas encore en action.

Que Google identifie les h1 de 8px par exemple, je veux bien le croire, c'est tellement simple à repérer. Quand à interpréter complétement l'affichage d'une page, bien sûr qu'ils en sont capable, mais à quel prix en terme de ressources? La limite est surement là.

poppyto · 27 Juin 2006

C'est certain que google utilise la représentation de la page via un navigateur custom.
De toute façon aujourd'hui on ne peut plus se baser sur les balises grâce/à cause des CSS.

La structure (x)HTML n'a plus vraiment lieu d'exister....
Si SPAN = H1 et DIV = B où va-t'on ?

Alors OUI il y a des DIV=hidden dans ma CSS MAIS javascript les rend visible à un moment ou un autre donc ça sert à rien de trembler.

Je pense qu'il est possible que l'indexation des css soit là pour restructurer les documents, je m'explique :
un SPAN avec font-size=28pt est peut être assimilé à un H1
non ? (après tout c'est ce qu'il est !)

Je pense qu'il y a une grosse mixture au total mais rien ne vaut du contenu journalier ET de bons liens externes/internes.

Szarah · 28 Juin 2006

A la réflexion, il est grand temps que Google se mette à lire les CSS, parce qu'il y a belle lurette qu'on peut définir soi-même ses propres balises et ne plus se contenter de noms standards - depuis fin 2001 je crois bien.
Essayez ce code, ouvrez les yeux et rêvez un peu

Code:

<HTML XMLNS:sZarah>
<head>
<style type="text/css">
@media all {sZarah\:ttd {text-align:right; width:150px;float:left;}}
@media all {sZarah\:titre {text-align:left; font-size:24px;float:left;}}
</style>
</head>
<body>
<sZarah:titre>
Ne vous contentez pas de bêtes tags :)
<br>
Sortez du commun !
<br>
Créez VOS propres balises :)
</sZarah:titre>
<sZarah:ttd>
Par exemple, ce paragraphe-ci se trouve dans un élément-maison,
défini pour <B>t</B>aper <B>t</B>out à <B>d</B>roite en 150 de large ;-)
<br>
Et dire que tout ça existe depuis 2001 :)
</sZarah:ttd>
</body></html>

poppyto · 28 Juin 2006

Je savais que c'était possible mais j'avais jamais vu en action

.

Josh Parker · 28 Juin 2006

Les background des feuilles de styles

Un des gros problèmes des sites entièrement CSS c'est de faire un logo cliquable, et le reste en background pour mettre un titre h1 en dur pour qu'il soit référencé.

Ceci ne peut se faire sans un background: transparent, et souvent le color est #fff (blanc). Sera t-il assez intelligent pour comprendre que ce n'est pas vouloire cacher du texte car même si le background est transparent, il y a quelque chose en dessous pour faire apparaître le texte ?

mcorgnet · 28 Juin 2006

Moi je dis ça comme ça hun ...

Mais si google fait de la mise en cache, avec la mise en page et tout, il a pas besoin, par hasard, de la css ?

Albert1 · 28 Juin 2006

mcorgnet a dit:
Mais si google fait de la mise en cache, avec la mise en page et tout, il a pas besoin, par hasard, de la css ?

la feuille style n'est pas mise en cache (tout comme les éléments graphiques par exemple)

Leonick · 28 Juin 2006

Non, les liens des css restent fait sur le site de base.

Lambo · 29 Juin 2006

Albert1 a dit:
mcorgnet a dit:

Mais si google fait de la mise en cache, avec la mise en page et tout, il a pas besoin, par hasard, de la css ?

Cliquez pour agrandir...

la feuille style n'est pas mise en cache (tout comme les éléments graphiques par exemple)

Je ne suis pas tout à fait d'accord pour les images par exemple.
Il est toujours possible de trouver des images dans Google Image (les miniatures s'affichent bien) alors qu'elles ne sont plus sur le site en question.

Certes la vraie image n'est pas stockée, mais malgré tout ils conservent une trace de l'image.

Et en ce qui concerne les CSS et Gzip, je ne vois pas l'intérêt de les servir en PHP par exemple, car la CSS n'est alors plus cachée par le navigateur : plus de bande passante consommée, pages plus lentes à s'afficher dans le navigateur.
Et puis, Gzip, ça fonctionne aussi pour les fichiers CSS ou les images :lol:

Albert1 · 29 Juin 2006

Lambo a dit:
Et en ce qui concerne les CSS et Gzip, je ne vois pas l'intérêt de les servir en PHP par exemple, car la CSS n'est alors plus cachée par le navigateur : plus de bande passante consommée, pages plus lentes à s'afficher dans le navigateur.

pas si tu envoies les headers correctement :wink:

Lambo a dit:
Et puis, Gzip, ça fonctionne aussi pour les fichiers CSS ou les images

Peut être pas forcément sur des mutu, ou me trompe je ? :roll:

Lambo · 29 Juin 2006

Il est vrai qu'en mettant les bons header, tu peux mettre en cache les fichiers.
Et en précisant le Content Type, il doit même y avoir moyen de bien faire comprendre au navigateur que c'est une CSS en plus de la balise style.

Cela dit, le fichier PHP sera toujours plus long à servir la première fois. Il doit malgré tout être interprété par le serveur, alors qu'un fichier statique sera servi uniquement par Apache (disons Apache pour ne pas citer les autres serveurs web) sans autre calcul.

Après pour Gzip, effectivement tu peux configurer ce que tu veux. Mais là on sort de la théorie. C'est sûr que Gzip prend du temps CPU, je peux comprendre que sur du mutualisé ce soit restreint.

palaceo · 30 Juin 2006

Une balise div hidden ou décalée (width:-300px,...) n'implique pas obligatoirement du spamming.
Ces techniques sont utilisées pour offrir une meilleure convivialité et une meilleures interactivité (menus, zones visibles suite à un clic, ....).

Une "analyse purement syntaxique" (ce que fait google) du code html et des css ne permettent pas détecter si l'on a véritablement affaire a du spamming.
Va -t- il falloir maintenant s'inquiter de la façon dont on écrit les CSS ?

On a beau dire, mais on passe tout même trop de temps à écrire des sites pour Google plutôt que pour les internautes.
Je pense que contrairement à ce que disent certain (et un peu par expérience), il n'est en général pas possible de s'en tenir à un site écrit pour les internautes avec du contenu de qualité. Pour Google, un tel site est le plus souvent non pertinent.

D'ailleurs, c'est bien pour cela que l'on parle " d'optimisation " .
Optimisation pour qui ?
C'est aussi pour cela que des référenceurs existent, que des forums existent, que des conférences existent, que des spammeurs existent....
Un site pro, pertinent et utile peut très bien être considéré comme sans intérêt par Google (si on a pas tenté de l'optimiser pour lui).

Aujourd'hui la détection de la "pertinence" de l'information est confiée (en partie) aux moteurs de recherche.
Est il vraiement possible de détecter la pertinence de l'information via une "analyse syntaxique" du code html et/ou des css ?

D'ailleurs, des sites à priori sans intérêt pour Google peuvent devenir en quelques minutes très intéressants via les adwords.

pierre_jean · 30 Juin 2006

même si on a rien a se reprocher mais vu qu'on sait pas bien ce qu'il veut faire GG avec nos css ... ne serait-il pas judicieux de les mettre dans le robots.txt en disallow ?

dmathieu · 30 Juin 2006

Mettre en disallow l'empechera de les indexer dans le cas ou il le fera. Mais ca n'aurait aucun intéret (tu serait bien embeté de te retrouver avec une feuille de css qui ressortirait dans les résultats)

En revanche, un robots.txt ne l'empechera jamais de crawler une page.
La seule solution serait de lui interdire cette page, ce que je te déconseille. Ca s'appelle du cloaking.

pierre_jean · 30 Juin 2006

ok merci bien ... ouf 8O

:wink:

Ohax · 1 Juillet 2006

c'est bon a savoir...

merci pour l'info

JC91 · 15 Juillet 2006

Cendrillon a dit:
... je suis convaincue que Google ne positionne plus les pages sur la vue source mais sur la vue telle que la voit les utilisateurs dans leur navigateur ...

Ridicule ....

- Et le javascript ?
rien de plus facile que de modifier du CSS via javascript. Donc si Google n'interprete pas aussi le javascript, cela ne lui sert a rien d'interpreter le CSS.

- Firefox et MSIE (par exemple) ne sont pa foutu d'afficher de la meme facon un meme site, alors pourquoi tout d'un coup Google pourrait detenir la verité universelle sur "ce que voient les utilisateurs" ...

- pourquoi les propriétés "hidden", etc ... existent-elle en CSS ? Leur créateurs voulaient-ils promouvoir le spamdexing ou bien répondre à des problématique de mise en page et d'ergonomie de présentation ?
L'équation "hidden"="spamdexing" est donc un enorme raccourci que personne de sérieux n'est prêt à faire officiellement. Et si Google validait ce raccourci, cela serait un véritable scandale

Bref, c'est beau de rêver (moi aussi j'aurai voulu y croire), mais le rêve de Cendrillon est totalement utopique :-(

Chirurgien · 28 Septembre 2006

en effet ça me paraît aussi un peu gros que google soit ferme et definitif avec l'attribut display:none (ou méthode equivalente)

Le CSS est quasi indispensable et bientôt (si tout va bien, mais faut pas rêver) IE sera un peu moins "embétant" avec la gestion des CSS

Aujourd'hui plus que jamais les différentes normes W3C, accéssibilité et autres sont mises en avant.. or display:none permet de faciliter la mise en place des ces normes (pour l'utilisateur lambda on affiche les images, on cache le texte. maintenant sur un navigateur texte uniquement lynx par ex, le css désactivé et les images non affichées laissent place aux fameux textes cachés, ce qui permet de rétrouver toute la cohérence du site)

j'éspere que google ne fait pas n'importe quoi avec les css...

Pandore · 28 Septembre 2006

Chirurgien a dit:
j'éspere que google ne fait pas n'importe quoi avec les css...

Ouais ... be moi j'espère plutôt que ce ne sont pas les webmasters qui feront n'importe quoi avec les CSS ... :roll:

(je parle de ceux qui ne respectent pas les normes mais qui pensent surtout à tricher pour apparaître en 1ère place ... :evil: )

Chirurgien · 28 Septembre 2006

Pandore a dit:
Ouais ... be moi j'espère plutôt que ce ne sont pas les webmasters qui feront n'importe quoi avec les CSS ... :roll:

(je parle de ceux qui ne respectent pas les normes mais qui pensent surtout à tricher pour apparaître en 1ère place ... :evil: )

oui tout à fait d'accord avec toi (c'est même une evidence ici

)

Vedlen · 19 Novembre 2007

Ce sujet date un peu mais je me permets de le raviver :

On sait que Google prend en compte le CSS, mais pas le Javascript.

Quid d'une inclusion du CSS via un script Javascript dans le modèle de http://quentinc.net/javascript/script30 ... avascript/ ?

Ceci dit je suis d'accord avec vous ; au niveau éthique c'est pas terrible !

Zantar · 19 Novembre 2007

Bots et CSS

Bonjour,
il me semble que le crawler de yahoo, explore les CSS depuis pus d'un an !!!
pour google cela parait évident qu'une feuille de style attachée par lien doit être crawlée a la loupe pour voir les couleurs de texte et de fond et les indentations négatives,, hidden etc ... pour les textes cachés.

Vedlen · 19 Novembre 2007

Re: Bots et CSS

Zantar a dit:
Bonjour,
il me semble que le crawler de yahoo, explore les CSS depuis pus d'un an !!!
pour google cela parait évident qu'une feuille de style attachée par lien doit être crawlée a la loupe pour voir les couleurs de texte et de fond et les indentations négatives,, hidden etc ... pour les textes cachés.

Oui, c'est pour cela qu'une inclusion en Javascript devrait "tromper" les moteurs.

Szarah · 19 Novembre 2007

Re: Bots et CSS

Vedlen a dit:
Zantar a dit:

Bonjour,
il me semble que le crawler de yahoo, explore les CSS depuis pus d'un an !!!
pour google cela parait évident qu'une feuille de style attachée par lien doit être crawlée a la loupe pour voir les couleurs de texte et de fond et les indentations négatives,, hidden etc ... pour les textes cachés.

Cliquez pour agrandir...

Oui, c'est pour cela qu'une inclusion en Javascript devrait "tromper" les moteurs.

Les moteurs ont aussi un renifleur qui s'appelle spamreport

Vedlen · 20 Novembre 2007

D'après ce que je vois c'est pas vraiment un renifleur et ce n'est pas associé aux moteurs mais c'est une extension Firefox permettant de "balancer" un site qui n'a pas de rapport avec ce que l'internaute cherchait.

En passant, le site "officiel" de cet outil est plus que puéril car accessible que par Firefox.

Leonick · 20 Novembre 2007

le vrai site officiel est celui-ci https://www.google.com/webmasters/tools ... port?hl=fr et il me semble qu'il fonctionne aussi bien avec IE que FF.
Sinon les moteurs ont d'autres moyens de connaitre la triche : ils ont des wrinautes, googleguy pour google, voila, exalead aussi ont les leurs
<mode parano on>
en plus, comme il y a adsense sur wri, google peut connaitre ton ip, et avec les ip de connexion sur analytic, adsense, adword, console webmaster ils peuvent retrouver facilement tes sites et les vérifier.
Même pas besoin du spam report
Donc le fait de ne pas mettre tes sites dans ton profil n'empêchera pas google de pouvoir remonter à toi<mode parano off> :twisted:

frangolacci · 20 Novembre 2007

Leonick a dit:
Sinon les moteurs ont d'autres moyens de connaitre la triche : ils ont des wrinautes, googleguy pour google

Parle pour toi, ça ne me viendrais jamais à l'ésprit de dénoncer un site parceque j'ai trouvé du texte caché sur une page, même si ce site est un concurrent. A la limite je peux l'envisager pour un site qui spam mon forum avec des messages pornos...ce qui est inadmissible pour d'autres raisons.

...Surtout quand on voit les principes moraux des grands moteurs américains comme google et yahoo... (en chine dissimulation d'information pour le google et délation pure est simple de cyber-dissident pour yahoo). LA HONTE

Faut pas confondre google et linux, le célèbre moteur à pour unique objectif de faire plus d'argent et il y arrive très bien, je vois vraiment aucune raison de l'aider sans rénumération.

Leonick · 20 Novembre 2007

frangolacci a dit:
Leonick a dit:

Sinon les moteurs ont d'autres moyens de connaitre la triche : ils ont des wrinautes, googleguy pour google

Cliquez pour agrandir...

Parle pour toi

c'est bien de lire correctement les posts et ne pas tronquer les phrases. :wink:
googleguy https://www.webrankinfo.com/google/googleguy.htm
et dernièrement il y a eu aussi un intervenant de chez voila.
Donc n'ayez crainte, aucun besoin de dénonciation, WRI comme tous les forums de webmasters/SEO sont évidemment suivis par les différents moteurs de recherches. Et les techniques black hats détaillées ici sont évidemment utilisées par les moteurs pour améliorer leurs algo contre ces dites techniques. :twisted: :twisted:

Szarah · 20 Novembre 2007

frangolacci a dit:
(...)
Faut pas confondre google et linux, le célèbre moteur à pour unique objectif de faire plus d'argent et il y arrive très bien, je vois vraiment aucune raison de l'aider sans rénumération.

<engine parano_troll ON>
Mais c'est payé le spamreport, frangolacci, c'est payé

<engine parano_troll OFF>
Et oki, je :arrow: []

Leonick · 20 Novembre 2007

Szarah a dit:
frangolacci a dit:

(...)
Faut pas confondre google et linux, le célèbre moteur à pour unique objectif de faire plus d'argent et il y arrive très bien, je vois vraiment aucune raison de l'aider sans rénumération.

Cliquez pour agrandir...

<engine parano_troll ON>
Mais c'est payé le spamreport, frangolacci, c'est payé
<engine parano_troll OFF>
Et oki, je :arrow: []

Ah, toi aussi Szarah, tu as en plus du parrainage les revenus "Délation" dans adsense :lol: :lol:
En plus, on n'avait pas le droit de le dire que c'était payé

Szarah · 20 Novembre 2007

Mince ... Aurais-je gaffé ?

Leonick · 20 Novembre 2007

Szarah a dit:
Mince ... Aurais-je gaffé ?

bon, tu vas être bannie du "parrainage délation". Et à la fin du mois, tu ne toucheras pas tes 300 € pour ton rôle pour big-annuaire et bonweb :lol:

Szarah · 20 Novembre 2007

Leonick a dit:
Szarah a dit:

Mince ... Aurais-je gaffé ?

Cliquez pour agrandir...

bon, tu vas être bannie du "parrainage délation". Et à la fin du mois, tu ne toucheras pas tes 300 € pour ton rôle pour big-annuaire et bonweb :lol:

Pas grave, je vais lâcher tout de suite ceux que j'avais prévu pour décembre

[ Pour janvier, je donne 30% pour des tuyaux sur les annus belges et grolandais ]

frangolacci · 20 Novembre 2007

Ah bon je connaissais pas le googleguy wrinaute... :?

ça lui fait du boulot mais c'est pas grave il a des assistants:

Dans cette discussion

Szarah a dit:
Les moteurs ont aussi un renifleur qui s'appelle spamreport

.. notez le petit

... et dans celle là : https://www.webrankinfo.com/forum/t/referencement-sur-google-edit-related-www-0-resultats.78030/

Leonick a dit:
def_bond19 a dit:

Y'a t'il un moyen de sanctionner ces pratiques douteuses?

Cliquez pour agrandir...

https://www.google.fr/webmasters/spamreport.html

Leonick a dit:
def_bond19 a dit:

Est ce que c'est anonyme?

Cliquez pour agrandir...

oui si tu passes par l'interface commune, non si c'est par l'interface webmaster, mais avec cette interface, au moins, le message sera pris en compte.
De toutes façons, il n'y aura que gg qui saura de qui ça vient :wink:

... ben oui une vraie délation est toujours anonyme :?

Si ça c'est pas de l'incitation :twisted:

Leonick · 20 Novembre 2007

frangolacci a dit:
Ah bon je connaissais pas le googleguy wrinaute... :?
Si ça c'est pas de l'incitation :twisted:

ben, de la même façon qu'on indique à certains wrinautes qu'ils peuvent aller prendre du contenu sur wikipedia pour "créer" ouarff :lol: leur MFA.
Après c'est à chacun de voir, s'ils veulent un web plus propre. En dehors de webmaster, on est aussi internaute. Et quand je recherche une doc technique sur du matériel, j'en ai rien à faire (c'est peu de le dire) de tomber sur des comparateurs de prix.
Ou quand je recherche une aide en php, j'en ai marre de tomber sur de viles copies de php.net, largement moins intéressantes.
Donc ce n'est pas que pour aider google, c'est pour nous aider, nous aussi (du moins moi, car toi ça n'a pas l'air de te déranger) pour perdre moins de temps avec des sites de m... qui trustent les SERP

Goggle crawle les feuilles de styles CSS

Google crawle les fichiers CSS​

Google crawle les fichiers CSS