Matt Cutts livre quelques infos intéressantes à Eric Enge / StoneTemple

carole heinz · 16 Mars 2010

Après la fin du monde 2012, Matt Cutts s'exprime beaucoup plus sérieusement dans une interview accordée à Eric Enge.

Quelques points abordés (liste non exhaustive):

- le nombre de pages indexées est plus ou moins proportionnel au PageRank (de la home?), idem pour la fréquence de crawl
- la charge serveur peut éventuellement pénaliser l'indexation (cf. mutus)
- la présence de contenu dupliqué (à priori DC interne notamment) peut pénaliser l'indexation
- faire un lien vers une page considérée comme dupliquée "passe" néanmoins du PR (et donc il y a perte de jus inutile) MAIS en linkant vers plusieurs pages similaires entre elles les moteurs pourraient être capables de fusionner ce link juice et de ne le créditer qu'à une seule des pages (celle considérée comme canonique)
- R301 sur les liens d'affiliation: ne passent pas de PR
- rel=canonical: peut être utilisé pour des pages assez similaires, et pas forcément parfaitement identiques; il détaille longuement certains aspects liés aux sites e-commerce et aux problèmes générés par la faceted navigation
- images: Google peut utiliser des requêtes HEAD pour vérifier si le fichier a été modifié (pour économiser des ressources).
- PR sculpting: il vaut mieux utiliser son temps pour obtenir des BL ou du contenu. les techniques de PR sculpting (iframe, js) ne sont pas forcément vues comme spammy mais un jour Google pourrait interpréter ces liens (et donc le sculpting perdrait de son efficacité)
- liens dans PDF: ne s'exprime quant à leur efficacité pour passer du PR mais laisse la porte ouverte... :mrgreen:
- javascript: Google exécute une large proportion de js quant il veut et quand il peut.
- javascript: on peut mettre du nofollow sur les liens ads javascript... (ça pourrait signifier que les liens js transmettent un petit quelque chose...)
- linkspam: il confirme la lutte dans ce domaine et affirme que Google dispose de nouveaux outils à ce sujet. il annonce que de nouveaux appels à la "délation" (poliment: call for report, call for feedback) seront lancés prochainement.

:arrow: n'hésitez pas à compléter la liste ou à me corriger en cas d'erreur de traduction / compréhension

Sebast971 · 16 Mars 2010

Merci pour cette petite synthèse

seb2310 · 16 Mars 2010

Merci pour ces infos et traduction qui vont certainement provoquer des réactions notamment sur le pr.
+1 reco

WebRankInfo · 16 Mars 2010

Merci Carole, une reco de + de ma part

SpeedAirMan · 16 Mars 2010

idem : merci Carole, pour le lien et pour le résumé !
Comme Seb et Olivier : une reco' !

"javascript: Google exécute une large proportion de js quant il veut et quand il peut."
→ intéressant

"la présence de contenu dupliqué (à priori DC interne notamment) peut pénaliser l'indexation"
→ hmm... en savoir plus serait bien (des précisions surtout, venant "d'en haut").
J'imagine, si on parle de duplicate content (interne ou pas) et de problème d'indexation, que Google peut réagir de la sorte : si je vois une page qui existe déjà, je ne la crawlerai pas entièrement et/ou je ne crawlerai pas toutes les pages du site (et surtout : je ne la ressortirai pas dans les SERPs).

"le nombre de pages indexées est plus ou moins proportionnel au PageRank (de la home?), idem pour la fréquence de crawl"
→ Je ne pense pas que ce soit le PR de la home uniquement. La home n'est qu'une page parmi d'autres.

ddpetit · 16 Mars 2010

Très bon à savoir, comme quoi le javascript qui permettait avant à certains de faire du sculpting, ne le permettra bientôt plus... Reco !

carole heinz · 16 Mars 2010

SpeedAirMan a dit:
"la présence de contenu dupliqué (à priori DC interne notamment) peut pénaliser l'indexation"
→ hmm... en savoir plus serait bien (des précisions surtout, venant "d'en haut").

si GG repère de gros pbs de DC il pourrait se "détourner" du site, et son indexation pourrait en souffrir (peut-être y compris pour les pages saines ?): If there are a large number of pages that we consider low value, then we might not crawl quite as many pages from that site

"le nombre de pages indexées est plus ou moins proportionnel au PageRank (de la home?), idem pour la fréquence de crawl"
→ Je ne pense pas que ce soit le PR de la home uniquement. La home n'est qu'une page parmi d'autres.

oui je n'ai pas bien compris, ou plutôt on dirait que Matt Cutts n'a pas bien compris que des pages internes pouvaient recevoir des BL: The best way to think about it is that the number of pages that we crawl is roughly proportional to your PageRank. So if you have a lot of incoming links on your root page, we'll definitely crawl that. Then your root page may link to other pages, and those will get PageRank and we'll crawl those as well. As you get deeper and deeper in your site, however, PageRank tends to decline.

Another way to think about it is that the low PageRank pages on your site are competing against a much larger pool of pages with the same or higher PageRank. There are a large number of pages on the web that have very little or close to zero PageRank. The pages that get linked to a lot tend to get discovered and crawled quite quickly. The lower PageRank pages are likely to be crawled not quite as often.

il parle bien de la "root page" puis des pages profondes, comme si il n'y avait que la root page qui pouvait recevoir du jus depuis l'extérieur?

pcamliti · 16 Mars 2010

Informations intéressantes mais il est vrai que les pages de e-commerces posent pas mal de soucis et sont souvent déclassées rapidement.
Quelles options trouver ?
ET comment faire du sculting cohérent ?

carole heinz · 16 Mars 2010

pcamliti a dit:
Informations intéressantes mais il est vrai que les pages de e-commerces posent pas mal de soucis et sont souvent déclassées rapidement.
Quelles options trouver ?

il préconise d'utiliser rel=canonical; il y a pas mal de détails dans l'interview à ce sujet

ET comment faire du sculting cohérent ?

il préconise notamment de lier les pages importantes depuis la home, et d'optimiser la structure du site.
un autre aspect (mais là c'est de la pure interprétation) c'est que les liens ne transmettraient pas la même quantité de jus selon leur emplacement dans la structure du site et dans la structure des pages:

If you have a product that gives you great conversions and a fantastic profit margin, you can put that right at the root of your site front and center. A lot of PageRank will flow through that link to that particular product page.
Site architecture, how you make links and structure appear on a page in a way to get the most people to the products that you want them to see, is really a better way to approach it then trying to do individual sculpting of PageRank on links. If you can get your site architecture to focus PageRank on the most important pages or the pages that generate the best profit margins, that is a much better way of directly sculpting the PageRank then trying to use an iFrame or encoded JavaScript.

par exemple on se doute depuis un moment qu'un lien footer et un lien de contenu n'ont pas la même valeur. c'est une hypothèse qui gagne en crédibilité après ces déclarations.

Argonaute · 16 Mars 2010

Je mets rarement des reco mais là sans hésitation.

Pour un indicateur totalement dévalué, il parle quand même beaucoup du PageRank vous ne trouvez pas ?

kmenslow · 16 Mars 2010

carole heinz a dit:
- le nombre de pages indexées est plus ou moins proportionnel au PageRank (de la home?), idem pour la fréquence de crawl

Il veut relancer la course au PR ?
Le PR de mon www ne fait que descendre (5 puis 4 et maintenant 3) et pourtant le nombre de page indexées augmente correctement (sauf si la commande site raconte n'importe quoi). Par contre j'ai noté un changement du délai d'indexation qui s'allonge à chaque perte du PR (cela n'a peut-être aucun rapport)

carole heinz · 16 Mars 2010

Argonaute a dit:
Pour un indicateur totalement dévalué, il parle quand même beaucoup du PageRank vous ne trouvez pas ?

oui, me suis fait la même remarque: + de 40 occurrences sur l'interview... beau score pour un indicateur soi-disant périmé et dépassé

(ou alors il est lui-même perdu avec tous ces algos, le pauvre il en a perdu ses cheveux, d'ailleurs il y a beaucoup de "peut-être", "pas forcément" et "attends je vais leur demander" :mrgreen: )

pcamliti · 16 Mars 2010

Merci Carole pour les réponses :wink:
Ne ferait il pas de l'intox pour le PR ? comme ils savent si bien le faire chez GG pour noyer le poisson...
J'ai également constaté cette variation d'indexation de page et de baisse de PR, mais pas de positionnement au contraire.

Je pense clairement qu'ils préparent quelques petites choses mais quoi ?

Leonick · 16 Mars 2010

pcamliti a dit:
Ne ferait il pas de l'intox pour le PR ? comme ils savent si bien le faire chez GG pour noyer le poisson...

du genre pour le problème de linkspam, on baisse le pr des sites qui acceptent du spam sur leurs sites, car pas sérieux. Et donc, comme le pr est sensé avoir un intérêt dans le positionnement, le webmaster va craindre pour son positionnement et va donc nettoyer ce linkspam :mrgreen:
A l'époque de la baisse de pr pour (suspicion) de vente de BL, la baisse du pr faisait baisser la "valeur" d'un BL, donc les acheteurs étaient moins intéressés, mais le positionnement n'avait pas bougé. Donc là, si on baisse le pr mais que rien d'autre ne change, cela n'incitera pas les webmaster à faire le ménage sur leurs sites, alors qu'en faisant croire que le pr visible a encore une incidence sur le positionnement ils le feront par peur :twisted:

Firewave · 16 Mars 2010

Je viens de créer un BLog test avec 170 billets dessus. J'ai mis 25 articles originaux, le reste c'est du copier/coller. Toutes les pages sont indexées. Je n'ai créé que 27 BL pour ce site en majorité No follow pour ne pas fausser le test. Le trafic a augmenté depuis que j'ai augmenté le nombre de posts par jour (tous copiés).
Donc je leur dirais qu'ils ont encore du chemin à parcourir pour le DC. Surtout sur les niches.

forty · 16 Mars 2010

merci pour le résumé. Ca confirme des pressentiments.

Marie-Aude · 16 Mars 2010

Merci, recco de mon côté aussi.

Pour le PR, je pense qu'il est utilisé comme indicateur des pages intéressantes à crawler. Ce qui n'est pas illogique, après tout, les pages intéressantes sont normalement plus liées que les autres.
Donc cela serait un de ces indicateurs "annexes", il ne détermine pas le positionnement, mais le comportement du bot qui permet l'indexation qui permet le positionnement. Dans les autres indicateurs annexes, par exemple, je mets la qualité des balises description.

Leonick · 16 Mars 2010

Firewave a dit:
J'ai mis 25 articles originaux, le reste c'est du copier/coller. Toutes les pages sont indexées.

indexées n'est pas suffisant, il faut qu'elles ressortent sur les requêtes

jeanluc · 16 Mars 2010

Matt Cutts dit des choses très curieuses:

if you are trying to block something out from robots.txt, often times we'll still see that URL and keep a reference to it in our index. So it doesn't necessarily save your crawl budget.

Que des URL interdites par robots.txt puissent être présentes dans l'index est bien connu, mais, comme elles ne peuvent pas être crawlées par Googlebot, je ne vois pas comment cela peut affecter le "crawl budget".

Jean-Luc

Firewave · 16 Mars 2010

Leonick a dit:
Firewave a dit:

J'ai mis 25 articles originaux, le reste c'est du copier/coller. Toutes les pages sont indexées.

Cliquez pour agrandir...

indexées n'est pas suffisant, il faut qu'elles ressortent sur les requêtes

Je ressors sur des longues traines sans problème. La seconde étape sera de construire un linking béton et voir si je peux sortir sur les requêtes principales.
J'attends un peu de voir.

SWCF · 16 Mars 2010

ne parlant pas Anglais, je prends ce que dit Carole Heinz à la lettre.

En gros, je ne vois que des "peut-être, éventuellement, par moment, il se pourrait, ça se peut, dans certains cas, ..."

Je trouve ça très vague.
De toute façon GG ne va pas donner la solution aux référenceurs pour biaiser leur classement

mx · 16 Mars 2010

carole heinz a dit:
- linkspam: il confirme la lutte dans ce domaine et affirme que Google dispose de nouveaux outils à ce sujet. il annonce que de nouveaux appels à la "délation" (poliment: call for report, call for feedback) seront lancés prochainement.

La délation n'est pas un nouvel outil :|

smoof · 17 Mars 2010

Très intéressant, notamment pour le PR sculpting, ne le pénalisant pas pour le moment !

Leonick · 17 Mars 2010

smoof a dit:
Très intéressant, notamment pour le PR sculpting, ne le pénalisant pas pour le moment !

il y a quelques mois ils disaient que ça ne servait plus à rien, car TOUS les liens étaient comptabilisés y compris les nofollow

carole heinz · 17 Mars 2010

smoof a dit:
Très intéressant, notamment pour le PR sculpting, ne le pénalisant pas pour le moment !

il n'est pas aussi catégorique:

Eric Enge: If someone did choose to do that (JavaScript encoded links or use an iFrame), would that be viewed as a spammy activity or just potentially a waste of their time?
Matt Cutts: I am not sure that it would be viewed as a spammy activity [...]

Bigbangbel · 23 Mars 2010

jeanluc a dit:
Matt Cutts dit des choses très curieuses:

if you are trying to block something out from robots.txt, often times we'll still see that URL and keep a reference to it in our index. So it doesn't necessarily save your crawl budget.

Cliquez pour agrandir...

Que des URL interdites par robots.txt puissent être présentes dans l'index est bien connu, mais, comme elles ne peuvent pas être crawlées par Googlebot, je ne vois pas comment cela peut affecter le "crawl budget".

Jean-Luc

Google attribue peut-être un certain "budget" à chaque site pour le temps qu'il passe à le crawler. Un site plus rapide est alors un avantage, comme l'est certainement un site à fort PR, etc.
Matt Cutts indique qu'on ne peut pas changer ce "budget" en défendant l'accès à certaines pages pour que le robot parcoure mieux le reste du site. Ce budget me semble aussi lié au nombre d'URL connues du site.
Je connaissais le PR sculpting, voici le crawl budget sculpting ;-)

Beaucoup de conditionnel dans ce que je dis, il s'agit d'une interprétation, qu'en pensez-vous ?

Alaindeloin · 23 Mars 2010

+1 pour la réco et +1000 pour ce demi-aveu de "google" que le PR n'est en fait pas si enterré que ça... :mrgreen:

passion · 24 Mars 2010

Merci beaucoup pour ces infos très intéressantes !
reco +1

nza2k · 25 Mars 2010

Merci beaucoup pour le lien.

Je m'étais justement posé la question récemment sur la meilleure façon de traiter des listes de contenus triés dans des ordres différents.

Ca fait donc deux avis pour l'url canonique !

petitchevalroux · 30 Mars 2010

Bigbangbel a dit:
jeanluc a dit:

Matt Cutts dit des choses très curieuses:

if you are trying to block something out from robots.txt, often times we'll still see that URL and keep a reference to it in our index. So it doesn't necessarily save your crawl budget.

Cliquez pour agrandir...

Que des URL interdites par robots.txt puissent être présentes dans l'index est bien connu, mais, comme elles ne peuvent pas être crawlées par Googlebot, je ne vois pas comment cela peut affecter le "crawl budget".

Jean-Luc

Cliquez pour agrandir...

Google attribue peut-être un certain "budget" à chaque site pour le temps qu'il passe à le crawler. Un site plus rapide est alors un avantage, comme l'est certainement un site à fort PR, etc.
Matt Cutts indique qu'on ne peut pas changer ce "budget" en défendant l'accès à certaines pages pour que le robot parcoure mieux le reste du site. Ce budget me semble aussi lié au nombre d'URL connues du site.
Je connaissais le PR sculpting, voici le crawl budget sculpting ;-)

Beaucoup de conditionnel dans ce que je dis, il s'agit d'une interprétation, qu'en pensez-vous ?

Ou tout simplement il parle du fait de bloquer des milliers de page via robot.txt pour ne pas avoir de traffic sur ces pages et donc pas de cout de génération.

Pour moi le crawl budget c'est plus le cout lié à la génération des pages par les robots et non par les visiteurs ce qui, pour les sites sur amazon s3 ou autre cloud, entraine un cout qui ne sert pas à grand chose.

Mais bon je peux me tromper :mrgreen: