Matt Cutts livre quelques infos intéressantes à Eric Enge / StoneTemple

carole heinz

WRInaute passionné
Après la fin du monde 2012, Matt Cutts s'exprime beaucoup plus sérieusement dans une interview accordée à Eric Enge.

Quelques points abordés (liste non exhaustive):

- le nombre de pages indexées est plus ou moins proportionnel au PageRank (de la home?), idem pour la fréquence de crawl
- la charge serveur peut éventuellement pénaliser l'indexation (cf. mutus)
- la présence de contenu dupliqué (à priori DC interne notamment) peut pénaliser l'indexation
- faire un lien vers une page considérée comme dupliquée "passe" néanmoins du PR (et donc il y a perte de jus inutile) MAIS en linkant vers plusieurs pages similaires entre elles les moteurs pourraient être capables de fusionner ce link juice et de ne le créditer qu'à une seule des pages (celle considérée comme canonique)
- R301 sur les liens d'affiliation: ne passent pas de PR
- rel=canonical: peut être utilisé pour des pages assez similaires, et pas forcément parfaitement identiques; il détaille longuement certains aspects liés aux sites e-commerce et aux problèmes générés par la faceted navigation
- images: Google peut utiliser des requêtes HEAD pour vérifier si le fichier a été modifié (pour économiser des ressources).
- PR sculpting: il vaut mieux utiliser son temps pour obtenir des BL ou du contenu. les techniques de PR sculpting (iframe, js) ne sont pas forcément vues comme spammy mais un jour Google pourrait interpréter ces liens (et donc le sculpting perdrait de son efficacité)
- liens dans PDF: ne s'exprime quant à leur efficacité pour passer du PR mais laisse la porte ouverte... :mrgreen:
- javascript: Google exécute une large proportion de js quant il veut et quand il peut.
- javascript: on peut mettre du nofollow sur les liens ads javascript... (ça pourrait signifier que les liens js transmettent un petit quelque chose...)
- linkspam: il confirme la lutte dans ce domaine et affirme que Google dispose de nouveaux outils à ce sujet. il annonce que de nouveaux appels à la "délation" (poliment: call for report, call for feedback) seront lancés prochainement.

:arrow: n'hésitez pas à compléter la liste ou à me corriger en cas d'erreur de traduction / compréhension
 

seb2310

WRInaute impliqué
Merci pour ces infos et traduction qui vont certainement provoquer des réactions notamment sur le pr.
+1 reco
 

SpeedAirMan

WRInaute passionné
idem : merci Carole, pour le lien et pour le résumé !
Comme Seb et Olivier : une reco' !


"javascript: Google exécute une large proportion de js quant il veut et quand il peut."
→ intéressant


"la présence de contenu dupliqué (à priori DC interne notamment) peut pénaliser l'indexation"
→ hmm... en savoir plus serait bien (des précisions surtout, venant "d'en haut").
J'imagine, si on parle de duplicate content (interne ou pas) et de problème d'indexation, que Google peut réagir de la sorte : si je vois une page qui existe déjà, je ne la crawlerai pas entièrement et/ou je ne crawlerai pas toutes les pages du site (et surtout : je ne la ressortirai pas dans les SERPs).


"le nombre de pages indexées est plus ou moins proportionnel au PageRank (de la home?), idem pour la fréquence de crawl"
→ Je ne pense pas que ce soit le PR de la home uniquement. La home n'est qu'une page parmi d'autres.
 

ddpetit

WRInaute discret
Très bon à savoir, comme quoi le javascript qui permettait avant à certains de faire du sculpting, ne le permettra bientôt plus... Reco !
 

carole heinz

WRInaute passionné
SpeedAirMan a dit:
"la présence de contenu dupliqué (à priori DC interne notamment) peut pénaliser l'indexation"
→ hmm... en savoir plus serait bien (des précisions surtout, venant "d'en haut").
si GG repère de gros pbs de DC il pourrait se "détourner" du site, et son indexation pourrait en souffrir (peut-être y compris pour les pages saines ?): If there are a large number of pages that we consider low value, then we might not crawl quite as many pages from that site


"le nombre de pages indexées est plus ou moins proportionnel au PageRank (de la home?), idem pour la fréquence de crawl"
→ Je ne pense pas que ce soit le PR de la home uniquement. La home n'est qu'une page parmi d'autres.
oui je n'ai pas bien compris, ou plutôt on dirait que Matt Cutts n'a pas bien compris que des pages internes pouvaient recevoir des BL: The best way to think about it is that the number of pages that we crawl is roughly proportional to your PageRank. So if you have a lot of incoming links on your root page, we'll definitely crawl that. Then your root page may link to other pages, and those will get PageRank and we'll crawl those as well. As you get deeper and deeper in your site, however, PageRank tends to decline.

Another way to think about it is that the low PageRank pages on your site are competing against a much larger pool of pages with the same or higher PageRank. There are a large number of pages on the web that have very little or close to zero PageRank. The pages that get linked to a lot tend to get discovered and crawled quite quickly. The lower PageRank pages are likely to be crawled not quite as often.


il parle bien de la "root page" puis des pages profondes, comme si il n'y avait que la root page qui pouvait recevoir du jus depuis l'extérieur?
 

pcamliti

WRInaute impliqué
Informations intéressantes mais il est vrai que les pages de e-commerces posent pas mal de soucis et sont souvent déclassées rapidement.
Quelles options trouver ?
ET comment faire du sculting cohérent ?
 

carole heinz

WRInaute passionné
pcamliti a dit:
Informations intéressantes mais il est vrai que les pages de e-commerces posent pas mal de soucis et sont souvent déclassées rapidement.
Quelles options trouver ?
il préconise d'utiliser rel=canonical; il y a pas mal de détails dans l'interview à ce sujet


ET comment faire du sculting cohérent ?
il préconise notamment de lier les pages importantes depuis la home, et d'optimiser la structure du site.
un autre aspect (mais là c'est de la pure interprétation) c'est que les liens ne transmettraient pas la même quantité de jus selon leur emplacement dans la structure du site et dans la structure des pages:
If you have a product that gives you great conversions and a fantastic profit margin, you can put that right at the root of your site front and center. A lot of PageRank will flow through that link to that particular product page.
Site architecture, how you make links and structure appear on a page in a way to get the most people to the products that you want them to see, is really a better way to approach it then trying to do individual sculpting of PageRank on links. If you can get your site architecture to focus PageRank on the most important pages or the pages that generate the best profit margins, that is a much better way of directly sculpting the PageRank then trying to use an iFrame or encoded JavaScript.
par exemple on se doute depuis un moment qu'un lien footer et un lien de contenu n'ont pas la même valeur. c'est une hypothèse qui gagne en crédibilité après ces déclarations.
 

Argonaute

WRInaute impliqué
Je mets rarement des reco mais là sans hésitation.

Pour un indicateur totalement dévalué, il parle quand même beaucoup du PageRank vous ne trouvez pas ?
 

kmenslow

WRInaute passionné
carole heinz a dit:
- le nombre de pages indexées est plus ou moins proportionnel au PageRank (de la home?), idem pour la fréquence de crawl

Il veut relancer la course au PR ?
Le PR de mon www ne fait que descendre (5 puis 4 et maintenant 3) et pourtant le nombre de page indexées augmente correctement (sauf si la commande site raconte n'importe quoi). Par contre j'ai noté un changement du délai d'indexation qui s'allonge à chaque perte du PR (cela n'a peut-être aucun rapport)
 

carole heinz

WRInaute passionné
Argonaute a dit:
Pour un indicateur totalement dévalué, il parle quand même beaucoup du PageRank vous ne trouvez pas ?
oui, me suis fait la même remarque: + de 40 occurrences sur l'interview... beau score pour un indicateur soi-disant périmé et dépassé

(ou alors il est lui-même perdu avec tous ces algos, le pauvre il en a perdu ses cheveux, d'ailleurs il y a beaucoup de "peut-être", "pas forcément" et "attends je vais leur demander" :mrgreen: )
 

pcamliti

WRInaute impliqué
Merci Carole pour les réponses :wink:
Ne ferait il pas de l'intox pour le PR ? comme ils savent si bien le faire chez GG pour noyer le poisson...
J'ai également constaté cette variation d'indexation de page et de baisse de PR, mais pas de positionnement au contraire.

Je pense clairement qu'ils préparent quelques petites choses mais quoi ?
 

Leonick

WRInaute accro
pcamliti a dit:
Ne ferait il pas de l'intox pour le PR ? comme ils savent si bien le faire chez GG pour noyer le poisson...
du genre pour le problème de linkspam, on baisse le pr des sites qui acceptent du spam sur leurs sites, car pas sérieux. Et donc, comme le pr est sensé avoir un intérêt dans le positionnement, le webmaster va craindre pour son positionnement et va donc nettoyer ce linkspam :mrgreen:
A l'époque de la baisse de pr pour (suspicion) de vente de BL, la baisse du pr faisait baisser la "valeur" d'un BL, donc les acheteurs étaient moins intéressés, mais le positionnement n'avait pas bougé. Donc là, si on baisse le pr mais que rien d'autre ne change, cela n'incitera pas les webmaster à faire le ménage sur leurs sites, alors qu'en faisant croire que le pr visible a encore une incidence sur le positionnement ils le feront par peur :twisted:
 

Firewave

WRInaute passionné
Je viens de créer un BLog test avec 170 billets dessus. J'ai mis 25 articles originaux, le reste c'est du copier/coller. Toutes les pages sont indexées. Je n'ai créé que 27 BL pour ce site en majorité No follow pour ne pas fausser le test. Le trafic a augmenté depuis que j'ai augmenté le nombre de posts par jour (tous copiés).
Donc je leur dirais qu'ils ont encore du chemin à parcourir pour le DC. Surtout sur les niches.
 

Marie-Aude

WRInaute accro
Merci, recco de mon côté aussi.

Pour le PR, je pense qu'il est utilisé comme indicateur des pages intéressantes à crawler. Ce qui n'est pas illogique, après tout, les pages intéressantes sont normalement plus liées que les autres.
Donc cela serait un de ces indicateurs "annexes", il ne détermine pas le positionnement, mais le comportement du bot qui permet l'indexation qui permet le positionnement. Dans les autres indicateurs annexes, par exemple, je mets la qualité des balises description.
 

jeanluc

WRInaute accro
Matt Cutts dit des choses très curieuses:
if you are trying to block something out from robots.txt, often times we'll still see that URL and keep a reference to it in our index. So it doesn't necessarily save your crawl budget.
Que des URL interdites par robots.txt puissent être présentes dans l'index est bien connu, mais, comme elles ne peuvent pas être crawlées par Googlebot, je ne vois pas comment cela peut affecter le "crawl budget".

Jean-Luc
 

Firewave

WRInaute passionné
Leonick a dit:
Firewave a dit:
J'ai mis 25 articles originaux, le reste c'est du copier/coller. Toutes les pages sont indexées.
indexées n'est pas suffisant, il faut qu'elles ressortent sur les requêtes

Je ressors sur des longues traines sans problème. La seconde étape sera de construire un linking béton et voir si je peux sortir sur les requêtes principales.
J'attends un peu de voir.
 

SWCF

WRInaute occasionnel
ne parlant pas Anglais, je prends ce que dit Carole Heinz à la lettre.

En gros, je ne vois que des "peut-être, éventuellement, par moment, il se pourrait, ça se peut, dans certains cas, ..."


Je trouve ça très vague.
De toute façon GG ne va pas donner la solution aux référenceurs pour biaiser leur classement
 

mx

WRInaute impliqué
carole heinz a dit:
- linkspam: il confirme la lutte dans ce domaine et affirme que Google dispose de nouveaux outils à ce sujet. il annonce que de nouveaux appels à la "délation" (poliment: call for report, call for feedback) seront lancés prochainement.

La délation n'est pas un nouvel outil :|
 

Leonick

WRInaute accro
smoof a dit:
Très intéressant, notamment pour le PR sculpting, ne le pénalisant pas pour le moment !
il y a quelques mois ils disaient que ça ne servait plus à rien, car TOUS les liens étaient comptabilisés y compris les nofollow
 

carole heinz

WRInaute passionné
smoof a dit:
Très intéressant, notamment pour le PR sculpting, ne le pénalisant pas pour le moment !

il n'est pas aussi catégorique:

Eric Enge: If someone did choose to do that (JavaScript encoded links or use an iFrame), would that be viewed as a spammy activity or just potentially a waste of their time?
Matt Cutts: I am not sure that it would be viewed as a spammy activity [...]
 

Bigbangbel

WRInaute discret
jeanluc a dit:
Matt Cutts dit des choses très curieuses:
if you are trying to block something out from robots.txt, often times we'll still see that URL and keep a reference to it in our index. So it doesn't necessarily save your crawl budget.
Que des URL interdites par robots.txt puissent être présentes dans l'index est bien connu, mais, comme elles ne peuvent pas être crawlées par Googlebot, je ne vois pas comment cela peut affecter le "crawl budget".

Jean-Luc

Google attribue peut-être un certain "budget" à chaque site pour le temps qu'il passe à le crawler. Un site plus rapide est alors un avantage, comme l'est certainement un site à fort PR, etc.
Matt Cutts indique qu'on ne peut pas changer ce "budget" en défendant l'accès à certaines pages pour que le robot parcoure mieux le reste du site. Ce budget me semble aussi lié au nombre d'URL connues du site.
Je connaissais le PR sculpting, voici le crawl budget sculpting ;-)

Beaucoup de conditionnel dans ce que je dis, il s'agit d'une interprétation, qu'en pensez-vous ?
 

Alaindeloin

WRInaute passionné
+1 pour la réco et +1000 pour ce demi-aveu de "google" que le PR n'est en fait pas si enterré que ça... :mrgreen:
 

petitchevalroux

WRInaute discret
Bigbangbel a dit:
jeanluc a dit:
Matt Cutts dit des choses très curieuses:
if you are trying to block something out from robots.txt, often times we'll still see that URL and keep a reference to it in our index. So it doesn't necessarily save your crawl budget.
Que des URL interdites par robots.txt puissent être présentes dans l'index est bien connu, mais, comme elles ne peuvent pas être crawlées par Googlebot, je ne vois pas comment cela peut affecter le "crawl budget".

Jean-Luc

Google attribue peut-être un certain "budget" à chaque site pour le temps qu'il passe à le crawler. Un site plus rapide est alors un avantage, comme l'est certainement un site à fort PR, etc.
Matt Cutts indique qu'on ne peut pas changer ce "budget" en défendant l'accès à certaines pages pour que le robot parcoure mieux le reste du site. Ce budget me semble aussi lié au nombre d'URL connues du site.
Je connaissais le PR sculpting, voici le crawl budget sculpting ;-)

Beaucoup de conditionnel dans ce que je dis, il s'agit d'une interprétation, qu'en pensez-vous ?

Ou tout simplement il parle du fait de bloquer des milliers de page via robot.txt pour ne pas avoir de traffic sur ces pages et donc pas de cout de génération.

Pour moi le crawl budget c'est plus le cout lié à la génération des pages par les robots et non par les visiteurs ce qui, pour les sites sur amazon s3 ou autre cloud, entraine un cout qui ne sert pas à grand chose.

Mais bon je peux me tromper :mrgreen:
 

Discussions similaires

Haut