Forcer GG à indexer une page html plutôt qu'un PDF

titifrim · 9 Juillet 2007

J'aimerais savoir s'il existe un moyen de forcer notre ami google à référencer une page html qui a son équivalence en PDF ? A ce jour seul le fichier PDF est dispo dans les SERP... :cry:

amri-referencement · 9 Juillet 2007

titifrim a dit:
J'aimerais savoir s'il existe un moyen de forcer notre ami google à référencer une page html qui a son équivalence en PDF ? A ce jour seul le fichier PDF est dispo dans les SERP... :cry:

Bonjour,

Perso, j'inclurai cette page HTML dans mon sitemap.xml, afin de me donner toutes les chances à GG de l'indéxer. En sachant que le sitemap n'est qu'un outil d'aide à l'indéxation.

Tu ne pourras en aucun forcer GG à indéxer cette page, mais plutôt l'aider à l'indéxer.

A part cela, je ne vois pas d'autres solutions. En tous cas ta question, me fais à mon tour me poser une question. :lol:

J'aimerais savoir si à votre avis, un PDF déjà indéxé dans Google, qui serait repris de manière identique dans une page HTML, n'est pas un contenu dupliqué ?

Car à la final GG détiendrai 2 fois la même information, mais pas sous la même forme .... Je me trompe ...

En espérant avoir pu t'aider.

Fanny AMRI

titifrim · 9 Juillet 2007

Les deux pages se trouvent déjà dans le sitemap et malheureusement ce n'est que le PDF qui apparaît dans Google alors qu'il a été créé bien après son équivalence HTML !

HawkEye · 9 Juillet 2007

Code:

<a href="page.html" onclick="javascript:document.location('/pdf/page.pdf');return false;">ancre</a>

+ un robots.txt qui interdit l'indexation du répertoire /pdf/

Ca irait ?

titifrim · 9 Juillet 2007

HawkEye a dit:
Code:

<a href="page.html" onclick="javascript:document.location('/pdf/page.pdf');return false;">ancre</a>

+ un robots.txt qui interdit l'indexation du répertoire /pdf/

Ca irait ?

Je m'en vais de suite tester ça merci HawkEye

Aye-Aye · 9 Juillet 2007

:arrow: Pour supprimer tous les fichiers d'un type en particulier (.pdf, par exemple), utilisez l'entrée robots.txt suivante :

Code:

User-agent: Googlebot 
Disallow: /*.pdf$

:arrow: Google

HawkEye · 9 Juillet 2007

Le wildcard dans robots.txt n'est supporté que par Google il me semble.

titifrim · 10 Juillet 2007

Aye-Aye a dit:
:arrow: Pour supprimer tous les fichiers d'un type en particulier (.pdf, par exemple), utilisez l'entrée robots.txt suivante :

Code:

User-agent: Googlebot Disallow: /*.pdf$

:arrow: Google

Ah oui ? je ne savais pas qu'une telle commande existait, je pensais qu'on pouvais exclure les répertoires ou bien se taper chaque fichier ligne par ligne...

bertrand3w · 26 Novembre 2008

Meilleure indexation des documents PDF

Bonjour,

je rencontre le même phénomène que titifrim. Pour chaque fiche produit html, nous proposons aux visiteurs de l'enregistrer en PDF (aui par ailleurs ne sont pas du tout optimisés pour le référencement). Or, j'ai remarqué que certains documents PDF sont mieux indexés que des fiches html identiques.

Est-ce que quelqu'un pourrait m'expliquer les raisons de ce phénomène? Google jugerait-il les documents PDF comme des sources d'information plus fiable?

Merci de bien vouloir de me faire part de votre expérience à ce sujet.

bertrand3w · 2 Décembre 2008

Re: Meilleure indexation des documents PDF

bertrand3w a dit:
Bonjour,

je rencontre le même phénomène que titifrim. Pour chaque fiche produit html, nous proposons aux visiteurs de l'enregistrer en PDF (aui par ailleurs ne sont pas du tout optimisés pour le référencement). Or, j'ai remarqué que certains documents PDF sont mieux indexés que des fiches html identiques.

Est-ce que quelqu'un pourrait m'expliquer les raisons de ce phénomène? Google jugerait-il les documents PDF comme des sources d'information plus fiable?

Merci de bien vouloir de me faire part de votre expérience à ce sujet.

Quelqu'un aurait-il une idée sur la question? Merci d'avance.

WebRankInfo · 2 Décembre 2008

en tout cas je te déconseille de faire indexer les 2 versions (garde la HTML)...

bertrand3w · 3 Décembre 2008

WebRankInfo a dit:
en tout cas je te déconseille de faire indexer les 2 versions (garde la HTML)...

Merci pour ta réponse. D'après toi Google accorderait une plus grande importance aux documents PDF qu'aux docs html?

Olivier C · 29 Septembre 2010

Bonjour,

J'ai le même problème que vous : quand je propose un article ou un tableau en PDF, celui-ci se référence au dépend de la page HTML qui le contient.

Mais si Google lit - et référence - les PDF, il me semble qu'il ne sait pas lire les fichiers compressés (ZIP). Ma solution est donc simple : je propose la documentation PDF en fichier zipé.

Par contre la recherche ne se fait plus sur le contenu du PDF, ce qui peut être préjudiciable si celle-ci n'apparaît pas sur la page HTML.

Comme vos posts datent de 2008, si vous connaissez depuis des solutions alternatives, ça m'intéresse.