Le cas des PDFs : pris en compte pour le contenu d'une page ?

centralia-groupe.fr · 20 Janvier 2014

Bonjour,

Comment sont gérés les liens vers des PDFs d'un point de vue SEO ?

J'ai des pages qui présentent des programmes immobiliers, que je veux optimiser pour le référencement.
exemple : La Villa Lanell à Bordeaux

Le contenu réel est ridicule (une phrase), il y en a un peu plus dans le PDF (pas des masses mais un peu quand même).
Est-ce que ce contenu est indexé et "compte" pour la popularité/pertinence de la page ?

J'ai vu que google indexait les PDFs (on les retrouve avec la commande "site:centralia-groupe.fr").

Serait-il meilleur de mettre une partie de ce contenu des PDFs dans le HTML lui-même ?

Je pense que oui, j'aimerais votre confirmation (ou pas)

Merci par avance !

--
Note :

J'ai déjà un sujet "général" pour vous demander des conseils pour mon référencement/positionnement (je suis pas pro, c'est mon premier "vrai" référencement).

Je crée un nouveau sujet pour cette question car elle est précise pour le coup.
Si jamais ça convient pas aux modérateurs et qu'il faudrait mieux laisser cette question dans mon sujet "général", merci de me le dire (je suis pas super habitué des forums...)

soinvisage · 20 Janvier 2014

bonjour,

je pense que google privilégie le texte directement sur la page que dans un pdf.

Autant balancer le texte du pdf directement.

Archaos-JdR · 20 Janvier 2014

Mon site (en www) est dans le même cas : peu de texte html pointant vers des documents pdf ou autre.
Google le trouve et le positionne correctement. Les pages web et les pdf sont dans les résultats.
Dans les webmaster tools, il y a la liste des mots clés et ceux des pdf sont pris en compte.

Je pense que plus de texte HTML ne peut qu'être bénéfique.

WebRankInfo · 21 Janvier 2014

si le même texte se retrouve dans le HTML et le PDF, alors il y a un risque de pb de contenus dupliqués.
si possible, faites indexer uniquement le HTML

centralia-groupe.fr · 21 Janvier 2014

OK, merci pour la précision.
Je pense partir sur un peu plus de contenu dans le HTML, mais sans copier/coller le PDF, et la totalité des détails dans la brochure PDF...

Sinon, comment forcer la non indexation des PDFs ?
Il n'y a pas de balise "meta" dans ce cas...

On peut le faire dans un fichier "robots.txt" c'est ça ? On peut définir des règles avec expressions régulières dans ce fichier ?
Je vais creuser ça...

WebRankInfo · 21 Janvier 2014

tu peux bloquer le crawl via le fichier robots.txt mais si tes PDF sont déjà indexés, ça ne les désindexera pas (simplement, Google ne reviendra plus les crawler). Sauf si tu vas spécialement dans Google Webmaster Tools demander la désindexation (soit URL par URL, soit un répertoire entier d'un coup).

tu peux aussi bloquer l'indexation des PDF : pas avec une balise meta robots noindex (car c'est pour les HTML) mais via l'entête HTTP (X-Robots-Tag).

centralia-groupe.fr · 22 Janvier 2014

OK merci !

En fait je penses que je vais laisser les PDFs dans mon cas, et demander à la personne qui fait le contenu du site de mettre plus de contenu sur la page HTML, en s'inspirant du contenu du PDF, mais en reformulant largement pour éviter le Duplicate Content...