Le cas des PDFs : pris en compte pour le contenu d'une page ?

Discussion dans 'Débuter en référencement' créé par centralia-groupe.fr, 20 Janvier 2014.

  1. centralia-groupe.fr
    centralia-groupe.fr Nouveau WRInaute
    Inscrit:
    15 Janvier 2014
    Messages:
    36
    J'aime reçus:
    0
    Bonjour,

    Comment sont gérés les liens vers des PDFs d'un point de vue SEO ?

    J'ai des pages qui présentent des programmes immobiliers, que je veux optimiser pour le référencement.
    exemple : La Villa Lanell à Bordeaux

    Le contenu réel est ridicule (une phrase), il y en a un peu plus dans le PDF (pas des masses mais un peu quand même).
    Est-ce que ce contenu est indexé et "compte" pour la popularité/pertinence de la page ?

    J'ai vu que google indexait les PDFs (on les retrouve avec la commande "site:centralia-groupe.fr").

    Serait-il meilleur de mettre une partie de ce contenu des PDFs dans le HTML lui-même ?

    Je pense que oui, j'aimerais votre confirmation (ou pas)

    Merci par avance !

    --
    Note :

    J'ai déjà un sujet "général" pour vous demander des conseils pour mon référencement/positionnement (je suis pas pro, c'est mon premier "vrai" référencement).

    Je crée un nouveau sujet pour cette question car elle est précise pour le coup.
    Si jamais ça convient pas aux modérateurs et qu'il faudrait mieux laisser cette question dans mon sujet "général", merci de me le dire (je suis pas super habitué des forums...) :)
     
  2. soinvisage
    soinvisage WRInaute passionné
    Inscrit:
    13 Septembre 2012
    Messages:
    1 147
    J'aime reçus:
    0
    bonjour,

    je pense que google privilégie le texte directement sur la page que dans un pdf.

    Autant balancer le texte du pdf directement.
     
  3. Archaos-JdR
    Archaos-JdR WRInaute discret
    Inscrit:
    20 Septembre 2006
    Messages:
    122
    J'aime reçus:
    0
    Mon site (en www) est dans le même cas : peu de texte html pointant vers des documents pdf ou autre.
    Google le trouve et le positionne correctement. Les pages web et les pdf sont dans les résultats.
    Dans les webmaster tools, il y a la liste des mots clés et ceux des pdf sont pris en compte.

    Je pense que plus de texte HTML ne peut qu'être bénéfique.
     
  4. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 691
    J'aime reçus:
    439
    si le même texte se retrouve dans le HTML et le PDF, alors il y a un risque de pb de contenus dupliqués.
    si possible, faites indexer uniquement le HTML
     
  5. centralia-groupe.fr
    centralia-groupe.fr Nouveau WRInaute
    Inscrit:
    15 Janvier 2014
    Messages:
    36
    J'aime reçus:
    0
    OK, merci pour la précision.
    Je pense partir sur un peu plus de contenu dans le HTML, mais sans copier/coller le PDF, et la totalité des détails dans la brochure PDF...

    Sinon, comment forcer la non indexation des PDFs ?
    Il n'y a pas de balise "meta" dans ce cas...

    On peut le faire dans un fichier "robots.txt" c'est ça ? On peut définir des règles avec expressions régulières dans ce fichier ?
    Je vais creuser ça...
     
  6. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 691
    J'aime reçus:
    439
    tu peux bloquer le crawl via le fichier robots.txt mais si tes PDF sont déjà indexés, ça ne les désindexera pas (simplement, Google ne reviendra plus les crawler). Sauf si tu vas spécialement dans Google Webmaster Tools demander la désindexation (soit URL par URL, soit un répertoire entier d'un coup).

    tu peux aussi bloquer l'indexation des PDF : pas avec une balise meta robots noindex (car c'est pour les HTML) mais via l'entête HTTP (X-Robots-Tag).
     
  7. centralia-groupe.fr
    centralia-groupe.fr Nouveau WRInaute
    Inscrit:
    15 Janvier 2014
    Messages:
    36
    J'aime reçus:
    0
    OK merci !

    En fait je penses que je vais laisser les PDFs dans mon cas, et demander à la personne qui fait le contenu du site de mettre plus de contenu sur la page HTML, en s'inspirant du contenu du PDF, mais en reformulant largement pour éviter le Duplicate Content...
     
Chargement...
Similar Threads - PDFs pris compte Forum Date
Indexer des PDFs sans que l'utilisateur y ait accès Crawl et indexation Google, sitemaps 22 Décembre 2016
Vendre des pdfs en ligne e-commerce 4 Avril 2016
Comment bloquer les pdfs dans le robots.txt Crawl et indexation Google, sitemaps 17 Janvier 2011
Dépassement du CA en microentreprise Monétisation d'un site web 1 Juillet 2020
Reprise d'un site e-commerce : Que faire ou ne pas faire ? e-commerce 25 Avril 2020
Page Facebook pour l'entreprise et profil à supprimer Facebook 17 Avril 2020
La CNIL peut elle attaquer une entreprise pour non respect des recommandations de sécurité Droit du web (juridique, fiscalité...) 13 Janvier 2020
Description non reprise par Google Problèmes de référencement spécifiques à vos sites 7 Janvier 2020
demande d'effacement du nom du gerant sur fiche entreprise Droit du web (juridique, fiscalité...) 13 Décembre 2019
Comment trouver un nom d’entreprise qui fera gagner des parts de marché Noms de domaine et référencement 11 Novembre 2019
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice