Bloquer une section dans mon fichier robots.txt

Discussion dans 'Débuter en référencement' créé par pascal_22, 9 Novembre 2018.

  1. pascal_22
    pascal_22 WRInaute occasionnel
    Inscrit:
    11 Juin 2009
    Messages:
    254
    J'aime reçus:
    7
    Bonjour à tous !

    J'aimerais autoriser les bots à crawler mon site en entier sauf une section qui est /Profil/.
    Est-ce que je dois faire comme cela :

    Code:
    User-agent: *
    Allow: /
    Disallow: /Profil/
    
    Sitemap: https://www.nomDeMonsite.com/sitemap-index.xml
    
    Est-ce que le Disallow est OK ? Donc toutes les pages dans profil ne seront pas crawlé ?
    Ex:
    /Profil/membre1
    /Profil/membre2
    /Profil/membre3
    /Profil/membre4

    Merci à tous et une belle journée à vous !

    Pascal
     
  2. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 137
    J'aime reçus:
    350
    oui c'est ça. Et le Allow ne sert à rien
     
    pascal_22 apprécie ceci.
  3. pascal_22
    pascal_22 WRInaute occasionnel
    Inscrit:
    11 Juin 2009
    Messages:
    254
    J'aime reçus:
    7
    Bonsoir WebRankInfo !!

    Merci beaucoup ! C'est gentil !

    bonne soirée !

    Pascal
     
  4. Madrileño
    Madrileño Membre Honoré
    Inscrit:
    7 Juillet 2004
    Messages:
    32 136
    J'aime reçus:
    273
    Bonjour,

    Le mieux est de ne pas utiliser le robots.txt et d'utiliser le noindex avec les pages déjà indexées.
    En effet, vous devez désindexer déjà les pages indexées avant de faire un blocage.
    Pour les exemples, il y a : example.com .

    Temps de réponse : 5 minutes.
    Cordialement.
     
    pascal_22 apprécie ceci.
  5. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 137
    J'aime reçus:
    350
    pour désindexer toutes les URL situées dans un répertoire, c'est direct via search console
    ensuite un blocage robots.txt doit suffire
     
    pascal_22 apprécie ceci.
  6. pascal_22
    pascal_22 WRInaute occasionnel
    Inscrit:
    11 Juin 2009
    Messages:
    254
    J'aime reçus:
    7
    Bonjour @WebRankInfo et @Madrileño

    Merci énormément !! En effet, j'ai découvert la section 'URL à bloqué' vendredi passé :)

    Merci beaucoup pour vos réponses !!

    Pascal
     
  7. pascal_22
    pascal_22 WRInaute occasionnel
    Inscrit:
    11 Juin 2009
    Messages:
    254
    J'aime reçus:
    7
    Bonjour !

    J'ai une autre question concernant mon premier message...
    J'ai supprimé toutes les URL dans le dossier /Profil/ depuis Search Console.

    Le lendemain, j'ai vérifié dans Google avec la commande SITE: et effectivement, tout est supprimé... cependant.. Ma question est au niveau des sitemaps...
    J'ai laissé mes sitemap profils (J'en ai 5, car c'est max 50k URL chacun) pour vérifier si le nombre indexé deviendrait 0....

    Sauf qu’au lieu de faire cela... j'ai des avertissements de Google... Voici les 2 types d'avertissements que j'ai dans la section des sitemap de la Search Console
    • Lors du test d'un échantillon des URL de votre sitemap, nous avons constaté que le fichier robots.txt du site bloquait l'accès à certaines URL. Si vous ne souhaitez pas bloquer l'accès à certaines URL contenues dans votre sitemap, vérifiez, à l'aide de notre outil d'analyse robots.txt, que Googlebot peut accéder aux URL. Toutes les URL accessibles seront envoyées.
    • Le sitemap contient des URL qui sont bloquées par le fichier robots.txt
    Et le nombre d'URL indexées baisse très peu... peut-être +-50 URL en moins par jour en moins pour chaque sitemap...

    Devrais-je faire différent ?

    Merci et bonne journée à tous !

    Pascal
     
  8. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 137
    J'aime reçus:
    350
    ça ne sert plus d'avoir ce sitemap, toutes les URL sont désindexées
     
    pascal_22 apprécie ceci.
  9. Madrileño
    Madrileño Membre Honoré
    Inscrit:
    7 Juillet 2004
    Messages:
    32 136
    J'aime reçus:
    273
    Bonjour,
    Complément :
    "A successful request lasts only about 90 days. After that, your information can appear on Google search results". Source : Google.
    Retirer du sitemap les pages à ne pas indexer.
    Normal.
    Cf. solution précédente et il faut du temps.

    Temps de réponse : 10 minutes.
    Cordialement.
     
    pascal_22 apprécie ceci.
  10. pascal_22
    pascal_22 WRInaute occasionnel
    Inscrit:
    11 Juin 2009
    Messages:
    254
    J'aime reçus:
    7
    Bonjour @WebRankInfo et @Madrileño !
    D'accord, je vais retirer ces sitemaps !

    Merci énormément de vos réponses.

    Excellente soirée à vous :)
    Pascal
     
  11. pascal_22
    pascal_22 WRInaute occasionnel
    Inscrit:
    11 Juin 2009
    Messages:
    254
    J'aime reçus:
    7
    Bonsoir à tous !

    Je reviens sur une question précédente... car j'ai reçu une alerte de Google Search Console... m'informant que mon fichier robots.txt bloque la section /Profil/ mais qu'il y a toujours des pages d'indexées dans Google....

    Voici le message de Google !

    Comme expliquer, j'ai bel et bien ajouté le dossier /Profil/ dans Search Console -> URL à supprimé

    Donc si je comprends bien... le fait d'avoir supprimé le dossier /Profil/ via Search Console.. n'a pas désindexé les pages qui sont dans /Profil/ mais les à que 'caché' ?

    Qu'en pensez-vous ?

    Merci
     
  12. Madrileño
    Madrileño Membre Honoré
    Inscrit:
    7 Juillet 2004
    Messages:
    32 136
    J'aime reçus:
    273
    Bonjour,
    "A successful request lasts only about 90 days. After that, your information can appear on Google search results". Source : Google.

    Le mieux est de ne pas utiliser le robots.txt et d'utiliser le noindex pour les pages à ne pas indexer.

    Temps de réponse : 10 minutes.
    Cordialement.
     
    pascal_22 apprécie ceci.
  13. nateliv
    nateliv Nouveau WRInaute
    Inscrit:
    4 Décembre 2018
    Messages:
    2
    J'aime reçus:
    0
    Bonjour,

    Le fichier robots.txt est un fichier qui indique aux robots qui visitent ton blog ce qu'ils doivent indexer.

    Peut-être que le fichier robots.txt interdit aux robots d'indexer ton blog ou qu'il comporte des erreurs.

    Si tu as créé ton blog sur une plate-forme de blog, tu n'as probablement pas la possibilité de le modifier. Dans ce cas, demande à l'administrateur de la plate-forme de le modifier ou de le vérifier.
     
  14. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 137
    J'aime reçus:
    350
    non, pour être précis ça indique ce qu'ils doivent crawler ou éviter de crawler
     
    UsagiYojimbo apprécie ceci.
  15. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    3 751
    J'aime reçus:
    83
    Mais ça n'empêche pas de les mettre en "no index". Si ces pages sont toujours en "index" c'est normal d'avoir un avertissement
     
Chargement...
Similar Threads - Bloquer section fichier Forum Date
Chrome va bloquer les ressources HTTP sur pages HTTPS Référencement Google 5 Octobre 2019
Bloquer accès admin Google Analytics par adresse IP Google Analytics 19 Septembre 2019
Comment bloquer les vidéos automatiques ? Facebook 28 Juillet 2019
Réseau de site backlinks : comment bloquer par htaccess ? Tests et études de cas 6 Juin 2019
Chrome 70 va bloquer de nombreux sites web Google : l'entreprise, les sites web, les services 10 Octobre 2018
WordPress Bloquer ou non WP include dans le robots.txt ? Référencement Google 5 Septembre 2018
fichier robots.txt bloquer paramètre p= Crawl et indexation Google, sitemaps 4 Septembre 2018
Adsense - Impossible de bloquer des annonceurs ! AdSense 19 Avril 2018
bloquer l'accès au site à certains "mauvais'bots Administration d'un site Web 26 Mars 2018
Débloquer un modem, légal ou interdit ? Le café de WebRankInfo 6 Février 2018
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice