Ecosia : problème d'indexation

Discussion dans 'Autres moteurs de recherche connus' créé par nantesweb, 4 Décembre 2021.

  1. nantesweb
    nantesweb WRInaute discret
    Inscrit:
    18 Octobre 2016
    Messages:
    144
    J'aime reçus:
    18
    Bonjour,

    Je reviens à la charge sur Ecosia. Pour la bonne raison que c'est mon moteur par défaut depuis 1 an et demi (j'ai du planter un paquet d'arbres :)) et que ça me gonfle de pas voir mes pages internes référencées alors qu'elles sont sur Google en première page !!!!

    J'ai un robots.txt très strict. On va pas commencer à faire un débat sur si c'est bien ou pas bien, j'espère sincèrement que vous m'épargnerez ça. C'est un choix c'est tout.

    Je fais remarquer pour ceux que ça intéresse que les lignes pour IA Archiver (à savoir Archives.org) est totalement inutile : ils les ignorent alors que ce sont pourtant leurs lignes préconisées ! Seul un travail de blocage dans le htaccess fonctionne, j'ai récupéré un script intéressant dans la communauté : ça bloque en fait leurs adresses IPs.

    A SAVOIR. :
    1- J'interdit tout le monde
    2- J'interdit des moteurs spécifiques en plus d'interdire tout le monde
    3- Une fois ce grand reset effectue j'autorise (avant à vrai dire dans les lignes de codes)

    1- Google
    2- Google Mobile
    3- Bing
    4- Bing mobile

    et selon l'humeur : Yahoo et Qwant.

    Bon voici le script

    Code:
    User-agent: ia_archiver
    Disallow: /
    
    User-agent: archive.org_bot
    Disallow: /
    
    User-agent: ia_archiver-web.archive.org
    Disallow: /
    
    User-agent: AdsBot-Google
    Allow: /
    
    User-agent: Mediapartners-Google
    Allow: /
    
    User-agent: Googlebot-Image
    Disallow: /
    
    User-agent: Googlebot
    Disallow: /cgi-bin
    Disallow: /wp-login.php
    Disallow: /wp-admin
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*.inc$
    Disallow: /*.gz$
    Disallow: /*.swf$
    Disallow: /*.wmv$
    Disallow: /*.cgi$
    Disallow: /*.xhtml$
    Disallow: /*?ver=all
    Disallow: /*?url=all
    Disallow: /*?s=all
    
    User-agent: Googlebot-Mobile
    Disallow: /cgi-bin
    Disallow: /wp-login.php
    Disallow: /wp-admin
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*.inc$
    Disallow: /*.gz$
    Disallow: /*.swf$
    Disallow: /*.wmv$
    Disallow: /*.cgi$
    Disallow: /*.xhtml$
    Disallow: /*?ver=all
    Disallow: /*?url=all
    Disallow: /*?s=all
    
    User-agent: bingbot
    Disallow: /cgi-bin
    Disallow: /wp-login.php
    Disallow: /wp-admin
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*.inc$
    Disallow: /*.gz$
    Disallow: /*.swf$
    Disallow: /*.wmv$
    Disallow: /*.cgi$
    Disallow: /*.xhtml$
    Disallow: /*?ver=all
    Disallow: /*?url=all
    Disallow: /*?s=all
    
    User-agent: bingbot-mobile
    Disallow: /cgi-bin
    Disallow: /wp-login.php
    Disallow: /wp-admin
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*.inc$
    Disallow: /*.gz$
    Disallow: /*.swf$
    Disallow: /*.wmv$
    Disallow: /*.cgi$
    Disallow: /*.xhtml$
    Disallow: /*?ver=all
    Disallow: /*?url=all
    Disallow: /*?s=all
    
    User-agent: MJ12bot
    Disallow: /cgi-bin
    Disallow: /wp-login.php
    Disallow: /wp-admin
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*.inc$
    Disallow: /*.gz$
    Disallow: /*.swf$
    Disallow: /*.wmv$
    Disallow: /*.cgi$
    Disallow: /*.xhtml$
    Disallow: /*?ver=all
    Disallow: /*?url=all
    Disallow: /*?s=all
    
    User-agent: *
    Disallow: /
    
    User-agent: Alexibot
    Disallow: /
    
    User-agent: Aqua_Products
    Disallow: /
    
    User-agent: asterias
    Disallow: /
    
    User-agent: b2w/0.1
    Disallow: /
    
    User-agent: BackDoorBot/1.0
    Disallow: /
    
    User-agent: BlowFish/1.0
    Disallow: /
    
    User-agent: Bookmark search tool
    Disallow: /
    
    User-agent: BotALot
    Disallow: /
    
    User-agent: BotRightHere
    Disallow: /
    
    User-agent: BuiltBotTough
    Disallow: /
    
    User-agent: Bullseye/1.0
    Disallow: /
    
    User-agent: BunnySlippers
    Disallow: /
    
    User-agent: CheeseBot
    Disallow: /
    
    User-agent: CherryPicker
    Disallow: /
    
    User-agent: CherryPickerElite/1.0
    Disallow: /
    
    User-agent: CherryPickerSE/1.0
    Disallow: /
    
    User-agent: Copernic
    Disallow: /
    
    User-agent: CopyRightCheck
    Disallow: /
    
    User-agent: cosmos
    Disallow: /
    
    User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
    Disallow: /
    
    User-agent: Crescent
    Disallow: /
    
    User-agent: DittoSpyder
    Disallow: /
    
    User-agent: EmailCollector
    Disallow: /
    
    User-agent: EmailSiphon
    Disallow: /
    
    User-agent: EmailWolf
    Disallow: /
    
    User-agent: EroCrawler
    Disallow: /
    
    User-agent: ExtractorPro
    Disallow: /
    
    User-agent: FairAd Client
    Disallow: /
    
    User-agent: Flaming AttackBot
    Disallow: /
    
    User-agent: Foobot
    Disallow: /
    
    User-agent: Gaisbot
    Disallow: /
    
    User-agent: GetRight/4.2
    Disallow: /
    
    User-agent: Harvest/1.5
    Disallow: /
    
    User-agent: hloader
    Disallow: /
    
    User-agent: httplib
    Disallow: /
    
    User-agent: HTTrack 3.0
    Disallow: /
    
    User-agent: humanlinks
    Disallow: /
    
    User-agent: InfoNaviRobot
    Disallow: /
    
    User-agent: Iron33/1.0.2
    Disallow: /
    
    User-agent: JennyBot
    Disallow: /
    
    User-agent: Kenjin Spider
    Disallow: /
    
    User-agent: Keyword Density/0.9
    Disallow: /
    
    User-agent: larbin
    Disallow: /
    
    User-agent: LexiBot
    Disallow: /
    
    User-agent: libWeb/clsHTTP
    Disallow: /
    
    User-agent: LinkextractorPro
    Disallow: /
    
    User-agent: LinkScan/8.1a Unix
    Disallow: /
    
    User-agent: LinkWalker
    Disallow: /
    
    User-agent: LNSpiderguy
    Disallow: /
    
    User-agent: lwp-trivial/1.34
    Disallow: /
    
    User-agent: lwp-trivial
    Disallow: /
    
    User-agent: Mata Hari
    Disallow: /
    
    User-agent: Microsoft URL Control - 5.01.4511
    Disallow: /
    
    User-agent: Microsoft URL Control - 6.00.8169
    Disallow: /
    
    User-agent: Microsoft URL Control
    Disallow: /
    
    User-agent: MIIxpc/4.2
    Disallow: /
    
    User-agent: MIIxpc
    Disallow: /
    
    User-agent: Mister PiX
    Disallow: /
    
    User-agent: moget/2.1
    Disallow: /
    
    User-agent: moget
    Disallow: /
    
    User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
    Disallow: /
    
    User-agent: MSIECrawler
    Disallow: /
    
    User-agent: NetAnts
    Disallow: /
    
    User-agent: NICErsPRO
    Disallow: /
    
    User-agent: Offline Explorer
    Disallow: /
    
    User-agent: Openbot
    Disallow: /
    
    User-agent: Openfind data gatherer
    Disallow: /
    
    User-agent: Openfind
    Disallow: /
    
    User-agent: Oracle Ultra Search
    Disallow: /
    
    User-agent: PerMan
    Disallow: /
    
    User-agent: ProPowerBot/2.14
    Disallow: /
    
    User-agent: ProWebWalker
    Disallow: /
    
    User-agent: psbot
    Disallow: /
    
    User-agent: Python-urllib
    Disallow: /
    
    User-agent: QueryN Metasearch
    Disallow: /
    
    User-agent: Radiation Retriever 1.1
    Disallow: /
    
    User-agent: RepoMonkey Bait & Tackle/v1.01
    Disallow: /
    
    User-agent: RepoMonkey
    Disallow: /
    
    User-agent: RMA
    Disallow: /
    
    User-agent: searchpreview
    Disallow: /
    
    User-agent: SiteSnagger
    Disallow: /
    
    User-agent: SpankBot
    Disallow: /
    
    User-agent: spanner
    Disallow: /
    
    User-agent: suzuran
    Disallow: /
    
    User-agent: Szukacz/1.4
    Disallow: /
    
    User-agent: Teleport
    Disallow: /
    
    User-agent: TeleportPro
    Disallow: /
    
    User-agent: Telesoft
    Disallow: /
    
    User-agent: The Intraformant
    Disallow: /
    
    User-agent: TheNomad
    Disallow: /
    
    User-agent: TightTwatBot
    Disallow: /
    
    User-agent: toCrawl/UrlDispatcher
    Disallow: /
    
    User-agent: True_Robot/1.0
    Disallow: /
    
    User-agent: True_Robot
    Disallow: /
    
    User-agent: turingos
    Disallow: /
    
    User-agent: TurnitinBot/1.5
    Disallow: /
    
    User-agent: TurnitinBot
    Disallow: /
    
    User-agent: URL Control
    Disallow: /
    
    User-agent: URL_Spider_Pro
    Disallow: /
    
    User-agent: URLy Warning
    Disallow: /
    
    User-agent: VCI WebViewer VCI WebViewer Win32
    Disallow: /
    
    User-agent: VCI
    Disallow: /
    
    User-agent: Web Image Collector
    Disallow: /
    
    User-agent: WebAuto
    Disallow: /
    
    User-agent: WebBandit/3.50
    Disallow: /
    
    User-agent: WebBandit
    Disallow: /
    
    User-agent: WebCapture 2.0
    Disallow: /
    
    User-agent: WebCopier v.2.2
    Disallow: /
    
    User-agent: WebCopier v3.2a
    Disallow: /
    
    User-agent: WebCopier
    Disallow: /
    
    User-agent: WebEnhancer
    Disallow: /
    
    User-agent: WebSauger
    Disallow: /
    
    User-agent: Website Quester
    Disallow: /
    
    User-agent: Webster Pro
    Disallow: /
    
    User-agent: WebStripper
    Disallow: /
    
    User-agent: WebZip/4.0
    Disallow: /
    
    User-agent: WebZIP/4.21
    Disallow: /
    
    User-agent: WebZIP/5.0
    Disallow: /
    
    User-agent: WebZip
    Disallow: /
    
    User-agent: Wget/1.5.3
    Disallow: /
    
    User-agent: Wget/1.6
    Disallow: /
    
    User-agent: Wget
    Disallow: /
    
    User-agent: wget
    Disallow: /
    
    User-agent: WWW-Collector-E
    Disallow: /
    
    User-agent: Xenu's Link Sleuth 1.1c
    Disallow: /
    
    User-agent: Xenu's
    Disallow: /
    
    User-agent: Zeus 32297 Webster Pro V2.9 Win32
    Disallow: /
    
    User-agent: Zeus Link Scout
    Disallow: /
    
    User-agent: Zeus
    Disallow: /

    Mais ce qui m'étonne c'est que j'ai écris à Ecosia pour savoir si dans le robots.txt il y avait un truc particulier à mettre (vu que j'autorise Bing et qu'ils sont sur Bing) qui m'a répondu ceci :

    "Tous les résultats et les publicités sont fournis par notre partenaire de recherche Bing. Nous vous suggérons donc de prendre contact avec le support publicitaire de Bing pour démarrer votre campagne publicitaire !

    En général, une fois que votre site Web est publié, le robot d'exploration Web de Bing devrait l'indexer automatiquement dans un court laps de temps. Vous ou votre administrateur système pouvez également en savoir plus ici sur les recommandations de Bing en matière d'optimisation des moteurs de recherche (SEO).

    Nous espérons avoir pu vous aider et n'hésitez pas à nous faire savoir si vous avez d'autres questions à ce sujet.



    Autrement dit ça viendrait de Bing. Et c'est vrai, sur Bing j'ai rien aussi.

    Cela voudrait-il dire. que Bing prend en compte l'interdiction générale ? Alors que je lui est clairement autorisé à indexer ?

    Seul problème, le script correspond très bien à celui-ci sur le site officiel du robots.txt :
    http://robots-txt.com/ressources/robots-txt-bing/

    A savoir d'abord une autorisation Bing et ensuite une interdiction générale (ce que j'ai fait)

    On pourrait donc se dire que c'est just eu un mauvais classement. Mais sur des recherches de longue traîne ou je suis dans les 7 premiers sur Google je suis même pas dans les 7 premières pages sur Bing !!!!

    Y a un soucis je pense.


    Je remarque cependant qu'ils autorisent MSN en même temps comme si c'était un duo, chose que je n'ai pas faite car pour moi MSN, franchement, c'est comme autoriser Lycos ;°) , c'est retour vers le futur

    Je suis preneur de toutes infos les ami.es

    Cordialement
     
    #1 nantesweb, 4 Décembre 2021
    Dernière édition: 4 Décembre 2021
  2. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 459
    J'aime reçus:
    675
    ça n'a pas l'air d'être un site officiel

    mais ça donne quoi dans Bing Webmaster Tools ? c'est là-bas qu'il faut tester
     
    Lionel Belarbi apprécie ceci.
  3. Chronotest
    Chronotest Nouveau WRInaute
    Inscrit:
    19 Juillet 2012
    Messages:
    46
    J'aime reçus:
    0
    Il est funny ce moteur de recherche, je vois de plus en plus de visites sur mon site qui viennent de là. Et en effet ton robots.txt est la source du bug, côté Bing étant donné que :

    Ecosia's search results and search ads are powered by Microsoft Bing. We use Bing's search technology, enhanced with Ecosia's own algorithms.
    Fais un reset des user-agent dessus et avance sur un test & learn pour voir lequel est à l'origine du blocage.
     
  4. emualliug
    emualliug WRInaute occasionnel
    Inscrit:
    1 Février 2020
    Messages:
    388
    J'aime reçus:
    77
    Je vais le dire quand même, c'est inutile et contre-productif.

    Et il est non seulement "très strict", mais de façon excessive avec beaucoup de redondance ce qui en complique la lecture, la compréhension, et la maintenance (492 lignes, sérieusement…).

    Ça ne serait pas incongru.

    Lignes 53 à 68 (pour bingbot) et 70 à 85 (pour bingbot-mobile) tu interdis spécifiquement plusieurs chemins d'accès à Bing. Notons qu'il n'y a pas de directive "Allow" (certes non stardard, mais interprétée par Bing).

    Puis, lignes 104-105 tu interdis tout les chemins d'accès à tous les user-agent.

    Google indique dans sa documentation que, lorsqu'un de ses crawler a une section spécifique, il ignore les sections non spécifiques (i.e. "User-agent: *").

    Google considère que "*" cible tous les autres user-agents que ceux ayant une section spécifique. Mais on peut également interpréter "User-agent: *" comme siblant tous les user-agents ; est-ce l'interprétation de Bing ? c'est possible.

    À noter que, suivant le draft initial, l'interprétation de "User-agent: *" est celle qu'en fait Google :

    Pour sa part, Bing écrit
     
  5. nantesweb
    nantesweb WRInaute discret
    Inscrit:
    18 Octobre 2016
    Messages:
    144
    J'aime reçus:
    18
    Wow,

    @Chronostest
    @emualliug

    Merci pour ces réponses instructives.

    @admin : j'ai cru, en attendant c'est un site de références pour les fichiers robots.txt. humans.txt, ads.txt...

    Je vais faire des tests sur un autre site. Certes c'est restrictif mais ça a été très efficace sur le spam et la multiplication de citation et de liens sur des plateformes et moteurs complètement pourris... le htaccess n'est pas mal non plus au niveau filtre.

    Je vais donc essayer de rajouter déjà un Allow (et c'est marrant j'en avais eu l'intuition à propos de Bing mais je l'ai pas fait).

    Les moteurs rajoutés ce sont des moteurs pourris mais qui prennent en compte ces directives, tout en ignorant volontairement souvent le user-agent / disallow / * donc comme j'ai pas le temps de les tester ou de les trier j'ai mis les deux, l'interdiction générale + les moteurs et robots "pourris"

    Je vais faire quand même des essais avec / sans sur trois de mes sites.

    Je reviendrais faire un petit bilan.

    Merci encore.
     
  6. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 459
    J'aime reçus:
    675
    déjà, tu pourrais regrouper tous les robots que tu bloques entièrement (comme je le fais dans mon robots.txt). le fichier serait bien plus facile à lire et à maintenir.

    concernant Bing, pourquoi ne testes-tu pas dans Bing Webmaster Tools ?
     
  7. nantesweb
    nantesweb WRInaute discret
    Inscrit:
    18 Octobre 2016
    Messages:
    144
    J'aime reçus:
    18
    Oui, ça fait un bout de temps que j'y ai pas mis les pieds ! Faut déjà que je retrouve mes accès :p

    Pour le regroupement, instinctivement je me suis dit que les développeurs de nombreux robots spammeurs n'ont intégré que la directive qui leur est propre.

    J'avais peur qu'une mise en page trop complexe ne soit pas lu.

    Non je déconne je savais pas qu'on pouvais le faire comme ça, mais ça n'empêche je reste sur ma position, ça me paraît trop élaboré pour certains moteurs, je suis sûr que certains ne prennent pas en compte si c'est écrit comme ça.

    Faut dire que beaucoup sont clairement de mauvaise volonté.

    Archive.org par exemple, malgré la mise en place de LEUR script ils se moquaient éperdument du robots.txt... et pourtant c'est pas les pires...
     
    #7 nantesweb, 7 Décembre 2021
    Dernière édition: 7 Décembre 2021
  8. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 459
    J'aime reçus:
    675
    bon ok, mais tu ne nous incites pas vraiment à t'aider davantage : tu ne veux rien changer
    ce qui compte c'est que Google et Bing te crawlent, non ?
     
  9. nantesweb
    nantesweb WRInaute discret
    Inscrit:
    18 Octobre 2016
    Messages:
    144
    J'aime reçus:
    18
    Si. comme je l'ai dit je vais faire des tests sur d'autres de mes sites en supprimant certaines directives pour voir si ça débloque.

    Donc merci pour les conseils des intervenants, ça m'a fait avancer sur le sujet.

    Pour moi oui, sincèrement en dehors de Bing et Google je vois pas l'intérêt d'autoriser qui que ce soit, en France du moins (99% de la recherche)
     
Chargement...
Similar Threads - Ecosia problème indexation Forum Date
Ecosia le moteur à croissance exponentielle Autres moteurs de recherche connus 3 Juillet 2018
Moteur de recherche : Ecosia.org Débuter en référencement 29 Mai 2017
Ecosia, le moteur de recherche qui plante des arbres, en français ! Annuaires et moteurs 15 Octobre 2013
Microsoft Ecosia : moteur de recherche écologique en partenariat avec Bing et Yahoo Le café de WebRankInfo 25 Juin 2010
Problème sur de l'obfuscation de liens avec webflow Développement d'un site Web ou d'une appli mobile 4 Janvier 2022
Problèmes détectés par Semrush Demandes d'avis et de conseils sur vos sites 29 Décembre 2021
problème avec la mise en cache des images de mon site Développement d'un site Web ou d'une appli mobile 19 Décembre 2021
Search Console Problème récurrent d'ergonomie mobile Demandes d'avis et de conseils sur vos sites 4 Décembre 2021
Problèmes dans le méta-titre / description + Sitemap Référencement Google 29 Novembre 2021
Problème paramétrage HTTP2 sur Nginx Administration d'un site Web 22 Novembre 2021
Search Console Problèmes réguliers d'ergonomie mobile sans modification Problèmes de référencement spécifiques à vos sites 18 Novembre 2021
Problème title/H1 thème Astra Problèmes de référencement spécifiques à vos sites 30 Octobre 2021
Search Console Problème avec page ads.txt Référencement Google 23 Octobre 2021
Problèmes avec OVH. Le café de WebRankInfo 8 Octobre 2021
Authentification forte : problème de paiement ? e-commerce 7 Octobre 2021
Multiples problèmes sur GA Google Analytics 28 Septembre 2021
Problème avec tag manager pixel Facebook Référencement Google 25 Septembre 2021
Problème d'indexation Google : que faire ? Crawl et indexation Google, sitemaps 21 Septembre 2021
Problèmes score Rank Math Référencement Google 20 Septembre 2021
Problème avec alternate.fr e-commerce 10 Septembre 2021