Ecosia : problème d'indexation

Discussion dans 'Autres moteurs de recherche connus' créé par nantesweb, 4 Décembre 2021.

  1. nantesweb
    nantesweb WRInaute discret
    Inscrit:
    18 Octobre 2016
    Messages:
    154
    J'aime reçus:
    18
    Bonjour,

    Je reviens à la charge sur Ecosia. Pour la bonne raison que c'est mon moteur par défaut depuis 1 an et demi (j'ai du planter un paquet d'arbres :)) et que ça me gonfle de pas voir mes pages internes référencées alors qu'elles sont sur Google en première page !!!!

    J'ai un robots.txt très strict. On va pas commencer à faire un débat sur si c'est bien ou pas bien, j'espère sincèrement que vous m'épargnerez ça. C'est un choix c'est tout.

    Je fais remarquer pour ceux que ça intéresse que les lignes pour IA Archiver (à savoir Archives.org) est totalement inutile : ils les ignorent alors que ce sont pourtant leurs lignes préconisées ! Seul un travail de blocage dans le htaccess fonctionne, j'ai récupéré un script intéressant dans la communauté : ça bloque en fait leurs adresses IPs.

    A SAVOIR. :
    1- J'interdit tout le monde
    2- J'interdit des moteurs spécifiques en plus d'interdire tout le monde
    3- Une fois ce grand reset effectue j'autorise (avant à vrai dire dans les lignes de codes)

    1- Google
    2- Google Mobile
    3- Bing
    4- Bing mobile

    et selon l'humeur : Yahoo et Qwant.

    Bon voici le script

    Code:
    User-agent: ia_archiver
    Disallow: /
    
    User-agent: archive.org_bot
    Disallow: /
    
    User-agent: ia_archiver-web.archive.org
    Disallow: /
    
    User-agent: AdsBot-Google
    Allow: /
    
    User-agent: Mediapartners-Google
    Allow: /
    
    User-agent: Googlebot-Image
    Disallow: /
    
    User-agent: Googlebot
    Disallow: /cgi-bin
    Disallow: /wp-login.php
    Disallow: /wp-admin
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*.inc$
    Disallow: /*.gz$
    Disallow: /*.swf$
    Disallow: /*.wmv$
    Disallow: /*.cgi$
    Disallow: /*.xhtml$
    Disallow: /*?ver=all
    Disallow: /*?url=all
    Disallow: /*?s=all
    
    User-agent: Googlebot-Mobile
    Disallow: /cgi-bin
    Disallow: /wp-login.php
    Disallow: /wp-admin
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*.inc$
    Disallow: /*.gz$
    Disallow: /*.swf$
    Disallow: /*.wmv$
    Disallow: /*.cgi$
    Disallow: /*.xhtml$
    Disallow: /*?ver=all
    Disallow: /*?url=all
    Disallow: /*?s=all
    
    User-agent: bingbot
    Disallow: /cgi-bin
    Disallow: /wp-login.php
    Disallow: /wp-admin
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*.inc$
    Disallow: /*.gz$
    Disallow: /*.swf$
    Disallow: /*.wmv$
    Disallow: /*.cgi$
    Disallow: /*.xhtml$
    Disallow: /*?ver=all
    Disallow: /*?url=all
    Disallow: /*?s=all
    
    User-agent: bingbot-mobile
    Disallow: /cgi-bin
    Disallow: /wp-login.php
    Disallow: /wp-admin
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*.inc$
    Disallow: /*.gz$
    Disallow: /*.swf$
    Disallow: /*.wmv$
    Disallow: /*.cgi$
    Disallow: /*.xhtml$
    Disallow: /*?ver=all
    Disallow: /*?url=all
    Disallow: /*?s=all
    
    User-agent: MJ12bot
    Disallow: /cgi-bin
    Disallow: /wp-login.php
    Disallow: /wp-admin
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*.inc$
    Disallow: /*.gz$
    Disallow: /*.swf$
    Disallow: /*.wmv$
    Disallow: /*.cgi$
    Disallow: /*.xhtml$
    Disallow: /*?ver=all
    Disallow: /*?url=all
    Disallow: /*?s=all
    
    User-agent: *
    Disallow: /
    
    User-agent: Alexibot
    Disallow: /
    
    User-agent: Aqua_Products
    Disallow: /
    
    User-agent: asterias
    Disallow: /
    
    User-agent: b2w/0.1
    Disallow: /
    
    User-agent: BackDoorBot/1.0
    Disallow: /
    
    User-agent: BlowFish/1.0
    Disallow: /
    
    User-agent: Bookmark search tool
    Disallow: /
    
    User-agent: BotALot
    Disallow: /
    
    User-agent: BotRightHere
    Disallow: /
    
    User-agent: BuiltBotTough
    Disallow: /
    
    User-agent: Bullseye/1.0
    Disallow: /
    
    User-agent: BunnySlippers
    Disallow: /
    
    User-agent: CheeseBot
    Disallow: /
    
    User-agent: CherryPicker
    Disallow: /
    
    User-agent: CherryPickerElite/1.0
    Disallow: /
    
    User-agent: CherryPickerSE/1.0
    Disallow: /
    
    User-agent: Copernic
    Disallow: /
    
    User-agent: CopyRightCheck
    Disallow: /
    
    User-agent: cosmos
    Disallow: /
    
    User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
    Disallow: /
    
    User-agent: Crescent
    Disallow: /
    
    User-agent: DittoSpyder
    Disallow: /
    
    User-agent: EmailCollector
    Disallow: /
    
    User-agent: EmailSiphon
    Disallow: /
    
    User-agent: EmailWolf
    Disallow: /
    
    User-agent: EroCrawler
    Disallow: /
    
    User-agent: ExtractorPro
    Disallow: /
    
    User-agent: FairAd Client
    Disallow: /
    
    User-agent: Flaming AttackBot
    Disallow: /
    
    User-agent: Foobot
    Disallow: /
    
    User-agent: Gaisbot
    Disallow: /
    
    User-agent: GetRight/4.2
    Disallow: /
    
    User-agent: Harvest/1.5
    Disallow: /
    
    User-agent: hloader
    Disallow: /
    
    User-agent: httplib
    Disallow: /
    
    User-agent: HTTrack 3.0
    Disallow: /
    
    User-agent: humanlinks
    Disallow: /
    
    User-agent: InfoNaviRobot
    Disallow: /
    
    User-agent: Iron33/1.0.2
    Disallow: /
    
    User-agent: JennyBot
    Disallow: /
    
    User-agent: Kenjin Spider
    Disallow: /
    
    User-agent: Keyword Density/0.9
    Disallow: /
    
    User-agent: larbin
    Disallow: /
    
    User-agent: LexiBot
    Disallow: /
    
    User-agent: libWeb/clsHTTP
    Disallow: /
    
    User-agent: LinkextractorPro
    Disallow: /
    
    User-agent: LinkScan/8.1a Unix
    Disallow: /
    
    User-agent: LinkWalker
    Disallow: /
    
    User-agent: LNSpiderguy
    Disallow: /
    
    User-agent: lwp-trivial/1.34
    Disallow: /
    
    User-agent: lwp-trivial
    Disallow: /
    
    User-agent: Mata Hari
    Disallow: /
    
    User-agent: Microsoft URL Control - 5.01.4511
    Disallow: /
    
    User-agent: Microsoft URL Control - 6.00.8169
    Disallow: /
    
    User-agent: Microsoft URL Control
    Disallow: /
    
    User-agent: MIIxpc/4.2
    Disallow: /
    
    User-agent: MIIxpc
    Disallow: /
    
    User-agent: Mister PiX
    Disallow: /
    
    User-agent: moget/2.1
    Disallow: /
    
    User-agent: moget
    Disallow: /
    
    User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
    Disallow: /
    
    User-agent: MSIECrawler
    Disallow: /
    
    User-agent: NetAnts
    Disallow: /
    
    User-agent: NICErsPRO
    Disallow: /
    
    User-agent: Offline Explorer
    Disallow: /
    
    User-agent: Openbot
    Disallow: /
    
    User-agent: Openfind data gatherer
    Disallow: /
    
    User-agent: Openfind
    Disallow: /
    
    User-agent: Oracle Ultra Search
    Disallow: /
    
    User-agent: PerMan
    Disallow: /
    
    User-agent: ProPowerBot/2.14
    Disallow: /
    
    User-agent: ProWebWalker
    Disallow: /
    
    User-agent: psbot
    Disallow: /
    
    User-agent: Python-urllib
    Disallow: /
    
    User-agent: QueryN Metasearch
    Disallow: /
    
    User-agent: Radiation Retriever 1.1
    Disallow: /
    
    User-agent: RepoMonkey Bait & Tackle/v1.01
    Disallow: /
    
    User-agent: RepoMonkey
    Disallow: /
    
    User-agent: RMA
    Disallow: /
    
    User-agent: searchpreview
    Disallow: /
    
    User-agent: SiteSnagger
    Disallow: /
    
    User-agent: SpankBot
    Disallow: /
    
    User-agent: spanner
    Disallow: /
    
    User-agent: suzuran
    Disallow: /
    
    User-agent: Szukacz/1.4
    Disallow: /
    
    User-agent: Teleport
    Disallow: /
    
    User-agent: TeleportPro
    Disallow: /
    
    User-agent: Telesoft
    Disallow: /
    
    User-agent: The Intraformant
    Disallow: /
    
    User-agent: TheNomad
    Disallow: /
    
    User-agent: TightTwatBot
    Disallow: /
    
    User-agent: toCrawl/UrlDispatcher
    Disallow: /
    
    User-agent: True_Robot/1.0
    Disallow: /
    
    User-agent: True_Robot
    Disallow: /
    
    User-agent: turingos
    Disallow: /
    
    User-agent: TurnitinBot/1.5
    Disallow: /
    
    User-agent: TurnitinBot
    Disallow: /
    
    User-agent: URL Control
    Disallow: /
    
    User-agent: URL_Spider_Pro
    Disallow: /
    
    User-agent: URLy Warning
    Disallow: /
    
    User-agent: VCI WebViewer VCI WebViewer Win32
    Disallow: /
    
    User-agent: VCI
    Disallow: /
    
    User-agent: Web Image Collector
    Disallow: /
    
    User-agent: WebAuto
    Disallow: /
    
    User-agent: WebBandit/3.50
    Disallow: /
    
    User-agent: WebBandit
    Disallow: /
    
    User-agent: WebCapture 2.0
    Disallow: /
    
    User-agent: WebCopier v.2.2
    Disallow: /
    
    User-agent: WebCopier v3.2a
    Disallow: /
    
    User-agent: WebCopier
    Disallow: /
    
    User-agent: WebEnhancer
    Disallow: /
    
    User-agent: WebSauger
    Disallow: /
    
    User-agent: Website Quester
    Disallow: /
    
    User-agent: Webster Pro
    Disallow: /
    
    User-agent: WebStripper
    Disallow: /
    
    User-agent: WebZip/4.0
    Disallow: /
    
    User-agent: WebZIP/4.21
    Disallow: /
    
    User-agent: WebZIP/5.0
    Disallow: /
    
    User-agent: WebZip
    Disallow: /
    
    User-agent: Wget/1.5.3
    Disallow: /
    
    User-agent: Wget/1.6
    Disallow: /
    
    User-agent: Wget
    Disallow: /
    
    User-agent: wget
    Disallow: /
    
    User-agent: WWW-Collector-E
    Disallow: /
    
    User-agent: Xenu's Link Sleuth 1.1c
    Disallow: /
    
    User-agent: Xenu's
    Disallow: /
    
    User-agent: Zeus 32297 Webster Pro V2.9 Win32
    Disallow: /
    
    User-agent: Zeus Link Scout
    Disallow: /
    
    User-agent: Zeus
    Disallow: /

    Mais ce qui m'étonne c'est que j'ai écris à Ecosia pour savoir si dans le robots.txt il y avait un truc particulier à mettre (vu que j'autorise Bing et qu'ils sont sur Bing) qui m'a répondu ceci :

    "Tous les résultats et les publicités sont fournis par notre partenaire de recherche Bing. Nous vous suggérons donc de prendre contact avec le support publicitaire de Bing pour démarrer votre campagne publicitaire !

    En général, une fois que votre site Web est publié, le robot d'exploration Web de Bing devrait l'indexer automatiquement dans un court laps de temps. Vous ou votre administrateur système pouvez également en savoir plus ici sur les recommandations de Bing en matière d'optimisation des moteurs de recherche (SEO).

    Nous espérons avoir pu vous aider et n'hésitez pas à nous faire savoir si vous avez d'autres questions à ce sujet.



    Autrement dit ça viendrait de Bing. Et c'est vrai, sur Bing j'ai rien aussi.

    Cela voudrait-il dire. que Bing prend en compte l'interdiction générale ? Alors que je lui est clairement autorisé à indexer ?

    Seul problème, le script correspond très bien à celui-ci sur le site officiel du robots.txt :
    http://robots-txt.com/ressources/robots-txt-bing/

    A savoir d'abord une autorisation Bing et ensuite une interdiction générale (ce que j'ai fait)

    On pourrait donc se dire que c'est just eu un mauvais classement. Mais sur des recherches de longue traîne ou je suis dans les 7 premiers sur Google je suis même pas dans les 7 premières pages sur Bing !!!!

    Y a un soucis je pense.


    Je remarque cependant qu'ils autorisent MSN en même temps comme si c'était un duo, chose que je n'ai pas faite car pour moi MSN, franchement, c'est comme autoriser Lycos ;°) , c'est retour vers le futur

    Je suis preneur de toutes infos les ami.es

    Cordialement
     
    #1 nantesweb, 4 Décembre 2021
    Dernière édition: 4 Décembre 2021
  2. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 825
    J'aime reçus:
    832
    ça n'a pas l'air d'être un site officiel

    mais ça donne quoi dans Bing Webmaster Tools ? c'est là-bas qu'il faut tester
     
    Lionel Belarbi apprécie ceci.
  3. Chronotest
    Chronotest Nouveau WRInaute
    Inscrit:
    19 Juillet 2012
    Messages:
    46
    J'aime reçus:
    0
    Il est funny ce moteur de recherche, je vois de plus en plus de visites sur mon site qui viennent de là. Et en effet ton robots.txt est la source du bug, côté Bing étant donné que :

    Ecosia's search results and search ads are powered by Microsoft Bing. We use Bing's search technology, enhanced with Ecosia's own algorithms.
    Fais un reset des user-agent dessus et avance sur un test & learn pour voir lequel est à l'origine du blocage.
     
  4. emualliug
    emualliug WRInaute impliqué
    Inscrit:
    1 Février 2020
    Messages:
    500
    J'aime reçus:
    120
    Je vais le dire quand même, c'est inutile et contre-productif.

    Et il est non seulement "très strict", mais de façon excessive avec beaucoup de redondance ce qui en complique la lecture, la compréhension, et la maintenance (492 lignes, sérieusement…).

    Ça ne serait pas incongru.

    Lignes 53 à 68 (pour bingbot) et 70 à 85 (pour bingbot-mobile) tu interdis spécifiquement plusieurs chemins d'accès à Bing. Notons qu'il n'y a pas de directive "Allow" (certes non stardard, mais interprétée par Bing).

    Puis, lignes 104-105 tu interdis tout les chemins d'accès à tous les user-agent.

    Google indique dans sa documentation que, lorsqu'un de ses crawler a une section spécifique, il ignore les sections non spécifiques (i.e. "User-agent: *").

    Google considère que "*" cible tous les autres user-agents que ceux ayant une section spécifique. Mais on peut également interpréter "User-agent: *" comme siblant tous les user-agents ; est-ce l'interprétation de Bing ? c'est possible.

    À noter que, suivant le draft initial, l'interprétation de "User-agent: *" est celle qu'en fait Google :

    Pour sa part, Bing écrit
     
  5. nantesweb
    nantesweb WRInaute discret
    Inscrit:
    18 Octobre 2016
    Messages:
    154
    J'aime reçus:
    18
    Wow,

    @Chronostest
    @emualliug

    Merci pour ces réponses instructives.

    @admin : j'ai cru, en attendant c'est un site de références pour les fichiers robots.txt. humans.txt, ads.txt...

    Je vais faire des tests sur un autre site. Certes c'est restrictif mais ça a été très efficace sur le spam et la multiplication de citation et de liens sur des plateformes et moteurs complètement pourris... le htaccess n'est pas mal non plus au niveau filtre.

    Je vais donc essayer de rajouter déjà un Allow (et c'est marrant j'en avais eu l'intuition à propos de Bing mais je l'ai pas fait).

    Les moteurs rajoutés ce sont des moteurs pourris mais qui prennent en compte ces directives, tout en ignorant volontairement souvent le user-agent / disallow / * donc comme j'ai pas le temps de les tester ou de les trier j'ai mis les deux, l'interdiction générale + les moteurs et robots "pourris"

    Je vais faire quand même des essais avec / sans sur trois de mes sites.

    Je reviendrais faire un petit bilan.

    Merci encore.
     
  6. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 825
    J'aime reçus:
    832
    déjà, tu pourrais regrouper tous les robots que tu bloques entièrement (comme je le fais dans mon robots.txt). le fichier serait bien plus facile à lire et à maintenir.

    concernant Bing, pourquoi ne testes-tu pas dans Bing Webmaster Tools ?
     
  7. nantesweb
    nantesweb WRInaute discret
    Inscrit:
    18 Octobre 2016
    Messages:
    154
    J'aime reçus:
    18
    Oui, ça fait un bout de temps que j'y ai pas mis les pieds ! Faut déjà que je retrouve mes accès :p

    Pour le regroupement, instinctivement je me suis dit que les développeurs de nombreux robots spammeurs n'ont intégré que la directive qui leur est propre.

    J'avais peur qu'une mise en page trop complexe ne soit pas lu.

    Non je déconne je savais pas qu'on pouvais le faire comme ça, mais ça n'empêche je reste sur ma position, ça me paraît trop élaboré pour certains moteurs, je suis sûr que certains ne prennent pas en compte si c'est écrit comme ça.

    Faut dire que beaucoup sont clairement de mauvaise volonté.

    Archive.org par exemple, malgré la mise en place de LEUR script ils se moquaient éperdument du robots.txt... et pourtant c'est pas les pires...
     
    #7 nantesweb, 7 Décembre 2021
    Dernière édition: 7 Décembre 2021
  8. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 825
    J'aime reçus:
    832
    bon ok, mais tu ne nous incites pas vraiment à t'aider davantage : tu ne veux rien changer
    ce qui compte c'est que Google et Bing te crawlent, non ?
     
  9. nantesweb
    nantesweb WRInaute discret
    Inscrit:
    18 Octobre 2016
    Messages:
    154
    J'aime reçus:
    18
    Si. comme je l'ai dit je vais faire des tests sur d'autres de mes sites en supprimant certaines directives pour voir si ça débloque.

    Donc merci pour les conseils des intervenants, ça m'a fait avancer sur le sujet.

    Pour moi oui, sincèrement en dehors de Bing et Google je vois pas l'intérêt d'autoriser qui que ce soit, en France du moins (99% de la recherche)
     
  10. nantesweb
    nantesweb WRInaute discret
    Inscrit:
    18 Octobre 2016
    Messages:
    154
    J'aime reçus:
    18
    Ok je fais un petit UP pour faire un petit retour.

    Il s'avère que sur mes sites j'ai fait un copier-coller dans le Htaccess de listes de nombreux "bad bot" partagé par des communautés de développeur.

    J'ai eu une grosse surprise il y a 10 jours quand je me suis rendu compte que certains outils d'analyse très utilisés étaient bloquées...

    Du coup j'ai fait une petite recherche sur ces scripts de 1km de long et voilà ce que j'ai trouvé :
    # Start Bad Bot Prevention - 1590 bots
    SetEnvIfNoCase User-Agent ^bingbot bad_bot

    :D

    Forcément ça marche moins bien sur Ecosia si on bloque Bing :p dés l'entrée !

    Ca tombait bien je retrouvais plus mes accès sur Bing Webmaster Tools où j'étais enregistré pour les sites en question.

    Merci pour vos réponses, je pense que ça va se débloquer j'ai hâte. J'en avais marre de pas avoir mes sites d'autant que Ecosia est mon moteur de recherche par défaut depuis 2 ans ! Je supporte plus d'en sortir autant que je ne supportais pas avant les autres quand j'étais sur Google.

    Les habitudes sont quand même assez incroyable chez l'être humain... J'ai aujourd'hui une parfaite confiance dans les résultats qui me sont donnés et ne cherche que très rarement à essayer sur Google pour voir si jamais (Startpage en l'occurence).

    Quand je vois que même Ebay à lâché Recaptcha Google pour passer à Hcaptcha que j'ai fait intégré sur mes formulaires, on sent un certain vent de "fronde" se lever même s'il faudra du temps pour avoir une vraie concurrence...
     
    #10 nantesweb, 26 Janvier 2022
    Dernière édition: 26 Janvier 2022
Chargement...
Similar Threads - Ecosia problème indexation Forum Date
Ecosia le moteur à croissance exponentielle Autres moteurs de recherche connus 3 Juillet 2018
Moteur de recherche : Ecosia.org Débuter en référencement 29 Mai 2017
Ecosia, le moteur de recherche qui plante des arbres, en français ! Annuaires et moteurs 15 Octobre 2013
Microsoft Ecosia : moteur de recherche écologique en partenariat avec Bing et Yahoo Le café de WebRankInfo 25 Juin 2010
Gros problème sur la profondeur de mes pages Problèmes de référencement spécifiques à vos sites Vendredi à 09:06
Problème de htaccess chez Ionos URL Rewriting et .htaccess 12 Septembre 2022
Problème sur jquery avec fonction asynchrone Développement d'un site Web ou d'une appli mobile 6 Septembre 2022
Problème de crawl et d'indexation Crawl et indexation Google, sitemaps 1 Septembre 2022
WordPress Problème affichage style avec Elementor (titre, bordures, separateur) Administration d'un site Web 8 Août 2022
Problème d'indexation de backlinks Débuter en référencement 24 Juillet 2022
Problème d'indexation de backlinks Problèmes de référencement spécifiques à vos sites 21 Juillet 2022
Probleme de visibilité de ma page Facebook Facebook 5 Juillet 2022
problème avec le développeur Droit du web (juridique, fiscalité...) 22 Juin 2022
Problème désindexation des pages de Google Débuter en référencement 21 Juin 2022
Problème d'indexation de pages sur Google Problèmes de référencement spécifiques à vos sites 31 Mai 2022
problème de redirection non souhaitée Administration d'un site Web 28 Avril 2022
Problème d'indexation Produits Prestashop Crawl et indexation Google, sitemaps 28 Avril 2022
Problème d'affichage des campagnes Google Ads dans un tableau de bord Data Studio AdWords 26 Avril 2022
Problème de vitesse d'affichage des pages sur Analytics Google Analytics 26 Avril 2022
Problème : Google Crawl et Index des pages en No Index et bloqué par le robot.txt Crawl et indexation Google, sitemaps 26 Avril 2022