Ecosia : problème d'indexation

WRInaute discret
Bonjour,

Je reviens à la charge sur Ecosia. Pour la bonne raison que c'est mon moteur par défaut depuis 1 an et demi (j'ai du planter un paquet d'arbres :)) et que ça me gonfle de pas voir mes pages internes référencées alors qu'elles sont sur Google en première page !!!!

J'ai un robots.txt très strict. On va pas commencer à faire un débat sur si c'est bien ou pas bien, j'espère sincèrement que vous m'épargnerez ça. C'est un choix c'est tout.

Je fais remarquer pour ceux que ça intéresse que les lignes pour IA Archiver (à savoir Archives.org) est totalement inutile : ils les ignorent alors que ce sont pourtant leurs lignes préconisées ! Seul un travail de blocage dans le htaccess fonctionne, j'ai récupéré un script intéressant dans la communauté : ça bloque en fait leurs adresses IPs.

A SAVOIR. :
1- J'interdit tout le monde
2- J'interdit des moteurs spécifiques en plus d'interdire tout le monde
3- Une fois ce grand reset effectue j'autorise (avant à vrai dire dans les lignes de codes)

1- Google
2- Google Mobile
3- Bing
4- Bing mobile

et selon l'humeur : Yahoo et Qwant.

Bon voici le script

Code:
User-agent: ia_archiver
Disallow: /

User-agent: archive.org_bot
Disallow: /

User-agent: ia_archiver-web.archive.org
Disallow: /

User-agent: AdsBot-Google
Allow: /

User-agent: Mediapartners-Google
Allow: /

User-agent: Googlebot-Image
Disallow: /

User-agent: Googlebot
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-admin
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*.inc$
Disallow: /*.gz$
Disallow: /*.swf$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*?ver=all
Disallow: /*?url=all
Disallow: /*?s=all

User-agent: Googlebot-Mobile
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-admin
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*.inc$
Disallow: /*.gz$
Disallow: /*.swf$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*?ver=all
Disallow: /*?url=all
Disallow: /*?s=all

User-agent: bingbot
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-admin
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*.inc$
Disallow: /*.gz$
Disallow: /*.swf$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*?ver=all
Disallow: /*?url=all
Disallow: /*?s=all

User-agent: bingbot-mobile
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-admin
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*.inc$
Disallow: /*.gz$
Disallow: /*.swf$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*?ver=all
Disallow: /*?url=all
Disallow: /*?s=all

User-agent: MJ12bot
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-admin
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*.inc$
Disallow: /*.gz$
Disallow: /*.swf$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*?ver=all
Disallow: /*?url=all
Disallow: /*?s=all

User-agent: *
Disallow: /

User-agent: Alexibot
Disallow: /

User-agent: Aqua_Products
Disallow: /

User-agent: asterias
Disallow: /

User-agent: b2w/0.1
Disallow: /

User-agent: BackDoorBot/1.0
Disallow: /

User-agent: BlowFish/1.0
Disallow: /

User-agent: Bookmark search tool
Disallow: /

User-agent: BotALot
Disallow: /

User-agent: BotRightHere
Disallow: /

User-agent: BuiltBotTough
Disallow: /

User-agent: Bullseye/1.0
Disallow: /

User-agent: BunnySlippers
Disallow: /

User-agent: CheeseBot
Disallow: /

User-agent: CherryPicker
Disallow: /

User-agent: CherryPickerElite/1.0
Disallow: /

User-agent: CherryPickerSE/1.0
Disallow: /

User-agent: Copernic
Disallow: /

User-agent: CopyRightCheck
Disallow: /

User-agent: cosmos
Disallow: /

User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
Disallow: /

User-agent: Crescent
Disallow: /

User-agent: DittoSpyder
Disallow: /

User-agent: EmailCollector
Disallow: /

User-agent: EmailSiphon
Disallow: /

User-agent: EmailWolf
Disallow: /

User-agent: EroCrawler
Disallow: /

User-agent: ExtractorPro
Disallow: /

User-agent: FairAd Client
Disallow: /

User-agent: Flaming AttackBot
Disallow: /

User-agent: Foobot
Disallow: /

User-agent: Gaisbot
Disallow: /

User-agent: GetRight/4.2
Disallow: /

User-agent: Harvest/1.5
Disallow: /

User-agent: hloader
Disallow: /

User-agent: httplib
Disallow: /

User-agent: HTTrack 3.0
Disallow: /

User-agent: humanlinks
Disallow: /

User-agent: InfoNaviRobot
Disallow: /

User-agent: Iron33/1.0.2
Disallow: /

User-agent: JennyBot
Disallow: /

User-agent: Kenjin Spider
Disallow: /

User-agent: Keyword Density/0.9
Disallow: /

User-agent: larbin
Disallow: /

User-agent: LexiBot
Disallow: /

User-agent: libWeb/clsHTTP
Disallow: /

User-agent: LinkextractorPro
Disallow: /

User-agent: LinkScan/8.1a Unix
Disallow: /

User-agent: LinkWalker
Disallow: /

User-agent: LNSpiderguy
Disallow: /

User-agent: lwp-trivial/1.34
Disallow: /

User-agent: lwp-trivial
Disallow: /

User-agent: Mata Hari
Disallow: /

User-agent: Microsoft URL Control - 5.01.4511
Disallow: /

User-agent: Microsoft URL Control - 6.00.8169
Disallow: /

User-agent: Microsoft URL Control
Disallow: /

User-agent: MIIxpc/4.2
Disallow: /

User-agent: MIIxpc
Disallow: /

User-agent: Mister PiX
Disallow: /

User-agent: moget/2.1
Disallow: /

User-agent: moget
Disallow: /

User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
Disallow: /

User-agent: MSIECrawler
Disallow: /

User-agent: NetAnts
Disallow: /

User-agent: NICErsPRO
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: Openbot
Disallow: /

User-agent: Openfind data gatherer
Disallow: /

User-agent: Openfind
Disallow: /

User-agent: Oracle Ultra Search
Disallow: /

User-agent: PerMan
Disallow: /

User-agent: ProPowerBot/2.14
Disallow: /

User-agent: ProWebWalker
Disallow: /

User-agent: psbot
Disallow: /

User-agent: Python-urllib
Disallow: /

User-agent: QueryN Metasearch
Disallow: /

User-agent: Radiation Retriever 1.1
Disallow: /

User-agent: RepoMonkey Bait & Tackle/v1.01
Disallow: /

User-agent: RepoMonkey
Disallow: /

User-agent: RMA
Disallow: /

User-agent: searchpreview
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: SpankBot
Disallow: /

User-agent: spanner
Disallow: /

User-agent: suzuran
Disallow: /

User-agent: Szukacz/1.4
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: TeleportPro
Disallow: /

User-agent: Telesoft
Disallow: /

User-agent: The Intraformant
Disallow: /

User-agent: TheNomad
Disallow: /

User-agent: TightTwatBot
Disallow: /

User-agent: toCrawl/UrlDispatcher
Disallow: /

User-agent: True_Robot/1.0
Disallow: /

User-agent: True_Robot
Disallow: /

User-agent: turingos
Disallow: /

User-agent: TurnitinBot/1.5
Disallow: /

User-agent: TurnitinBot
Disallow: /

User-agent: URL Control
Disallow: /

User-agent: URL_Spider_Pro
Disallow: /

User-agent: URLy Warning
Disallow: /

User-agent: VCI WebViewer VCI WebViewer Win32
Disallow: /

User-agent: VCI
Disallow: /

User-agent: Web Image Collector
Disallow: /

User-agent: WebAuto
Disallow: /

User-agent: WebBandit/3.50
Disallow: /

User-agent: WebBandit
Disallow: /

User-agent: WebCapture 2.0
Disallow: /

User-agent: WebCopier v.2.2
Disallow: /

User-agent: WebCopier v3.2a
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: WebEnhancer
Disallow: /

User-agent: WebSauger
Disallow: /

User-agent: Website Quester
Disallow: /

User-agent: Webster Pro
Disallow: /

User-agent: WebStripper
Disallow: /

User-agent: WebZip/4.0
Disallow: /

User-agent: WebZIP/4.21
Disallow: /

User-agent: WebZIP/5.0
Disallow: /

User-agent: WebZip
Disallow: /

User-agent: Wget/1.5.3
Disallow: /

User-agent: Wget/1.6
Disallow: /

User-agent: Wget
Disallow: /

User-agent: wget
Disallow: /

User-agent: WWW-Collector-E
Disallow: /

User-agent: Xenu's Link Sleuth 1.1c
Disallow: /

User-agent: Xenu's
Disallow: /

User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /

User-agent: Zeus Link Scout
Disallow: /

User-agent: Zeus
Disallow: /


Mais ce qui m'étonne c'est que j'ai écris à Ecosia pour savoir si dans le robots.txt il y avait un truc particulier à mettre (vu que j'autorise Bing et qu'ils sont sur Bing) qui m'a répondu ceci :

"Tous les résultats et les publicités sont fournis par notre partenaire de recherche Bing. Nous vous suggérons donc de prendre contact avec le support publicitaire de Bing pour démarrer votre campagne publicitaire !

En général, une fois que votre site Web est publié, le robot d'exploration Web de Bing devrait l'indexer automatiquement dans un court laps de temps. Vous ou votre administrateur système pouvez également en savoir plus ici sur les recommandations de Bing en matière d'optimisation des moteurs de recherche (SEO).

Nous espérons avoir pu vous aider et n'hésitez pas à nous faire savoir si vous avez d'autres questions à ce sujet.



Autrement dit ça viendrait de Bing. Et c'est vrai, sur Bing j'ai rien aussi.

Cela voudrait-il dire. que Bing prend en compte l'interdiction générale ? Alors que je lui est clairement autorisé à indexer ?

Seul problème, le script correspond très bien à celui-ci sur le site officiel du robots.txt :
http://robots-txt.com/ressources/robots-txt-bing/

A savoir d'abord une autorisation Bing et ensuite une interdiction générale (ce que j'ai fait)

On pourrait donc se dire que c'est just eu un mauvais classement. Mais sur des recherches de longue traîne ou je suis dans les 7 premiers sur Google je suis même pas dans les 7 premières pages sur Bing !!!!

Y a un soucis je pense.


Je remarque cependant qu'ils autorisent MSN en même temps comme si c'était un duo, chose que je n'ai pas faite car pour moi MSN, franchement, c'est comme autoriser Lycos ;°) , c'est retour vers le futur

Je suis preneur de toutes infos les ami.es

Cordialement
 
Dernière édition:
Nouveau WRInaute
Il est funny ce moteur de recherche, je vois de plus en plus de visites sur mon site qui viennent de là. Et en effet ton robots.txt est la source du bug, côté Bing étant donné que :

Ecosia's search results and search ads are powered by Microsoft Bing. We use Bing's search technology, enhanced with Ecosia's own algorithms.
Fais un reset des user-agent dessus et avance sur un test & learn pour voir lequel est à l'origine du blocage.
 
WRInaute impliqué
J'ai un robots.txt très strict. On va pas commencer à faire un débat sur si c'est bien ou pas bien, j'espère sincèrement que vous m'épargnerez ça. C'est un choix c'est tout.

Je vais le dire quand même, c'est inutile et contre-productif.

Et il est non seulement "très strict", mais de façon excessive avec beaucoup de redondance ce qui en complique la lecture, la compréhension, et la maintenance (492 lignes, sérieusement…).

Cela voudrait-il dire. que Bing prend en compte l'interdiction générale ? Alors que je lui est clairement autorisé à indexer ?

Ça ne serait pas incongru.

Lignes 53 à 68 (pour bingbot) et 70 à 85 (pour bingbot-mobile) tu interdis spécifiquement plusieurs chemins d'accès à Bing. Notons qu'il n'y a pas de directive "Allow" (certes non stardard, mais interprétée par Bing).

Puis, lignes 104-105 tu interdis tout les chemins d'accès à tous les user-agent.

Google indique dans sa documentation que, lorsqu'un de ses crawler a une section spécifique, il ignore les sections non spécifiques (i.e. "User-agent: *").

Google considère que "*" cible tous les autres user-agents que ceux ayant une section spécifique. Mais on peut également interpréter "User-agent: *" comme siblant tous les user-agents ; est-ce l'interprétation de Bing ? c'est possible.

À noter que, suivant le draft initial, l'interprétation de "User-agent: *" est celle qu'en fait Google :

If the value is '*', the record describes the default access policy for any robot that has not matched any of the other records.

Pour sa part, Bing écrit
directives applicable to all bots by adding this line: User-agent: *
 
WRInaute discret
Wow,

@Chronostest
@emualliug

Merci pour ces réponses instructives.

@admin : j'ai cru, en attendant c'est un site de références pour les fichiers robots.txt. humans.txt, ads.txt...

Je vais faire des tests sur un autre site. Certes c'est restrictif mais ça a été très efficace sur le spam et la multiplication de citation et de liens sur des plateformes et moteurs complètement pourris... le htaccess n'est pas mal non plus au niveau filtre.

Je vais donc essayer de rajouter déjà un Allow (et c'est marrant j'en avais eu l'intuition à propos de Bing mais je l'ai pas fait).

Les moteurs rajoutés ce sont des moteurs pourris mais qui prennent en compte ces directives, tout en ignorant volontairement souvent le user-agent / disallow / * donc comme j'ai pas le temps de les tester ou de les trier j'ai mis les deux, l'interdiction générale + les moteurs et robots "pourris"

Je vais faire quand même des essais avec / sans sur trois de mes sites.

Je reviendrais faire un petit bilan.

Merci encore.
 
Olivier Duffez (admin)
Membre du personnel
déjà, tu pourrais regrouper tous les robots que tu bloques entièrement (comme je le fais dans mon robots.txt). le fichier serait bien plus facile à lire et à maintenir.

concernant Bing, pourquoi ne testes-tu pas dans Bing Webmaster Tools ?
 
WRInaute discret
Oui, ça fait un bout de temps que j'y ai pas mis les pieds ! Faut déjà que je retrouve mes accès :p

Pour le regroupement, instinctivement je me suis dit que les développeurs de nombreux robots spammeurs n'ont intégré que la directive qui leur est propre.

J'avais peur qu'une mise en page trop complexe ne soit pas lu.

Non je déconne je savais pas qu'on pouvais le faire comme ça, mais ça n'empêche je reste sur ma position, ça me paraît trop élaboré pour certains moteurs, je suis sûr que certains ne prennent pas en compte si c'est écrit comme ça.

Faut dire que beaucoup sont clairement de mauvaise volonté.

Archive.org par exemple, malgré la mise en place de LEUR script ils se moquaient éperdument du robots.txt... et pourtant c'est pas les pires...
 
Dernière édition:
Olivier Duffez (admin)
Membre du personnel
bon ok, mais tu ne nous incites pas vraiment à t'aider davantage : tu ne veux rien changer
ce qui compte c'est que Google et Bing te crawlent, non ?
 
WRInaute discret
Si. comme je l'ai dit je vais faire des tests sur d'autres de mes sites en supprimant certaines directives pour voir si ça débloque.

Donc merci pour les conseils des intervenants, ça m'a fait avancer sur le sujet.

Pour moi oui, sincèrement en dehors de Bing et Google je vois pas l'intérêt d'autoriser qui que ce soit, en France du moins (99% de la recherche)
 
WRInaute discret
Ok je fais un petit UP pour faire un petit retour.

Il s'avère que sur mes sites j'ai fait un copier-coller dans le Htaccess de listes de nombreux "bad bot" partagé par des communautés de développeur.

J'ai eu une grosse surprise il y a 10 jours quand je me suis rendu compte que certains outils d'analyse très utilisés étaient bloquées...

Du coup j'ai fait une petite recherche sur ces scripts de 1km de long et voilà ce que j'ai trouvé :
# Start Bad Bot Prevention - 1590 bots
SetEnvIfNoCase User-Agent ^bingbot bad_bot

:D

Forcément ça marche moins bien sur Ecosia si on bloque Bing :p dés l'entrée !

Ca tombait bien je retrouvais plus mes accès sur Bing Webmaster Tools où j'étais enregistré pour les sites en question.

Merci pour vos réponses, je pense que ça va se débloquer j'ai hâte. J'en avais marre de pas avoir mes sites d'autant que Ecosia est mon moteur de recherche par défaut depuis 2 ans ! Je supporte plus d'en sortir autant que je ne supportais pas avant les autres quand j'étais sur Google.

Les habitudes sont quand même assez incroyable chez l'être humain... J'ai aujourd'hui une parfaite confiance dans les résultats qui me sont donnés et ne cherche que très rarement à essayer sur Google pour voir si jamais (Startpage en l'occurence).

Quand je vois que même Ebay à lâché Recaptcha Google pour passer à Hcaptcha que j'ai fait intégré sur mes formulaires, on sent un certain vent de "fronde" se lever même s'il faudra du temps pour avoir une vraie concurrence...
 
Dernière édition:
Discussions similaires
Haut