Astuce qui permet d'être (enfin) visité par MSN-bot !

Nouveau WRInaute
Bonjour,

Depuis le début (environ 9 mois), MSN-bot visitait sur mon site uniquement :
- ma page d'accueil
- 2 pages secondaires, celles qui ont des liens entrants externes
Il passait sur ces pages environ tous les 15 jours.

Les 40 autres pages secondaires n'étaient jamais visitées et bien je crois avoir trouvé pourquoi (ou alors c'est une énorme coïncidence) : mes pages contenaient trop de tirets (-).
Je les ai toutes renommées afin que le nom n'ait qu'un seul tiret, et depuis cette date, MSN les parcourt régulièrement (environ tous les 2 jours).

Exemples :
journee-du-timbre-1954.php => journee-timbre.php
cartes-1er-jour.php => carte-1erjour.php

Autre petite astuce pour revenir au nom initial :
Après être passé au moins 1 fois sur "carte-1erjour.php" et l'avoir indexé, j'ai mis en place une redirection 301 vers le nom initial "carte-1er-jour.php".
MSNbot l'a bien pris en compte lors de son passage suivant et a visité la nouvelle page (c'était hier donc pas encore dans son index) !

Quelqu'un a -t-il fait des constats similaires ?

A+

Shantak
 
WRInaute discret
Très intérressant car en plus nous sommes en train de revoir notre site en rewriting et nous réflichissons donc sur les adresses.

A+
 
Olivier Duffez (admin)
Membre du personnel
Jean-Luc, as-tu trouvé d'autres contraintes d'indexation chez MSN ? J'ai l'impression qu'il n'aime vraiment pas les sites ayant des pages en profondeur dans le site. Penses-tu que le nombre de / compte ? Même si ce sont des répertoires virtuels ?
 
WRInaute accro
WebRankInfo,

Désolé, mais je n'ai pas d'info particulière concernant les "/" chez MSN.

Théophraste,

Pour nuancer les choses, je dirais ceci :

Sur de nombreux sites, la présence de suites de tirets empêche l'indexation par MSN. Toutefois, cela ne s'applique pas aux pages pour lesquelles le nombre et/ou la qualité des backlinks est assez important.

Plus concrètement, des pages qui ont un PR de 4 chez Google ne sont pas indexées par MSN à cause des tirets. Par contre, en faisant une sorte de "Google bombing", on obtient l'indexation, même avec une volée de tirets.

Jean-Luc
 
WRInaute impliqué
En regardant les pages indexées du site de mon profil par msn search, je crois pouvoir constater que les url avec plusieurs tirets bas (jusqu'à 3) passent, mais en effet, je crois constater que les url avec des tirets " - " coincent.
Je mets tout cela au conditionnel, c'est plus un resenti à l'exament des pages indexés par search qu'autre chose.
 
WRInaute passionné
Quel caractère peut remplacer le "-" mais sans parler de "/" qui génère des répertoires succéssif pour les moteurs.

JE me pose la question, car je souhaite pouvoir bénéficier des mots clés grâce au tiret.

J'avais pensé à la virgule ou au signe "+", voire un autre caractère, mais lequel ?
 
Nouveau WRInaute
MSN indèxe seulement une dizaine des pages de mon site alors que les autres moteurs les indèxent toutes depuis un an.
Il ne m'envoie que 5 visiteurs/jour car mes pages sont très mal placées.

J'ai essayé de comprendre pourquoi et puis j'ai fini par me faire à l'idée.

shantak a dit:
Les 40 autres pages secondaires n'étaient jamais visitées et bien je crois avoir trouvé pourquoi (ou alors c'est une énorme coïncidence) : mes pages contenaient trop de tirets (-).
Je les ai toutes renommées afin que le nom n'ait qu'un seul tiret, et depuis cette date, MSN les parcourt régulièrement (environ tous les 2 jours).
Cela me parait possible car toutes mes adresses possèdent au moins 3 -
Le problème c'est que mon ndd en comporte dèja 2.

A part faire des dossiers je vois pas comment faire. Quelqu'un aurait une idée ?
 
WRInaute passionné
Le problème avec les dossiers virtuel, c'est que Google peut les prendre pour de vrais dossiers ; donc de mal indexé en profondeur non ?

Pour reprendre mon idée de la virgule ou du "+". qu'en pensez-vous ?
 
WRInaute passionné
on peut essayer de mettre des . aussi pour voir ce que ca fait. je vais mettre une page de test en place une page de test avec des points pour voir comment réagisse les bots msn
 
WRInaute occasionnel
Moi qui ai refait récemment l'url rewriting de mon site en mettant des "-" ..j'hésite entre laisser tomber, me pendre, et prier pour que MSN Bot se fasse plus compréhensif 8O

8)
 
WRInaute passionné
Toutou-Fr a dit:
Moi qui ai refait récemment l'url rewriting de mon site en mettant des "-" ..j'hésite entre laisser tomber, me pendre, et prier pour que MSN Bot se fasse plus compréhensif 8O

8)
Je suis dans le meme cas que toi.
C'est bien embetant.

Si vous avez des solutions n'hesité pas.
 
WRInaute passionné
J'ai trouvé une solution pas trop contraignante pour pouvoir changer facilement le caractères qui me sert.

Je l'ai défini dans une constante.

Ainsi, si je veux le changer, je ne change que le contenu de la constante et le fichier .htaccess

ça permet de gagner beaucoup de temps et évite les recherches fastidieuse dans le code.

J'ai remplacé le "-" par une virgule.
 
Nouveau WRInaute
Moi qui ai refait récemment l'url rewriting de mon site en mettant des "-" ..j'hésite entre laisser tomber, me pendre, et prier pour que MSN Bot se fasse plus compréhensif Shocked

C'est toujours comme ça avec les produits / services M*cr*s*ft ! Si tu espère qu'un jour MSN Bot se fasse plus compréhensif tu peux te faire moine et prier toute ta vie, d'ailleur si tu remplace tes '-' par des ',' tu paus être sur que dans trous mois ça pausera aussi des problèmes et un jour il restera plus que les '\\\' mais là se sera emmerdant parceque incompatible avec W*nd*ws...

Ne te pend pas se serait dommage.

Par élimination il ne te reste plus qu'a laisser tomber :) pour une fois tu peux te le permettre car sur les moteurs de recherche *crosoft est loin d'être un leader.
 
Nouveau WRInaute
RFC 3986 URI Generic Syntax January 2005


reserved = gen-delims / sub-delims

gen-delims = ":" / "/" / "?" / "#" / "[" / "]" / "@"

sub-delims = "!" / "$" / "&" / "'" / "(" / ")"
/ "*" / "+" / "," / ";" / "="

The purpose of reserved characters is to provide a set of delimiting
characters that are distinguishable from other data within a URI.
URIs that differ in the replacement of a reserved character with its
corresponding percent-encoded octet are not equivalent. Percent-
encoding a reserved character, or decoding a percent-encoded octet
that corresponds to a reserved character, will change how the URI is
interpreted by most applications. Thus, characters in the reserved
set are protected from normalization and are therefore safe to be
used by scheme-specific and producer-specific algorithms for
delimiting data subcomponents within a URI.

A subset of the reserved characters (gen-delims) is used as
delimiters of the generic URI components described in Section 3. A
component's ABNF syntax rule will not use the reserved or gen-delims
rule names directly; instead, each syntax rule lists the characters
allowed within that component (i.e., not delimiting it), and any of
those characters that are also in the reserved set are "reserved" for
use as subcomponent delimiters within the component. Only the most
common subcomponents are defined by this specification; other
subcomponents may be defined by a URI scheme's specification, or by
the implementation-specific syntax of a URI's dereferencing
algorithm, provided that such subcomponents are delimited by
characters in the reserved set allowed within that component.

URI producing applications should percent-encode data octets that
correspond to characters in the reserved set unless these characters
are specifically allowed by the URI scheme to represent data in that
component. If a reserved character is found in a URI component and
no delimiting role is known for that character, then it must be
interpreted as representing the data octet corresponding to that
character's encoding in US-ASCII.

2.3. Unreserved Characters

Characters that are allowed in a URI but do not have a reserved
purpose are called unreserved. These include uppercase and lowercase
letters, decimal digits, hyphen, period, underscore, and tilde.

unreserved = ALPHA / DIGIT / "-" / "." / "_" / "~"

Visiblement l'utilisation de la "," n'est pas conseillée... il vaut mieux rester dans les "Unreserved Characters".

J'ai trouvé une solution pas trop contraignante pour pouvoir changer facilement le caractères qui me sert.
Ca tombe bien ;)
 
Nouveau WRInaute
Mouais et donc bref entre la virgule, le point et le plus, mon coeur balance...

Toujours pas de tests clairs sur le sujet ?
 
WRInaute impliqué
Je confirme aussi: je ne suis pas regulierement msn, mais il a litteralement jete toutes les pages avec des tirets dans le nom de fichier pour plusieurs de mes sites qui etaient il y a peu en tete des resultats 8O

C'est un phenomene recent donc. Reste a savoir si c'est temporaire ou...

Cela fait deja un petit moment que cela me trotte dans la tete: quoi de plus simple pour detecter un site construit de facon non naturelle que de regarder comment sont nommes les fichiers d'une url ? Pourquoi cela n'est-il pas gere par les moteurs ?

A la main, pour une page traitant des fontaines remarquables de paris, on metterai fontaine-paris.html ou fontaineparis.html. avec nos (mauvaises ?) habitudes, nos scripts prennet le titre brut de fonderie et nomment cette page les-fontaines-remarquables-de-paris.html
Bref: des nots non significatifs (les, de) et une palanquee de tirets (4)

Il serait logique qu'un filtre sur ces criteres se generalise, je le crain deja depuis quelques mois :?
 
WRInaute impliqué
jobetudiant a dit:
Je confirme que Google n'aime pas les tirets! J'en avais parlé il y a quelques mois ici et sur mon blog...
Lors d'une mise a jour de ma re-ecriture d'url, j'avais note une tres legere baisse d'indexation de google. Mais comme cela etait presque insignifiant, j'avais mis ca sur le compte des quintes de toux des data centers :)

Par contre, je n'irait pas jusqu'a dire qu'il faut les remplacer par des virgules, + ou autres choses. A mon avis cela doit etre volontaire (filtre) et le reste devrait logiquement suivre.

Je pencherai plus pour une construction intelligente des url (1, 2 ou 3 mots significatifs seulenent).

Je suis deja en train de corriger mes modules de reecriture. de toutes facons, cela m'agacait de voire sur certains de mes sites des-url-de-3-kilometres-de-long :)
 
WRInaute accro
Nouveau WRInaute
Salut à tous

ces interprétations envers les MSN Bots sont intéressantes sur plusieurs points

par expérience je développe plutot de l'url rewriting avec des _ plutot que des - et malgrès ce, on peut toujours constater que les MSN Bots sont moins goulus que les google Bots ou autres

Mais par comparaison, j'ai développé un script permettant de suivre les bots, pensé sur l'idée de robots stats, mais avec comparsions des pages indexées par les robots

là ou le sujet me laisse un peu pensif c'est que autant google, que biglotron ou msn vont sur des pages de type
www.nukescripts.fr/phpnuke-nukescripts-downloads.html

et aussi bien sur des pages de type:
www.nukescripts.fr/nukescriptsdl-phpnuk ... s-814.html

sur l'une on peut constater 2 - et sur l'autre 3 , mais dans tous les cas, les MSN Bots sont bien passés et repasse régulièrement sur les 2 urls

Maintenant il est clair que les MSN Bots sont moins virulants que les autres

à l'instant T voici les stats pour ce même site:
Google Bots 4539
Biglotron 1930
Yahoo Bots 1484

et
MSN Bots 121

Les MSN bots sont sur tous mes sites toujours à la traine, jai tester en ne mettant que des _

puis que des -
puis en accolant tous les mots sans rien entre eux
et ceci sans succès pour les MSN Bots, rien ni fait plus

Mais à la lecture de ce post certains semblent convaincu que des _ seraient mieux que des -

C'est une information qui a toute sont importance mais peut être faut il regarder ailleurs

Par exemple, je me suis aperçu que depuis que j'ai certaines pages valides W3C, les robots semblent ( tous ) y revenir plus souvent

Alors êtes vous en HTML4, XHTML strict ou non valide

perso ce site a des pages valides html4, mais j'ai un autre site en XHTML Strict avec des URL Signifiantes ( toutes avec des _ et le résultat est toujours le même )

Reste une chose à penser, faut il s'inquiéter des MSN Bots :)
perso je n'en fais pas cas, je préfère travailler sur les passages des google bots qui ont certainement un meilleur retour ( surtout à la vue des stats d'entrée via ce moteur de recherche )
 
WRInaute occasionnel
Pour mon experience selon Xiti, Yahoo augmente depuis 3 jours (+999%) de trafic. En passant de _ au - dans mes pages rewritees. Par contre j'ai baisse avec MSN
 
Nouveau WRInaute
Bonsoir,

C'est quand même incroyable cette histoire de "-" en 2006 !

Il faudrait presque faire partir une pétition... le pire c'est que aussi dans leur intérêt...

WP
 
Nouveau WRInaute
WebP a dit:
Bonsoir,

C'est quand même incroyable cette histoire de "-" en 2006 !

Il faudrait presque faire partir une pétition... le pire c'est que aussi dans leur intérêt...

WP

re :)

je ne demande qu'à que croire ce que je peux lire à droite et à gauche, ( et ainsi en faire bénéficier les différentes communautés auxquelles je me rattache ) d'ailleurs pour tester j'ai passer un premier site en _ uniquement afin d'en avoir le coeur net :)

L'expérience personnelle, après conseil des autres, est souvent le meilleur moyen de s'en persuader :)

De plus je pense que l'anonymat d'internet ne permet à personne de prendre les autres pour ce qu'il ne sont pas ...
 
WRInaute discret
alors comme exemple.. msn n'aime pas l'info path de doctclear... ???


ça expliquerais lénorme contraste entre google et msn sur mon blog dotclear

Je ne sais pas comment faire pour être mieux indexé sur msn?!?!
 
WRInaute impliqué
moi j'ai tenté les , sur mon nouveau site. Mon ancienne façon de faire employait toujours les _. En fait j'ignore si c'est vraiment très pénalisant dans google, mais toujours est-il que ça ne fait pas broncher MSN contrairement au tirer...

J'ignore si c'est une façon marketing de faire chier tout le monde, bientôt on apprendra que Yahoo déteste les points, Ask! les / et etc :p

Mais c'est vrai que les MSN bots n'ont pas trop tendance à aller bien en profondeur (Malgré qu'ils puisse visiter régulièrement et bouffer une tonne de bande passante!)
 
WRInaute accro
Bonjour,
Je vous trouve bien méticuleux dans vos topics!!!
Je trouve trés bien le fait que les moteurs aient une lecture différente des sites. En effet, cela permet de les filtrer et d'assurer un traffic plus ou moins bon en fonction du moteur convoité et laisser sa chance à chacun!
Si MSN n'aime pas les tirets..........ouais ok!
GG..........oui, trés bien et Yahoo pas d'autres caractères!
Bref, ne cherchez pas forcément la perfection car on tombe dans l'extrème et je ne vous apprendrez pas que l'extrème peut être tout bon ou tout mauvais!!! ou faut faire son choix!

Alors moi, j'ai opté pour des pages générées par un seul mot (mot-clé représentant ma page dite) et tous les moteurs aussi bien....Google, Yahoo, msn etc.....ont tous crawlé mes pages en profondeur et les indexes correctement et régulièrement. :D
Et si je perds en pertinence car mes pages sont générées par un seul mot-clé..je me rattrape sur les balises (title, alt, méta, texte etc...) et elles restent tout de même ciblées sur ma thématique et m'amène du traffic tout aussi bien :D
 
WRInaute accro
Je n'ai plus de tirets dans mes urls depuis bien longtemps mais rien n'y fait.

Décidement entre microsoft et moi l'amour c'est réciproque :D
 
Discussions similaires
Haut