Ignoré par crawlers

A
Anonymous
Guest
Notre site larkconsultants.com existe depuis onze mois. Il est constamment visité par les crawlers mais aucun moteur de recherche n'a pas indexé les pages du site. Au début, une personne expérimentée a attirée mon attention au fait que le site utilise frames et que la page qui déclare les frames n'a pas de liens explicites vers les pages affichées aux visiteurs; les crawlers s'arrêtent sur la page déclarant les frames. Il y a plus que six mois, j'ai corrigé cela mais, nonobstant des fréquentes visites de crawlers, le site demeure absent des moteurs de recherche.

La visibilité de notre site n'est pas vitale pour nous, mais j'aimerais au moins comprendre le phénomène.

J'ai pensé que la présence dans ODP pourrait influencer les crawlers pour qu'ils lisent le site entièrement et qu'ils indexent les pages.

Jacek
 
A
Anonymous
Guest
L'ip de ton serveur ou le nom de domaine est peu etre blacklisté par les moteur!
 
A
Anonymous
Guest
Il faudrait oublier les espaces dans les chemins d'accès, peut être...
 
A
Anonymous
Guest
Seb,

>>L'ip de ton serveur ou le nom de domaine est peu etre blacklisté par les moteur!<<
Je ne le pense pas.

Jacek
 
A
Anonymous
Guest
Anonymous a dit:
Il faudrait oublier les espaces dans les chemins d'accès, peut être...

Cette approche j'ai apprit auprès des "gourous" de ranking.
De toute façon, Unix accepte ces genre de chemins.

Jacek
 
A
Anonymous
Guest
deblok a dit:
Cela pose vraiement proiblème les espaces dans les url ?
En adressant ma question à ce forum, j'avais l'espoir d'obtenir une indication basée sur la connaissance des règles selon lesquelles les crawlers, par exemple de Google, travaillent.

Les blancs dans URL doivent être admit par les crawlers de Google ou non. Mais la réponse définitive doit exister.

Bien entendu, je ne tiens pas de rigueur à personne de ne pas connaître la réponse. Néanmoins, je la cherche toujours.

Connaissez-vous un autre endroit où je pourrais me renseigner ?
Les règles exigées par les crawlers de Google, sont-ils connues et consultables ?

Jacek
 
A
Anonymous
Guest
URI et URL


Syntaxe d&#8217;une URL suivant le protocole http

http://<serveur>:<port>/<chemin ou fichier>

:<port> est optionnel

/ est requis

<chemin ou fichier> est optionnel


Ex: http://www.ibm.com:80/index.html





URI et URL


Caractères réservés

";" | "/" | "?" | ":" | "@" | "&" | "=" | "+" | "$" | ","


Caractères non réservés

Alphanumérique et "-" | "_" | "." | "!" | "~" | "*" | "'" | "(" | ")"


Caractères exclus

Espace vide et "<" | ">" | "#" | "%" | <"> "{" | "}" | "|" | "\" | "^" | "[" | "]" | "`"



Pas étonnant que ca pose pb aux robots ...
 
A
Anonymous
Guest
voila pour ceux qui veulent l'original :

vont sur google et demande :

w3c "syntaxe d'une url"
 
A
Anonymous
Guest
Caractères réservés
";" | "/" | "?" | ":" | "@" | "&" | "=" | "+" | "$" | ","

Caractères non réservés
Alphanumérique et "-" | "_" | "." | "!" | "~" | "*" | "'" | "(" | ")"

Caractères exclus
Espace vide et "<" | ">" | "#" | "%" | <"> "{" | "}" | "|" | "\" | "^" | "[" | "]" | "`"

Merci beaucoup,
C'est très convaincant :wink: .
Je viens de remplacer mes virgules et blanc par underscore.

Jacek
 
WRInaute occasionnel
Nouveau WRInaute
Bonjour

d'une part pour répondre à propos des espaces :

Aucun espaces , aucun accents (Netscape par exemple les lis pas ou très mal, à part NS6)
dans les nom de fichiers et dans les répertoires

d'autre part :
j'ai l'impression qu'il y a des entrée de texte qui coupe les lignes

<title>Lark : logiciels de gestion</title>
<meta name="keywords" lang="fr" content="
&eacute;diteur de logiciels de gestion d'entreprise
logiciels de gestion d'immobilisations
logiciels de gestion d'amortissements
logiciels de gestion commerciale
logiciels de gestion du stock
soci&eacute;t&eacute;s de services informatiques
soci&eacute;t&eacute;s d'ing&eacute;nierie informatique
">

preuve est faite
par exemple dans www.actiref.com

Titre (balise <Title>)
Lark : logiciels de gestion

OK - Longueur : 27 caractères (maximum 100 caractères)


Meta name Keywords
- Non trouvé -

Attention : votre page ne contient pas de mots-clés. Elle risque d'être mal référencé par les moteurs de recherche.

Meta name Description
- Non trouvé -

Attention : votre page ne contient aucune description. Elle risque d'être mal référencé par les moteurs de recherche.


voila déjà quelques infos qui j'espère vous vous aider

@+
Stephane
 
A
Anonymous
Guest
j'ai l'impression qu'il y a des entrée de texte qui coupe les lignes
....
preuve est faite
par exemple dans www.actiref.com

Bonjour Stephane,

Merci pour cette réponse et le pointer vers actiref.com.

1. Apparemment le titre, même avec des accents, est reconnu.

2. Manque de keywords et descriptions est du toujours au META multi-ligne.
Pour keywords, pas de mal car on dit (e.g. Google) que personne ne les utilise plus.
Pour descriptions, je vais m'en occuper quand le site deviendra visible chez Google, même sans descriptions.

Merci encore une fois,
Jacek
 
WRInaute occasionnel
WebRankInfo a dit:
il ne te reste plus qu'à ajouter une extension et à supprimer les accents :?

directory.google.com/Top/World/Français/Régional/ France/Régions/Ile_de_France/Seine-et-Marne/

Les accents ne semblent pas effrayer Google plus que cela !

Quel est l'intérêt d'une extention dans le cas d'un URL Rewriting (réponse argumentée si possible, pas "c'est mieux") ?
 
Olivier Duffez (admin)
Membre du personnel
l'exemple que tu donnes n'est pas terrible car j'ai déjà souvent eu des pb avec les URL de DMOZ de la catégorie World>Français (à cause du C cédille)

par exemple fais la manip suivante :
tu vas sur la catégorie http://directory.google.com/Top/World/F ... _de_sites/
grâce à cette écriture de l'URL tu ne devrais pas avoir de pb.

ensuite clique sur la catégorie "Gratuit".
tu te retrouves donc sur http://directory.google.com/Top/World/F ... e/Gratuit/

maintenant tu cliques sur "Page précédente" dans ton navigateur.
Moi avec IE6 j'ai une erreur car Google ne retrouve pas la page http://directory.google.com/Top/World/Français/Informatique/Internet/Service/Gratuit/Création_de_sites/Référencement/


Ensuite pour ta 2eme question, je te dirais que c'est bcp mieux ! :D
+ sérieusement, pourquoi compliquer la vie des pauvres crawlers ou internautes qui ne savent pas quel type de page va s'afficher (page ou répertoire ???) ?

l'informatique a quelques règles et le mieux est souvent de s'y conformer. Pas la peine de mettre des accents et des caractères spéciaux dans tes URLs, ça complique tout.
 
WRInaute occasionnel
J'ai testé les pages directory de Google dans tous les sens, bouton précédent, liens, etc... et je ne rencontre aucun soucis avec les caractères accentués et autres ç. Tests réalisés sous IE6 et NS 6.2.2...

+ sérieusement, pourquoi compliquer la vie des pauvres crawlers ou internautes qui ne savent pas quel type de page va s'afficher (page ou répertoire ???) ?

Les Internautes se posent pas la question ! Ils cliquent sur les liens...
Pour les Crawlers, je ne vois pas concrètement ce que cela peut leur poser comme problème, mais pour la forme, je vais ajouter un .htm :)
 
Olivier Duffez (admin)
Membre du personnel
absoluteweb a dit:
Les Internautes se posent pas la question ! Ils cliquent sur les liens...
Sauf quand ils doivent retenir une URL ou la taper à partir d'une version imprimée. Et là mieux vaut avoir quelques règles... C'est quand meme + simple de dire qu'il n'y a pas de caractère spécial, ni d'espace ou de majuscule (quoique...) !
 
WRInaute passionné
absoluteweb a dit:
Les Internautes se posent pas la question ! Ils cliquent sur les liens...

euh... pas tous !
J'aime bien savoir sur quoi je clique :roll:
et à la lecture des forums de création web, je ne suis pas la seule !
 
A
Anonymous
Guest
WebRankInfo a dit:
c'est vrai que des URL avec des vigules et des espaces, ce n'est pas terrible :
http://www.larkconsultants.com/Geronimo, logiciel de gestion d'immobilisations/lcGero_Main_1_Intro.htm
Je viens de consulter le web.log de notre site. Il semble que les crawlers de Google n'ont pas été chassés du site par les blancs dans URLs. Le web.log contient beaucoup de lignes comme
crawl1.googlebot.com - - [05/Nov/2002:19:33:28 +0100] "GET /Commao,%20logiciel%20de%20gestion%20commerciale/Decision/lcMercDecision_Main_Intro.htm HTTP/1.0" 200 12982 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"
qui demandent un URL avec les blancs, et qui se soldent, si je ne me trompe pas :?: , par une réponse dont le code est 200 (OK).
Mon interprétation, est-elle opportune ?

Jacek
 
A
Anonymous
Guest
Après le dernier Google dance, notre site http://www.larkconsultants.com, est apparu dans Google. En plus, pour la requête "logiciel gestion immobilisations" nous sommes an tête :D .

Ironie du sort, Google a utilisé nos anciens URLs, collectés par ses crawlers dans le passé, et que j'ai modifié le 25 novembre (voir mon poste plus haut). Bien entendu, après cette modification, nos pages indexées chez Google, n'étaient plus accessibles.
Hier, quand je me suis rendu compte de l'embrouille :x , j'ai vite retourné aux anciens URLs (avec les blanc et virgules). J'ai regrette :( ce retour aux URLs non conforme à W3C, mais après onze mois d'attente je ne pas de courage d'attendre (avec les URLs sans blancs) encore au moins (ou plus) pour être indexé par Google.

Merci pour votre intérêt et votre aide,
Jacek
 
A
Anonymous
Guest
il y a aussi que votre site n'as que 2 liens je pense

et google en tendance a oublier les sites qui n'ont pas de lien entrant
conseil, prenez 1 journée et passez votre temps a faire des inscriptions de petit annuaire gratuit
ne faite que ceux present dans google.
essayez d'avoir une 20aine de lien, ca aidera deja beaucoup
 
A
Anonymous
Guest
Avez vous une liste d'annuaires à me suggérer ?
Ce n'est pas une paraisse, croyez-moi.

Jacek
 
Discussions similaires
Haut