Liste de mots "vides" français pour les moteurs de

WRInaute occasionnel
[edit]... recherche (pkoi le forum a coupé le titre que j'avais réussi à taper en entier ???)[/Edit]

Salut forum !

Connaissez vous ou possédez vous une liste des mots francais considérés comme "vides" ou "pollution" pour une recherche :
de, des, le, la, les, sur, dans, etc...

M'ci !
 
WRInaute discret
Voilà une liste non exhaustive de mots "vides".
(j'ai pris comme base le moteur HTdig)
Code:
-elle
-il
10ème
1er
1ère
2ème
3ème
4ème
5ème
6ème
7ème
8ème
9ème
a
afin
ai
ainsi
ais
ait
alors
après
as
assez
au
aucun
aucune
auprès
auquel
auquelles
auquels
auraient
aurais
aurait
aurez
auriez
aurions
aurons
auront
aussi
aussitôt
autre
autres
aux
avaient
avais
avait
avant
avec
avez
aviez
avoir
avons
ayant
beaucoup
c'
car
ce
ceci
cela
celle
celles
celui
cependant
certes
ces
cet
cette
ceux
chacun
chacune
chaque
chez
cinq
comme
d'
d'abord
dans
de
dehors
delà
depuis
des
dessous
dessus
deux
deça
dix
doit
donc
dont
du
durant
dès
déjà
elle
elles
en
encore
enfin
entre
er
est
est-ce
et
etc
eu
eurent
eut
faut
fur
hormis
hors
huit
il
ils
j'
je
jusqu'
l'
la
laquelle
le
lequel
les
lesquels
leur
leurs
lors
lorsque
lui
là
m'
mais
malgré
me
melle
mes
mm
mme
moi
moins
mon
mr
même
mêmes
n'
neuf
ni
non-
nos
notamment
notre
nous
néanmoins
nôtres
on
ont
ou
où
par
parce
parfois
parmi
partout
pas
pendant
peu
peut
peut-être
plus
plutôt
pour
pourquoi
près
puisqu'
puisque
qu'
quand
quant
quatre
que
quel
quelle
quelles
quelqu'
quelque
quelquefois
quelques
quels
qui
quoi
quot
s'
sa
sans
se
sept
sera
serai
seraient
serais
serait
seras
serez
seriez
serions
serons
seront
ses
si
sien
siennes
siens
sitôt
six
soi
sommes
son
sont
sous
souvent
suis
sur
t'
toi
ton
toujours
tous
tout
toutefois
toutes
troiw
tu
un
une
unes
uns
voici
voilà
vos
votre
vous
vôtres
y
à
ème
étaient
étais
était
étant
étiez
étions
êtes
être
afin
ainsi
alors
après
aucun
aucune
auprès
auquel
aussi
autant
aux
avec
car
ceci
cela
celle
celles
celui
cependant
ces
cet
cette
ceux
chacun
chacune
chaque
chez
comme
comment
dans
des
donc
donné
dont
duquel
dès
déjà
elle
elles
encore
entre
étant
etc
été
eux
furent
grâce
hors
ici
ils
jusqu
les
leur
leurs
lors
lui
mais
malgré
mes
mien
mienne
miennes
miens
moins
moment
mon
même
mêmes
non
nos
notre
notres
nous
notre
oui
par
parce
parmi
plus
pour
près
puis
puisque
quand
quant
que
quel
quelle
quelque
quelquun
quelques
quels
qui
quoi
sans
sauf
selon
ses
sien
sienne
siennes
siens
soi
soit
sont
sous
suis
sur
tandis
tant
tes
tienne
tiennes
tiens
toi
ton
tous
tout
toute
toutes
trop
très
une
vos
votre
vous
étaient
était
étant
être
 
WRInaute discret
Ce n'est pas exactement la même, mais il y a déjà quelques mots ...
Code:
a

ago

all

almost

along

also

am

an

and

answer

any

anybody

anywhere

are

aren't

around

ask

bad

been

being

best

better

big

but

by

can

can't

come

could

couldn't

did

didn't

do

does

don't

each

either

even

ever

every

everybody

everyone

far

found

go

going

gone

good

got

had

has

have

haven't

having

her

here

hers

him

his

how

into

isn't

its

know

like

little

many

me

more

most

must

my

new

news

no

none

not

nothing

of

off

often

old

on

once

or

our

ours

out

over

please

rather

she

should

so

some

something

sometime

somewhere

than

thank

that

the

their

theirs

them

then

there

these

they

this

those

thus

to

too

untrue

up

upon

use

very

via

want

was

way

were

what

when

where

which

who

whom

whose

why

will

worse

worst

would

yes

yet

you

your

yours

how
 
WRInaute impliqué
C'est vrai que la logique du moteur anglophone est differente et plus complexe sur la signifiance des mots... mais merci, c'est toujours pratique!
 
WRInaute impliqué
Il y a aussi le search_stopwords.txt de phpbb (language/lang_english) qui contient une bonne liste.
Je ne la reproduis pas ici, phpbb étant libre... http://www.phpbb.com

Les autres forums comportent certainement une liste similaire, les CMS également. Ca peut être une bonne piste, et il doit même y avoir les fonctions pour appliquer le filtre, ce qui n'est pas forcément trivial pour les langues dont les mots peuvent comprendre des accents (que les internautes ne tapent pas toujours, bien sûr).

J'avais également vu quelqu'un qui allait jusqu'à exclure les mots comprenant trop de fois la même lettre afin d'exclure les expressions type "yeeeeeaaaaaah", "ah ouaaaaaaaiiiis !", etc.
 
WRInaute occasionnel
Google est ton ami.
https://www.google.com/search?client=ope ... 8&oe=utf-8

On trouve de tout, ensuite il faut raffiner.
Sur Zewol, j'utilise une stop words list de 800 mots, une cinquantaine de mots interdits (sexe et le toutim), et je travaille sur les expressions liées.

NOTE MODO : la réponse rapide a l'air de planter... quand je répond rapide, je suis renvoyé vers un autre post et ma réponse n'apparait nulle part.
 
WRInaute discret
Ces listes de mots servent surtout lors de l'indexation des mots pour un moteur de recherche.
On peut aussi s'en servir lors de la création d'url rewritées pour empecher que ces mots "inutiles" fassent parti de l'url..
 
WRInaute accro
Pas si sûr que ces mots doivent être enlevés. Me semble que GG tient de plus en plus compte de la présnce de ces petits mots dans les titres, descriptions et textes. C'est probablement la liste des mots négligés dans une recherche par contre, c'est aussi ce qui différentie une liste de mots clés d'un titre correct ...
 
WRInaute discret
Pour les titles je suis aussi d'accord. Par contre pour l'url et surtout pour faire un petit moteur de recherche pas trop gourmand, je pense que ces mots peuvent/doivent être enlevés.
Par exemple pour la recherche "moteur de recherche", si on devait lister tous les articles(par exemple) où le mot "de" apparaît, ça n'aurait plus aucun sens..
 
WRInaute impliqué
Ben ça dépend, si tu veux "moteur de recherche", "recherche moteur", "moteur recherché", etc... le "de" a son importance.

Déjà qu'on peut changer le sens d'une phrase en rajoutant un accent, alors si on devait enlever automatiquement les petits mots des moteurs de recherche, on aurait jamais de résultats intéressants...
 
WRInaute accro
siddhy a dit:
Pour les titles je suis aussi d'accord. Par contre pour l'url et surtout pour faire un petit moteur de recherche pas trop gourmand, je pense que ces mots peuvent/doivent être enlevés.
Par exemple pour la recherche "moteur de recherche", si on devait lister tous les articles(par exemple) où le mot "de" apparaît, ça n'aurait plus aucun sens..

me méfie de plus en plus des mots clés dans les URL. GG essaye de plus en plus de bloquer les sites de spams. Un vieux site, l'ancienne version du site de mon profile reprend du poil de la bête alors qu'il n'est plus mis à jour.


Faudra revenir au naturel ... :lol: https://www.google.be/search?hl=fr&q=ybet&meta=
 
WRInaute occasionnel
salut

je suis perplexe où alors j'ai loupé un truc.

sur gg et yahoo, les requetes hotel paris et hotel a paris ne donnent pas

- le meme nombre de resultats (meme si kif kif)
- le meme classement des réponses

je suis tres bien positionné sur yahoo avec hotel a paris mais bcp moins avec hotel paris

Donc, cela me laisse penser que ces 2 moteurs tiennent compte du a qui serait pourtant un mot ignoré par excellence
 
WRInaute accro
Pot de yahourt a dit:
Donc, cela me laisse penser que ces 2 moteurs tiennent compte du a qui serait pourtant un mot ignoré par excellence

Pas du a, du mot séparateur

https://www.google.fr/search?hl=fr&q=hot ... aris&meta= 174.000.000 réponses

https://www.google.be/search?sourceid=na ... 3%A0+paris 153.000.000 réponses.

de paris donne probablement plus de résultat car moins tapé et surtout moins présent dans les liens.

Tadam :? . et la les résultats différent largement. Plutôt logique puisque la majorité des liens utilisent le texte "Hotel à Paris". Vient d'essayer hôtel sur Paris, ici aussi les résultats sont nettement différents.

On pourrait conclure que le mots de séparation à beaucoupd'influence. Sur cette requêrte, oui mais c'est plutôt une requête porteuse, il est difficile de tirer de véritables conclusions.

Par contre, pour une requête moins porteuse: gite (en - de) gaume
https://www.google.be/search?sourceid=na ... gite+gaume
et https://www.google.be/search?sourceid=na ... e+en+gaume

le nombre de résultats est le même, seule quelques petites modifications dans les premières place où le premier ( 8) ) récupère une nouvelle page.

Les positions avec le "de" commencent à vairier beaucoup plu!s que le "en", tout simplement parceque "de Gaume" est repris dans le titre de 2 sites.

GG tient probablement compte de ces petits mots dans certaines recherches spécifiques. Par habitude, j'essaye de mettre les titres avec le petit mot et les liens sans, même si l'inverse est souvent plus facile à caser chez les webmasters.
 
WRInaute discret
Pour infos : cette liste de mots vides n'est en aucun cas utilisée par Google, Yahoo, Msn, ou d'autres grands moteurs... Les moteurs indexent ces mots et leurs donnent de l'importance, comme pour tout autre mot.

Le seul intérêt de cette liste est si vous souhaitez, en interne à votre site, créer un petit moteur de recherche, vous pouvez exclure des expressions de recherche de votre 'mini-moteur' puisque toutes ces petites expressions n'apportent générallement pas de sens complémentaire à une recherche.

Mais pour GG et les autres, ces mots existent et sont pris en compte...
 
WRInaute impliqué
Ça, on s'en doutait.
Par contre ces mots ne se comportent pas exactement comme les autres, il est donc bon de les connaître.
 
Nouveau WRInaute
perso , ca me semble un peu dépassé comme approche. Ce qui est important c'est la combinaison et l'ordre de ces mots que ce soient des mots très communs ou pas. il faut essayer de se rapprocher le plus possibles des expressions naturellement formulées par les internautes dans leurs recherches, même si elles contiennent des mots très communs. La combinaison d'un certains nombre de "stop words" peut former une expression intéressante . Les "stop words" peuvent fournir plus de sens à une expression, Google en tient compte... et fourni pas du tout les mêmes resultats avec ou sans les "stop words".

la preuve avec ce post ! il est en première page pour l'expression "de la grâce hors d'ici" alors imagine si tu mets ca en titre !

https://www.google.fr/search?source...GGLJ:2006-27,GGLJ:fr&q=de+la+grâce+hors+d'ici

Moi je dis à morts les "stop words" vive les "go words" :D
 
Nouveau WRInaute
Attention gros déterrage de topics ! :lol: :p

La raison est simple. Ce topic est très bien placé sur Google sur ce sujet et comporte des erreurs qui pourraient induire en... erreur (justement :p ) certaines personnes. Il n'est donc jamais trop tard pour un complément d'information. :wink:
Pour infos : cette liste de mots vides n'est en aucun cas utilisée par Google, Yahoo, Msn, ou d'autres grands moteurs... Les moteurs indexent ces mots et leurs donnent de l'importance, comme pour tout autre mot.

Je t'assure qu'un moteur de recherches se voulant pertinent utilise un filtre à mots vides. L'inverse serrait une grossière erreur.

Il ne faut absolument pas confondre l'indexation et la recherche. :wink:

Un index sert à accélérer les recherches avec des éléments condensés de site. Avec un index, le moteur sait sur quels sites lancer une recherche "poussée " (fulltexte sur la page en cache). Une astuce pour beaucoup technique.

Imagine si Google devait à chaque fois faire une recherche "poussée" sur plus d'un milliard de sites!!!! 8O

Un moteur va donc tirer d'une page les, disons, 20 mots-clé les plus pertinents (en plus du tire et de la description). Et les mots vides sont tout sauf pertinents !
Indexez les mots vides et quasiment tous les sites se retrouveront avec les mêmes mots-clés... :lol:

Par contre, lors d'une recherche, ignorer les mots vides devient une erreur.

Quand vous faites la recherche "histoire de l'ombre" un moteur retient "histoire" et "ombre". Il interroge sont index pour rapidement trouver ces mots-clés et en tirer les sites dans un ordre établi (de celui ayant les deux mots très présents à ceux n'ayant qu'un des deux mots peu présents).
À partir de là, il effectue une recherche sur le cache de la page (qui lui contient bien les mots vides) pour finir de trier les résultats par rapport au terme exact de votre recherche.

Après il y a des subtilités propres a chaque moteur comme le titre de la page et le PR pour google.

Mais ce qui est sûr, c'est que trop de filtres tuent ! Et plus le temps passe plus google perd en pertinence à cause de ses trop nombreux filtres...

Cordialement,
 
Membre Honoré
Le post a quelques temps, les moteurs évoluent et les algorithmes aussi pour mieux répondre aux recherches. ;)
Aujourd'hui il y a beaucoup plus de paramètres qu'avant à prendre en compte et l'exemple de Leonick montre bien le fait qu'il faut toujours travailler plus.
 
WRInaute occasionnel
Je pense que le concept de "mots vides" va progressivement disparaitre, si ce n'est pas déja fait.
Avec des technologies comme le "latent semantic indexing" et le volume de données dont Google dispose dans chaque langue (et en comptant Google Books), il devient possible de déterminer des "motifs" de langage, qui eux, comprennent forcément TOUS les mots que l'ont peut utiliser.
En gros, en apprenant "encyclopédiquement" ce qu'est la langue française, Google comprend bien que "histoire de l'ombre" et "histoire+ombre" ne sont pas équivalents: ils ne sont pas utilisés dans le même contexte.

Je pense que les moteurs indexent (voir post de macmc, je ne parle pas de recherche mais bien d'indexation) des patterns de langage de plus en plus complexes; les moyens "mathématiques" (= puissance de processing) augmentent à vitesse V... et si on considère la loi des 80/20 (80% des recherches concernent 20% du contenu "du web", taux confirmé par quelqu'un de chez Voila.fr pour ce moteur), je suis sur qu'on peut même mettre la plupart des requêtes "fréquentes" dans un gros cache, et donc se permettre d'indexer des expressions assez longues (ex 5 ou 6 mots)
 
Nouveau WRInaute
ce que je vois, c'est que pour ces 2 recherches "histoire de l'ombre" et "histoire ombre" google n'affiche pas du tout les mêmes résultats, donc il tient bien compte des mots vides dans l'affichage des résultats.

Ais-je dit le contraire ?

J'expliquais juste la base du fonctionnement. Vu le nombre de pages indexé par google, et malgré la "puissance de calcul" dont il dispose, il lui faut tirer d'une page l'essentiel en mots-clés. Pour ce faire, il lui faut un filtre à mots vides, ces derniers n'apportant aucune informations sur le contenu d'une page. Ceci lui permet de ne faire des recherches que sur des pages réactives à ces mots (très rapidement) et un premier classement. Ce n'est qu'ensuite qu'il prend en compte l'ensemble de la recherche sur les sites selectionné, pour donner les résultats les plus proche de la demande.

P.S : Tient. Le premier résultat de la recherche "histoire de l'ombre" est intéressant.
L'url : histoiredelombre
titre : Tyriel :l'Ombre en marche

Et la page... rien !!! Juste une photo et un lien vers index_tyriel.htm en gros avec pour nom "histoire de l'ombre".
 
Nouveau WRInaute
je suis sur qu'on peut même mettre la plupart des requêtes "fréquentes" dans un gros cache, et donc se permettre d'indexer des expressions assez longues (ex 5 ou 6 mots)

C'est même certain puisque, google par exemple :lol: , garde en mémoire toutes les requêtes. Ce qui lui permet la suggestion de mots-clés pour adword et de proposer un histoirique de nos recherches.
 
WRInaute accro
macmc a dit:
Ais-je dit le contraire ?

J'expliquais juste la base du fonctionnement. Vu le nombre de pages indexé par google, et malgré la "puissance de calcul" dont il dispose, il lui faut tirer d'une page l'essentiel en mots-clés. Pour ce faire, il lui faut un filtre à mots vides, ces derniers n'apportant aucune informations sur le contenu d'une page. Ceci lui permet de ne faire des recherches que sur des pages réactives à ces mots (très rapidement) et un premier classement.
dans ce cas, on n'aurait pas 3 ou 4 fois plus de résultats sur "histoire de l'ombre" que sur "histoire ombre", vu qu'en partant de la même base (la phrase sans mots "vides"), on rajoute un filtre avec ces mêmes mots vides.
 
Nouveau WRInaute
dans ce cas, on n'aurait pas 3 ou 4 fois plus de résultats sur "histoire de l'ombre" que sur "histoire ombre", vu qu'en partant de la même base (la phrase sans mots "vides"), on rajoute un filtre avec ces mêmes mots vides.

Le nombre de résultats n'a rien avoir. Une pré-recherche peu amener 5 millions de résultats pour, au final, n'en afficher que 500 000.

C'est les algo de google qui determinent quels résultats afficher. Ainsi, il est tout a fait possible qu'une requêtes générique offre moins de résultats qu'une requête plus ciblé.

D'ailleurs, dans les outils webmasters, on à "Ce que voit googlebot". Pas trace de mot vide de sens.
 
Discussions similaires
Haut