Référencement sous joomla

Nouveau WRInaute
Bonjour,

J'ai crée un site internet avec joomla. j'ai fais le référencement naturel du site sur google. Au bout de quelques jours le site est bien visible sur google. Après quelque jours, je découvre qu'il m'a référenceé une page que je n'arrive pas à la supprimer même si je mettais sur le fichier robot.txt l'expression suivante :

Disallow: /http://www.prestigebtp.com/index.php?option=com_aicontactsafe&sTask=captcha&task=captcha&pf=

Le lien que je veux pas que google l'affiche sur la première page est le suivant:

http://www.prestigebtp.com/index.php?option=com_aicontactsafe&sTask=captcha&task=captcha&pf=


Quelqu'un pourrait m'aider pour résoudre ce problème et m'explique d'où cela vient ????. :(

Merci par avance.
 
WRInaute occasionnel
Le mieux est encore d'inscrire ton site sur Google webmaster tools qui te permet entre autres de faire désindexer des urls.
Mais sinon elle ne te sert à rien ta page c'est tout pété, vire là et puis c'est tout.
 
Nouveau WRInaute
Bonjour,

Je suis passée par google webmaster. en faite sur la premier page de google, j'ai 2 URL. prestigebtp.com qui affiche bien le site quand je clique sur l'url. et il m'affiche aussi cet URL pourri :

http://www.prestigebtp.com/index.php?option=com_aicontactsafe&sTask=captcha&task=captcha&pf=


J'ai aussi le fichier sitemap sur la racine.

Que dois je faire ?

Merci par avance
 
WRInaute impliqué
ca depend de ton niveau en joomla....
Aujourd'hui c'est la page que tu indiques, demain ce sera une autre... Il y a une infinité d'urls possibles qui conduisent au meme contenu sous joomla. Donc google ou les autres peuvent indexer une infinité d'urls conduisant au meme contenu...
Le referencement joomla est un secteeur specifique. La toute premiere chose a savoir faire est la reecriture d'URLs soit en allant dans le code de joomla (niveau specialiste joomla : pas compliqué mais il faut savoir ou piocher dans le code) soit en achetant ( ils sont tous devenus payants) un module SEF.
Apres, pour "réparer" le passé, quelques redirections 301 font l'affaire.
Pour le http://... sans www, une seule ligne de code php dans le début du template suffit pou corriger le probleme.
 
Nouveau WRInaute
Je suis très déçue de ce resultat qui m'a fait joomla.

En gros joomla est logiciel tout pourri ! Il m'a indexé des pages que je n'ai pas demandés :x

Vous pensé qu'une redirections 301 va résoudre le probleme ?
 
WRInaute impliqué
Petit rappel sur le referencement des CMS (l'article complet sera diponible un jour queque part un cherchant : newsletter referencement dans google)

La plupart des CMS ont ce même probleme.
Sachant que par defaut, ils ont une seule page : index.php et qu'en fonction des paramètres transmis à la page ex ?toto=3&titi=12&context=50 ils vont piocher un template, un contenu et un ensemble de blocs dans des tables de base de données.
---> ils peuvent souvent sortir le meme contenu avec une infinité de blocs différents ; et parfois les blocs ne sont que des images ex ?toto=3&titi=23&context=24 donnrait egalement la page 3 mais avec des blocs differents.

--> les crawlers savent chercher dans wordpress, joomla... automatiquement et considèrent généralement que
index.php?toto=3&titi=12&context=50 et index.php?toto=3&titi=23&context=24 sont deux pages differentes.

Seule solution, faire de l'URL rewritting pour transformer index.php?toto... en toto.html....

Wordpress le fait plus facilement dans ses options, joomla le fait aussi.

Plus on ajoute des modules et des plugins (ex joomfish pour les langues) qui rajoutent des paramètres dans la query index.php, plus ca devient compliqué de fair de l'URL rewritting.

"L'erreur" habituelle des sites faits avec des CMS, consiste à les mettre en ligne avant d'avoir résolu les problèmes de référencement. Une fois les pages de types index.php?toto=.... 'crawlées', il faut réécrire la cartographie du site avec des bonnes urls et rediriger toutes les anciennes URLS avec des 301.

....
 
WRInaute passionné
elabdal a dit:
En gros joomla est logiciel tout pourri ! Il m'a indexé des pages que je n'ai pas demandés :x

là, je ne suis pas d'accord, je pratique Joomla depuis le debut et même avant (Mambo), et nous avons une version 1.5.x vraiment très stable.

Concernant les URLs, il faut faire attention de systématiquement bien pointer sur un item de menu (si possible) au lieu de pointer vers un article... Les liens doivent avoir un contexte (comprendre : une page appartient à un menu OU BIEN à une catégorie, une section).

Concernant les URLs, il y a le composant SH404SEF qui permet de faire le ménage parmi les URLs et de choisir le bon contexte pour 1 article donné (= le fameux contexte).

Voilà
 
WRInaute passionné
Tiens, en passant, je te propose 2 extraits de fichiers robots.txt et qui permettent de filtrer les "mauvaises" URLs:
Le premier datant de 2006/2007 alors que je ne maitrisais pas assez les URLs, et qui comprend plusieurs lignes dédiées au composant de forum...
Code:
User-agent: Googlebot
Disallow: /*.php$
Disallow: /*option=*
Disallow: /*component*
Disallow: /*letter*
Disallow: /*En-liste*
Disallow: /*threaded*
Disallow: /*replyto*
Disallow: /*Repondre*
Disallow: /*catid*
Disallow: /*id=0*
Disallow: /*func=*
Disallow: /*Citer-ce-message*
Disallow: /*bot.html$
Disallow: /*AdsManagerTab*

Le second datant de 2009/2010 avec la dernière version de SH404SEF, et donc beaucoup plus propre :
Code:
User-agent: Googlebot
Disallow: /*.php$
Disallow: /*option=*
Disallow: /*component*
Disallow: /*itemid*
Disallow: /*ItemId*
Voilà, pas besoin de plus. Bon, par contre je n'ai aucun composant qui ne permette pas la réécriture des URLs sinon tu ne peux pas écrire les 4 dernières lignes.


Tu comprends ?
 
Nouveau WRInaute
Merci beaucoup pour vos réponses.

En fait, je n'ai pas tous compris, mais dans mon fichier robot.txt, j'ai bien les dossiers indiqués ci-dessous à ne pas indexer et j'ai rajouté cette ligne (Disallow: /com_aicontactsafe/) du dossier "com_aicontactsafe" que google m'a indexé, et pourtant ce dossier est bien présent dans le dossier components. C'est le truc que je ne comprends pas, on demande à google à ne pas indexé ce dossier "components", mais visiblement google a pu pioché dans les sous dossiers du dossier "component" !!

Code:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /com_aicontactsafe/ 
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

Pour l'instant, j'ai opté pour cette solution et la solution du RedirectPermanent en mettant dans le dossier .htaccess cette ligne :
RedirectPermanent /index.php?option=com_aicontactsafe&sTask=captcha&task=captcha&pf= http://www.prestigebtp.com/

Est ce qu'il faut rajouter ces deux ligne à mon code ? :
Disallow: /*.php$
Disallow: /*option=*

Mais ma dernière question SVP, comment empêcher google d'indexer les mauvais URLS et comment savoir déjà ces mauvais urls par lesquels j'ai été surprise après avoir mis le site en ligne ?

le composant SH404SEF est un composant de joomla qu'il faut installé ?
Avez vous une idée sur la manière d'écrire les URLS rewriting pour optimiser bien le référencement avec joomla ou sans joomla ?

Merci pour votre aide
 
WRInaute passionné
@elabdal

- com_aicontactsafe : je connais pas ce composant, peut être qu'il n'a pas sa fonction d'URL rewrite ? contacte son auteur pour en avoir le coeur net.

- le robot de google déconne : parfois oui. Mais à mon avis, il a déjà indexé ton contenu et n'a PAS encore revu tes pages que tu ne voulait pas indexer (que tu as indiqué dans robots.txt). Faut lui laisser du temps. Il n'y a pas de date prévisionnelle.

- intégrer les 2 lignes dans le robots.txt (*.php et *option) ? oui, carrément. Rajoute aussi les itemid comme indiqué.
Par contre, si tu as un composant qui ne réécrit pas ses urls, tu risques de pas indexer ses pages :( mais bon ... je pars du principe que si le composant n'a pas la possibilité de réécrire ses urls et bien c'est un mauvais composant :mrgreen: je me comprends !!! c'est qu'il n'est pas assez populaire, pas assez robuste etc.................. bref, c'est un raccourci !

- SH404SEF à installer : Et comment ! il FAUT l'installer, soit lui soit son concurrent Artio JomSEF. Mais c'est indispensable.

lolo
 
Discussions similaires
Haut