DC GG (BigDaddy) ID session, Sandbox, url rewritting

Nouveau WRInaute
bonjour,
fervant lecteur de WRI, je souhaite requérir pour la première fois quelques avis ou échanges de membres concernant le référencement d'une boutique en ligne (jetmarine.fr).

synthèse et historique de son réf.:
site en ligne depuis 3ans (en version ecommerce depuis 4 mois): peut on constater une prime de fraicheur puis d'une mise en SANDBOX pour une version ecommerce récente mais site existant depuis plus de 3 ans ?

Fin février la plupart des DC google affichaient 13000 pages indexées sauf BigDaddy (bloqué à 28 et avec des anciennes pages)... Puisque la patience est préconisée par tous les pro. je n'ai pas paniqué... or depuis 1 semaine tous les DC se sont alignés sur BigDaddy.... plongeont le site dans les profondeurs de l'index sur bon nb de requêtes ... (effet sandbox ?... l'outil de http://www.seomoz.org n'étant plus actif pour vérifier...).

Tous les DC affichent également d'anciennes pages avec en prime les ID de session dans les URL (un comble !)
Le site utilise l'URL rewritting pour afficher des URL propres (html).

Les autres outils de recherche MSN et Yahoo affichent également depuis peu des pages indexées soient obsolètes soient limitées à la page d'accueil... (j'en déduirai que nous avons forcément oublié qlq chose dans notre travail de réf.)

Notre programme d'affiliation et d'Adwords n'est pas encore lancé alors si quelqu'un constate un problème technique majeur sur ce site que nous n'aurions pas vu ... je serai preneur de tous conseils en échange éventuel de services ou autres conseils techniques (sommes spécialisés en PHP/MySQL, XML, XSLT, CSS, XHTML, AJAX, DOM, JS...)

Merci.
:idea:
 
WRInaute impliqué
Salut,
Est-ce que les moteurs connaissaient le site avant son passage en Url rewriting? Si c'est le cas, il est possible qu'ils continuent à suivre les anciens liens en plus des nouvelles url; et alors il peut y avoir sanction pour duplicat content.
Si ce n'est déjà fait, tu devrais faire un plan de site lié à ton index, et mettre au point un Google Sitemap. Le sitemap te permettra de voir si Google rencontre des difficultés pour parcourir tes pages.
 
Nouveau WRInaute
Est-ce que les moteurs connaissaient le site avec son passage en Url rewriting?
avant la version "marchande" du site (déc. 05) le site statique (2 pages) n'utilisait pas l'URL rewritting, donc oui logiquement les spiders connaissaient le site avant son passage en URL rewritting.
concernant l'hypothèse d'un duplicat content, c'est possible mais la version précédente du site ne comportait que 2 pages statiques !

Notre prochaine étape était effectivement d'utiliser le sitemap.
Mais certains DC avaient bien réussi à indexer 13 000 pages en début d'année... si aujourd'hui GG rencontre des pbl à parcourir nos pages c'est qu'il y a des modifs dans l'algo car le site lui n'a pas bougé !

Merci vpx.
 
Nouveau WRInaute
mauvais URL rewritting ?

Y doit y avoir un probleme avec ton url rewriting
çà dépend en fait du navigateur et de sa config, IE, en cas de blocage des cookies, gère mal ces ID de sessions (pas firefox). Mais l'URL rewritting n'a rien à voir avec l'affichage dans le navigateur des ID de session (courantes pour des pages dynamiques), nos pages php sont à priori correctement renommées en html.
Ce qui n'est pas normal par contre (et vu sur aucuns résultats de requêtes effectuées sur GG), c'est que GG conserve, depuis peu, dans son index ces ID de session et les affichent !!!
Ce n'était pas le cas sur bcq de DC il y a un mois (sauf sur Bigdaddy), or le site n'a pas bougé...

Merci ckarone.
 
WRInaute impliqué
Si l'ancienne version n'etait que sur 2 pages, il n'y a pas de problème de duplicat content, en effet.
J'ai eu a peu près le même problème recemment: Désindexation progressive d'un site sans raison apparente. En soumettant un sitemap à Google, j'ai pu me rendre compte que trés souvent, le robot n'accède pas à certaines pages (erreur 5xx, reseau inaccessible). C'est donc l'hebergeur qui semble defaillant, ou alors le serveur DNS. Et pourtant le site est ok à chaque fois que j'y vais...
 
Nouveau WRInaute
hypothèse d'un pbl d'hébergeur

trés souvent, le robot n'accède pas à certaines pages (erreur 5xx, reseau inaccessible). C'est donc l'hebergeur qui semble defaillant, ou alors le serveur DNS
effectivement cette cause est possible et a été envisagée... le site est hébergé chez un hébergeur classique OV*** (offre mutualisée) et nos outils de monitoring indique une dispo de 96%, les stats affichent un 0.1% d'erreur 500 (Internal server Error).
çà semble des stats correctes.
çà n'expliquerait pas pourquoi les ID de session sont indexées par GG et surtout ré-affichées dans les résultats de la requete site:****.fr

En espérant que la mise en place du sitemap nous en apprennent plus... sans données concrètes il est difficile de progresser et d'effectuer des ajustements efficaces !

ou il s'agit bien de l'effet sandbox... mais je suis plus septique et sans moyen de le vérifier !!!
 
Nouveau WRInaute
pas seul effectivement !

merci pour le lien vers le topic. on se sent moins seul, même si nos clients n'ont que faire des explications concernant les errements des DC google !!

autres tests effectués pour l'hypothèse d'une Sandbox: l'utilisation des -asdf n'apporte aucun élément nouveau (aucune différence constatée entre les requètes avec et sans -asdf !)

Autre constatation du jour: Quelqu'un aurait t il constaté également que tous les textes indexées par GG et affichés dans "texte mis en cache" n'ont plus les lettres accentuées (é, è, à etc.) ???
ou c'est moi qui ne tourne plus rond avec ce GG ?

8O
 
Discussions similaires
Haut