Google indexe les sites en PHP

WRInaute discret
C'est peut-être récent mais je viens de constater que mon site
-http://www.bielle.net
pourtant intégralement en PHP avec toutes les pages formées de multiples include,
fait partie de la base de données Google.
Vous pouvez faire vous même le test avec les mots clef : bielle ossau
Outre la page d'accueil, on trouve aussi des pages du genre :
-www.bielle.net/?rub=ossau

Cela viendrait-il du fait que je n'ai pas écrit index.php entre / et ? dans mes menus ?

Du coup, je m'intéroge sur l'intérêt de l'URL rewriting pour Google...
 
WRInaute occasionnel
he m'biau,

faut lire les post de ce site....

ce que tu nous annonce n'est pas un scoop...!

la seule restriction php pour google(que je connaisse), c'est le nombre de parametres...
a priori 2 parametres sans probleme....
plus, c'est pas evident!

donc un site integralement en php, avec pas plus de 2 parametres sera bien indexer comme tout autres site sans php..
 
M
Mike
Guest
Ah j'ai été pris de vitesse par luckyluk !!!!!

Pas plus de 2 param et pas de session ID !!!!! :)

Allez @+++++
 
WRInaute occasionnel
Il s'avère dans la pratique que l'URL Rewriting est très bénéfique, y compris lorsque les pages dynamiques comportent moins de 3 paramètres...
 
WRInaute discret
OK OK OK :D

Je n'avais pas prétention à balancer un scoop mais je suis inscrit seulement depuis ce matin et malgrè la lecture de nombreux posts je n'avais pas eu cette information, et je ne suis certainement pas le seul.
En tout cas merci de m'avoir répondu, je sais maintenant que la simplicité de mon site me permet de ne pas avoir à utiliser l'URL Rewriting, d'autant plus qu'Online.net (hébergeur payant) ne le supporte pas.

En tout cas WRI c'est vraiment génial comme site et je suis loin d'avoir tout lu !
 
WRInaute occasionnel
soit le bienvenu...

et je suis d'accord avec toi..wri, y a plein d'info utiles...et plus encore..surtout pour des gars comme moi!

pas tres fortiche, qui s'autoforme au jour le jour, c'est ce genre de site qui nous font avancer..
 
WRInaute impliqué
...

il est important de signaler que google suit aussi les liens qui sont dans les "INCLUDES", ce n'est pas à négliger.. :lol:
 
WRInaute impliqué
...

Certaines pages utilisent l'appel suivant pour leur menu

exemple index.php

Pour le menu j'utilise cela :

<?php include "/home/virtual/site345/fst/var/www/html/inc/left.php"?>

Je voulais dire par la, que google, va visiter les liens qui se situe dans ce fichier include php (left.php), qui n'est pourtant pas sur la page elle même index.php...

Je suis en train de faire un test pour voir si google prend cela comme liens internes...

Je vous ferai parvenir le résultat.
 
WRInaute occasionnel
Re: ...

lolilol a dit:
<?php include "/home/virtual/site345/fst/var/www/html/inc/left.php"?>
Je voulais dire par la, que google, va visiter les liens qui se situe dans ce fichier include php (left.php), qui n'est pourtant pas sur la page elle même index.php...
:eek: heuuu... comment dire... :lol: . Ton include php est executé coté serveur donc bien évidemment Google trouve les liens contenus dans left.php puisqu'ils se retrouvent dans ta page "html" index.php... Tu vois le truc ? Google est coté client, pas serveur...
 
WRInaute impliqué
..

ouai, mais j'avais des doutes au début...
Maintenant j'en suis sur...
C'etait simplement une petite parenthese, mais merci de ta réponse... :lol:
Je reviendrai te voir si j'ai des doutes sur quelques trucs comme ca en php :p
 
WRInaute occasionnel
lut,

Excusez moi de relancer cette discussion mais j'ai un site super mal référencé réalisé tout en php. Je m'interrogeais sur le référencement des pages php par google.
J'ai lu énormément d'article et de poste sur ce site et j'ai modifié mes pages pour tenter d'obtenir un référencement digne de ce nom. Mais rien à faire.
Malgré les changements, je n'ai que ma page principale qui est indéxée. Pourtant l'accés au page se fait grace à un seul paramètre passé dans l'url ce qui normalement devrait passer.

Le principe du site est simple, je passe en paramètre le nom de la page qui sera insérerée grace à un include. Mais seul mon index reste indéxé. Dans mon menu vous pourrez voir une section download et en cliquant vous verrez que ce lien est direct (un des seul), c'est à dire qu'il pointe sur une page php sans paramètre. Même cette page n'est plus référencée (elle l'é été 1 mois :/).

J'ai fait pas mal de recherche mais je ne comprends pas. Est-ce à cause des "/" dans le paramètre ? Voici mon site : http://membres.lycos.fr/beaero

@+
 
WRInaute occasionnel
Ouais... J'ai jamais bien compris l'intérêt d'inclure le contenu d'une page dans un "gabarit" plutôt que d'inclure les sections récurentes (menus, interface) dans chacune des pages...
Pour ton problème je ne vois pas. La structure de tes paramètres sont peut être en cause effectivement...
Tu peux toujours mettre en place l'URL Rewriting si Lycos le permet.

Quoi qu'il en soit je trouve la structure de ton site "prise de tête" :?
http://membres.lycos.fr/beaero/base.php ... um=0&cat=3 :!:
 
WRInaute occasionnel
Tout d'abord merci d'avoir été ausi rapide. :)
Concernant la structure de mon site je ne comprends pas trop pourquoi tu l'as trouves prise de tête. En fait j'ai fait ce site pour découvrir la programmation web et j'ai essayé de mettre en place une structure efficace. Evidemment ce n'est que mon avis, je ne connais pas de structure "type" de site si jamais ça existe. Concernant la page que tu as cité, il s'agit de mon propre script de galerie c'est pourquoi il y a 3 paramètres. Il semble évident que cette page ne puisse apparaître dans google mais les liens du site concernant les articles devraient être pris en compte non ?
Je vais me renseigner pour l'url rewriting sur lycos.

Il y a 2 façons d'avoir un gabarit pour le site :
- soit on inclut les pages dans le squelette
- soit on inclut un header et un footer à chaque page du site

Y'a t'il une solution mieux que l'autre ? :?:
Perso j'ai choisi la première mais ce n'est que parce qu'elle me semblait la moins contraignante.

thx :eek:
 
WRInaute occasionnel
Ta méthode impose au minimum 1 paramètre dans l'URL pour accéder à une page...

Alors oui entre

index.php?page=liens.htm
index.php?page=catalogue.htm
index.php?page=image.htm

et

liens.php
catalogue.php
image.php

Pour moi il n'y a pas photo...

Combien as-tu de pages sur ton serveur ? Autant qu'en ayant inclu les parties récurentes dans tes pages !
La mise à jour est-elle plus simple ? Non
Quel intérêt ? A mes yeux aucun. Si en plus c'est problématique pour le référencement... Et avoir des paramètres dans l'URL est toujours problématique.
 
WRInaute passionné
Les structures de site du style de phpnuke par exemple et qui ont trois paramétres, ne sont pas référencées par google qui s'arrette à deux.
Les pages contenant ces liens sont referencées, mais google ne rentre pas dans ces pages là.
L'interet est de mettre alors l'URL rewritting, je ne pense pas que Lycos le prenne en compte, sinon je suis vivement interessé.
Les stuctures de site avec deux paramétres sont très bien référencées par Google, l'url rewritting n'est pas utile.
 
WRInaute occasionnel
Kmacleod a dit:
Les stuctures de site avec deux paramétres sont très bien référencées par Google, l'url rewritting n'est pas utile.
Je ne suis pas d'accord du tout avec tes propos... Par expérience (et d'autres intervenants ont fait le même constat), même si Google est capable de référencer 2 paramètres, l'URL Rewriting offre de bien meilleurs résultats.
Mon annuaire des commerces ne comportait pas plus de 2 paramètres et après plusieurs mois d'existence les pages n'étaient pas prises en compte. Le passage Full Crawl suivant la mise en place de l'URL Rewriting -> +2000 pages d'indéxées, traffic doublé ! So What ?!
 
WRInaute passionné
J'ai dit que les sites en php avec deux paramétres ne necessitent pas d'url rewritting car par ma propre expérience j'ai pu constater celà (14OO pages referencées chez google, dont 80 % avec deux paramétres et sans url rewritting)

Surement que l'url rewritting améliore celà, notamment pour les autres moteurs, mais pour google, je pense que celà n'est pas utile, en tout cas dans mon cas celà n'a pas été une gène.
 
WRInaute occasionnel
Kmacleod a dit:
pour google, je pense que celà n'est pas utile, en tout cas dans mon cas celà n'a pas été une gène.
Nous parlons bien de Google, pas des autres moteurs... Donc si cela n'a pas eu apparement d'insidence dans ton cas, mais que cela en a une énorme dans d'autres cas... Que faut-il en déduire ?

Moi j'en déduis que l'URL Rewriting ne peut être que bénéfique et je n'affirmerai jamais que Google n'en a que faire...
 
WRInaute passionné
Que faut-il en déduire ?
Il faut en déduire qu'il y a surement d'autre critère qui entre en ligne de compte et qui font que dans un cas ca va l'améliorer, d'autre l'autre à priori non.

Mais je suis d'accord que l'url rewritting est une bonne chose, meme avec que deux paramétres, je reagi a ce que certains affirment comme étant une verité.

Et le moteur de voila.fr, il indexe le php, moi je dit OUI, d'autres diront NON.

A+
 
WRInaute discret
Il y a quand même un gros pb de securité avec ce genre d'adresse :
index.php?page=lien.php

Si j'amais tu fais dans ton code kkchose du genre :
include($page);

C'est une faille de sécurité ENORME dans ton site. n'importe qui pourra facilement le hacker (il suffirait de passer à page une autre valeur genre index.php?page=http://unsite.com/mapagedehack.php

JAMAIS de variable dans un include (mais ce n'est paut être pas le cas sur ton site, je n'ai pas essaiyé...
 
WRInaute occasionnel
Je suis ok pour retravailler les pages de mon site, même si ça re^résente beaucoup de boulot, pour faire en sorte d'avoir un header et un footer inclus dans chaque page, ça supprimerai le paramètre "page=...".

Cependant j'ai un lien sur ma page d'accueil qui pointe sur une page php sans aucun paramètre (download.php). Il y a aussi la page d'index du forum qui ne comporte pas de paramètre. Pourtant ces pages ne sont pas indéxées. Pourquoi ? :roll:

Je ne comprends plus rien là... :cry:
 
WRInaute occasionnel
Me revoilà encore plus perdu, je ne comprends rien. :cry:

Comme je l'ai déjà précisé je n'ai aucune page de mon site d'indéxé par Google. En fait seul ma page d'index est référencée. J'ai regardé le page rank sur mon site et bien il est de 4 pour l'index et de 0 pour les autres pages du site. :x

Si on considére que mes liens internes avec une url compliqué (bien que n'ayant qu'un paramètre) ne sont pas référencés, pourquoi un lien de la forme "download/download.php" n'est pas référencé ? :wink:

:?: J'aurai une question liée à l'hébergeur. Sur mm, si vous taper l'url d'entrée du site (index.php par ex) tout baigne et l'on peut ensuite surfer sur le dit site. Mais si l'on tape l'adresse d'une page quelconque du site, on est redirigé automatiquement sur une page mm qui n'a rien à voir avec le site.
Mon problème ne se cituerai pas plutôt ici ? :?:

thx
 
WRInaute passionné
BDGest a dit:
Il y a quand même un gros pb de securité avec ce genre d'adresse :
index.php?page=lien.php
...
JAMAIS de variable dans un include
Bonjour, bien vu :wink:
nnx a dit:
Cependant j'ai un lien sur ma page d'accueil qui pointe sur une page php sans aucun paramètre (download.php). Il y a aussi la page d'index du forum qui ne comporte pas de paramètre. Pourtant ces pages ne sont pas indéxées. Pourquoi ?
Comme d'habitude, si le nombre de liens vers ces pages ( download et forum ) est insuffisant, google ne les indexe pas. Cette règle est valable pour ton site, comme pour n'importe quelle page de ton site. D'ailleurs "ton site" signifie la page d'accueil :)
 
WRInaute occasionnel
Je ne comprends pas. :?: Je croyais que le bot arrivait sur la page d'accueil puis suivait tous les liens internes du site pour en référencer les pages.
En d'autres termes je pensais que le bot parcourai toute la structure hiérarchique du site visité tant que le nombre de paramètre était inférieur à 2 (pour Google en tout cas).

ça ne marche pas comme ça ? :?:
 
WRInaute passionné
Pour qu'une page soit indexée il faut que les liens vers elle soient compréhensibles par le robot, et qu'ils soient assez nombreux et de qualité totale suffisante.

nnx a dit:
Je croyais que le bot arrivait sur la page d'accueil puis suivait tous les liens internes du site pour en référencer les pages.
En effet le robot suit les liens à partir de l'accueil, à condition que les liens soient compréhensibles pour lui ( typiquement en langage HTML, pas plus de 2 paramètres, pas de paramètre session ).

Je rectiifie ce que j'ai écris dans mon précédent message : une page est indexée si son PR a au moins 4. Le PR est calculé par le nombre et la qualité des liens vers cette page (voir https://www.webrankinfo.com/dossiers/strategies-de-liens ).
 
WRInaute passionné
nnx a dit:
:?: J'aurai une question liée à l'hébergeur. Sur mm, si vous taper l'url d'entrée du site (index.php par ex) tout baigne et l'on peut ensuite surfer sur le dit site. Mais si l'on tape l'adresse d'une page quelconque du site, on est redirigé automatiquement sur une page mm qui n'a rien à voir avec le site.
Mon problème ne se cituerai pas plutôt ici ? :?:

thx

As tu supprimé la page par défaut qui est installé automatiquement lors de la création du compte??? (index.htm ou index.html).

Sur mon site multimania, aucun probleme

François
 
WRInaute occasionnel
Toutes tes pages sont indéxées suede ? J'ai bien viré la page par défault de mm, pas de soucis de ce côté là.
En tout cas je suis soulagé que ça ne vienne pas de mm (quoi que :( ).

Je vais donc reprendre toute la structure de mon site pour déjà corrigé cette faille de sécurité et surtout pour faire appraître des liens plus compréhensibles par Google. J'espère que ça apportera de bien meilleurs résultats.

Concernant le contenu des pages, je ne comprendrai pas que mes articles ne soient pas indéxés, ce sont des articles techniques pour la plupart, il ne s'agit pas de blabla sans rapport avec un quelconque sujet. Si le problème vient du contenu de mes pages je ne peux plus rien y faire :cry:

Tentons d'abord de modifier la structure des pages. :D

Merci pour vos conseils :wink:
 
WRInaute passionné
Pour faire les include de tes pages en html tu peux utiliser celà


pages.php?page=12

if (!empty($doc) && file_exists("tonrepertoire/".$page.".htm"))
{
include("tonrepertoire/".$page.".htm");
}

Tu converse ainsi tes pages en htm
tu caches ton répertoire qui n'est plus en variable
si ta page .htm n'existe pas, tu n'affiches rien, pas d'erreur 404 à gérer, mais tu peut mettre aussi un envoi d'émail vers ta bal pour te dire que la page $doc n'existe pas

Bon courage
 
WRInaute accro
Pour répondre à nnx ...

Cà ne m'étonne pas que ton site ne soit indexé que très partiellement, et que GoogleBot ne suive pas l'arborescence de tes pages.

En effet, d'après ce que j'ai compris, ta page d'accueil est: index.php

Il s'ensuit donc que si on essaie de se brancher sur ton site en donnant ton url de domaine seulement ( sans le fichier index.php ), on aura une erreur 404 fichier non trouvé, puisque ton serveur est probablement configuré pour fournir le fichier index.html, que tu as supprimé.

...A moins que je ne dise une connerie, et que ton serveur soit configuré pour fournir les pages index.php par défaut, sans qu'il soit nécéssaire de le spécifier. Auquel cas je m'excuse.

Jean Francois Ortolo
 
WRInaute passionné
N'est ce pas ce bout de code en fin de chaque page (code de stats de lycos, lesquelles ne s'affichent pas d'ailleurs) qui dérange Google
Il est vrai que le forum n'est même pas indexé, avec absence de PR

Mais le site à un grand besoin de simplification, notamment en terme d'architecture des répertoires.

Je pense qu'il faut séparer :
la struture du site, ses fonctions d'articles, de download, projet, guide ...
le contenu des pages

Une structuture simple pour faciliter la navigation du visiteur, donc le moteur suivra facilement.


A noter quelques images ne s'affichent pas


Quelques grosses modifications et ensuite le site pourra décoler ...
 
Olivier Duffez (admin)
Membre du personnel
meme si le serveur est configuré pour chercher par défaut un fichier index.html, s'il n'en trouve pas il se rabat sur d'autres extensions (enfin c'est souvent comme ça)
le pb vient plutot d'ailleurs...
 
WRInaute occasionnel
Kmacleod a dit:
N'est ce pas ce bout de code en fin de chaque page (code de stats de lycos, lesquelles ne s'affichent pas d'ailleurs) qui dérange Google
Il est vrai que le forum n'est même pas indexé, avec absence de PR

Effectivement il y a un soucis en bas des pages depuis début janvier. Mais les résultats désastreux dans google était déjà en place. Par contre le manque de PR sur le forum est le premier exemple de tout ce que je ne comprends pas.

Kmacleod a dit:
Je pense qu'il faut séparer :
la struture du site, ses fonctions d'articles, de download, projet, guide ...
le contenu des pages

Une structuture simple pour faciliter la navigation du visiteur, donc le moteur suivra facilement.

Effectivement je vais rebosser la structure du site. Concernant les répertoires j'ai déjà un rep regroupant les articles, un rep pour les d/l, un rep pour le forum... Je vais réfléchir à tout ça pour voir ce que je peux modifier.

Par contre je mets tout en place pour éviter que les images ne s'affichent pas et je suis surpris de ce que tu me dis. Je vais faire un check up des images :eek:
¨Pour répondre à la page d'index, le serveur renvoie automatiquement sur mon indes.php puisque je n'ai pas d'index.htm :wink:
 
WRInaute occasionnel
Les sites hébergés chez Lycos ont tous le même problème de référencement. Pendant très longtemps, la qualité de service a été désastreuse. Pendant la fusion Multimania-Tripod-Lycos, les sites ont été inaccessibles pendant plus d'un mois, j'imagine qu'ils ont quasiment tous sauté des index des moteurs de recherche à cette occasion.
Les problèmes ont continué après ça :
- serveurs plantés pendant presque tous les week-end
- erreurs 404 à gogo
- lenteur de PHP et/ou mySQL -> timeout lors des chargements de page (j'imagine que les spiders eux aussi perdent patience après un certain délai d'attente)
- erreurs de configuration avec les fichiers .htaccess -> erreur 500 sur plein de sites
...

Tout ça fait qu'un webmaster avec un site chez Lycos, jusqu'à présent, pouvait considérer "mission impossible" un référencement avec une position stable (pas la peine de se re-référencer toutes les semaines) dans Google.

Exception : si, comme Suede, il y a plein de sites qui pointent vers le votre, ça aide beaucoup pour conserver sa place au chand dans l'index des moteurs de recherche.

Pour finir avec une note positive : Depuis moins d'une semaine des nouveaux serveurs PHP sont en place chez Lycos, la vitesse est de nouveau au rendez-vous. Les webmasters et les visiteurs sont contents, et les spiders vont pouvoir s'éclater à indexer sérieusement les centaines de milliers de sites de Lycos. :)

Du coup, ça va entraîner une surcharge chez Lycos, c'est pas super ça :?

Voilà pour le cas Lycos

Jocelyn
 
WRInaute occasionnel
Il est vrai qu'il y a eu de nombreux problèmes lors de la fusion et ça se comprend. Perso une fois le basculement achevé je n'ai eu aucun problème, pas de disparition de page, pas de problème de configuration. 8)

Pour le référencement je n'ai pas disparu des moteurs car je n'étais pas encore indéxé :)

Mais il est vrai que leur nouveau système de pub ainsi que la lenteur d'affichage qui se produit couramment pourrit être un frein au bon référencement. :cry:
 
WRInaute passionné
Tout ça fait qu'un webmaster avec un site chez Lycos, jusqu'à présent, pouvait considérer "mission impossible" un référencement avec une position stable (pas la peine de se re-référencer toutes les semaines) dans Google.
Mais certains ont reussi a developper un PR 6 chez lycos :roll:
Peut être qu'en croisant les doigts on peut penser que lorsque Google passe, le serveur soit en ligne, mais j'ai la certitude qu'un serveur down, ou une base SQL en rade , ou des pop-up à foison ne gène pas Google qui arrive à faire une indexation correcte, quiite à prendre comme information celle de son dernier passage (le cache) et à ne pas être trop nerveux.
Lycos sinon offre un bon référencement chez lycos, c'est déjà ça !
 
WRInaute occasionnel
Kmacleod a dit:
Mais certains ont reussi a developper un PR 6 chez lycos :roll:/quote]

Oui, c'est ce que j'explique dans la ligne au dessous de ta citation, dans mon premier message.

Kmacleod a dit:
Peut être qu'en croisant les doigts on peut penser que lorsque Google passe, le serveur soit en ligne, mais j'ai la certitude qu'un serveur down, ou une base SQL en rade , ou des pop-up à foison ne gène pas Google qui arrive à faire une indexation correcte, quiite à prendre comme information celle de son dernier passage (le cache) et à ne pas être trop nerveux.

Si le serveur ne répond pas, Google sans doute va réessayer plus tard. Si toujours pas de réponse, je pense qu'il abandonne. Je ne sais pas trop ce qui se passe avec la version du site en cache :?:
Si PHP ou mySQL en rade, des pages incomplètes avec des messages d'erreur seront générées, et très consciencieusement indexées par Google.
Pas super de voir des pages d'erreur php ou mysql dans les résultats Google... :cry:

Jocelyn
 
WRInaute passionné
WebRankInfo a dit:
Et les pages avec un PR entre 0 et 3, elles sont bien indexées ?
Ce sont les pages liantes qui doivent avoir un PR 4 pour sortir dans la liste (sur google) des liens vers une page. J'ai confondu les 2 :oops:
 
Discussions similaires
Haut