problème lors de l indexation de mes fichiers

flexi2202 · 15 Août 2021

bonsoir a tous

j essaye de comprendre pourquoi google a juste indexer mon fichier principal de mon site donc le index.php

par contre rien ne se passe pour les autres pages

je suis donc occupé a essayer de comprendre
je me suis rendu sur la search console de google

et j ai demande une inspection d une url d une page
google la trouve mais lorsque je demande une capture d écran et que je consulte mon fichier fournit par google
google n a pas pris en compte mes fichiers include ...

Lorsque je teste la page tout fonctionne a merveille

Marie-Aude · 16 Août 2021

Google ne peut pas prendre en compte tes fichiers include. Google se moque de la structure technique de ton site, il ne voit que le html généré. Après si tu veux dire qu'il manque du contenu dans ce que "voit" Google, c'est qu'il y a un problème technique.

flexi2202 · 16 Août 2021

merci pour la reponse
je viens de remarquer que les fichiers include étaient pris en compte
mais pas les fichiers css ?
car voici ce que je vois

et voici ce que google voit

cela serait il du au fait que j ai indiquer dans mon robots.txt qu il ne puisse analyser les fichiers css et javascript ?

alors pourquoi il interprète les fichiers includes qui eux aussi sont dans la liste robots.txt

emualliug · 16 Août 2021

flexi2202 a dit:
j ai indiquer dans mon robots.txt qu il ne puisse analyser les fichiers css et javascript ?

Oui, tout à fait.

flexi2202 a dit:
alors pourquoi il interprète les fichiers includes

Parce que ce n'est pas Google (ni l'internaute) qui "interprète" les fichiers include, mais PHP (le serveur donc).

Sans vouloir me montrer discourtois, quoique j'apprécie le fait de coder réellement un site sans recourir de façon systématique à un CMS de type wordpress, cela ne sied pas à tout le monde. Outre les problématiques "visibles" un site mal codé expose à d'autres difficultés, notamment de sécurité.

Ne te méprends pas, je considère qu'un forum est un lieu d'entraide, mais je ne suis pas certain que coder un site soit la solution la plus adaptée à tes attentes.

Marie-Aude · 16 Août 2021

flexi2202 a dit:
merci pour la reponse
je viens de remarquer que les fichiers include étaient pris en compte

Tu ne comprends pas, je te conseille de te plonger un peu dans la technique.

Ton serveur génère une page html à partir de ta base de données si tu en as une, et de tes différents fichiers php (ce que tu appelles tes includes), et c'est cette page que Google voit, il n'a aucun accès à tes includes, jamais. C'est ce que je t'ai dit dans mon premier message.

flexi2202 a dit:
cela serait il du au fait que j ai indiquer dans mon robots.txt qu il ne puisse analyser les fichiers css et javascript ?

Ben oui.

Quant à tes autres pages, elles sont bloquées quand on n'a pas de compte. Google n'a pas de compte.

flexi2202 · 16 Août 2021

merci pour les reponses et les aides

pour répondre a emualliug

Outre les problématiques "visibles" un site mal codé expose à d'autres difficultés, notamment de sécurité.
question sécurité , tout a été mis en œuvre du moins je l espère

la problématique visible est surement juste un détail dans le code ...que j essaye de trouver
je voulais déjà juste savoir si cela était logique que google search console ne puisse pas prendre en compte mon fichier css et js pour l aperçu de la page lorsqu'ils sont bloque par le robot
et pourquoi google prends en charge le fichier include malgre qu il soit dans la page robots.txt
mais je pense que j ai mes réponses

je pense que mon problème vient au fait que durant le test il ne parviens pas a charger mon fichier css et javascript tout simplement

lorsque j affiche mon site sur un mobile cela fonctionne , donc cela vient bien de google search console

pour répondre a Marie-aude

Ton serveur génère une page html à partir de ta base de données si tu en as une, et de tes différents fichiers php (ce que tu appelles tes includes), et c'est cette page que Google voit, il n'a aucun accès à tes includes, jamais. C'est ce que je t'ai dit dans mon premier message.

il voit et interprète mes fichiers include par contre pas les fichiers css et javascript

Quant à tes autres pages, elles sont bloquées quand on n'a pas de compte. Google n'a pas de compte.

mais j ai un compte Google (je n ai pas bien compris ce que tu disais

Marie-Aude · 16 Août 2021

flexi2202 a dit:
pas les fichiers css et javascript

Oui parce que ces fichiers ne sont pas utilisés par ton serveur pour généré une page, mais par le navigateur, via les liens vers ces fichiers qui se trouvent dans ta page

flexi2202 a dit:
mais j ai un compte Google (je n ai pas bien compris ce que tu disais

il faut être enregistré comme membre sur ton site pour accéder au contenu. Le robot Google n'est pas membre de ton site.

flexi2202 · 16 Août 2021

Marie-aude merci pour ces éclaircissements

voila je viens de débloquer via le robots.txt l accès aux répertoires css et js
je vais attendre que google digère le fichier

concernant le fait d être membre de mon site afin de voir le contenu de certaines pages
j ai changé de stratégie et j ai écrit un avant gout de la page que google devrait voir puisque les internautes même non inscrits puisse voir

mais comment savoir ou se situe ma page qui est bien référencé dans les pages de google

emualliug · 16 Août 2021

flexi2202 a dit:
question sécurité , tout a été mis en œuvre du moins je l espère

Ce n'est malheureusement pas le cas, j'ai notamment eu accès sans aucune difficulté aux informations sur les inscrits sur le site (pseudo, email, id utilisateur).

Une fois encore, ne le prends pas mal, mais j'ai le sentiment d'un amalgame de scripts et de bouts de code piochés à droite à gauche sans qu'il y ait derrière une totale compréhension des mécanismes à l'œuvre.

La méthode d'essayer et de corriger n'est pas forcément une mauvaise chose pour apprendre à coder, mais le problème avec les sites c'est que des failles ne sont pas forcément visibles mais néanmoins exploitables, et donc que l'on ne voit toujours pas les erreurs à corriger.

flexi2202 · 16 Août 2021

merci pour le retour
mais peux tu m expliquer en message prive comment tu as pu obtenir ces informations

car tout a été mis en place pour parer a ce problème , requête préparée entre autre
donc je serais curieux de savoir comment ce genre de chose peux arriver

emualliug · 16 Août 2021

Message en MP pour la faille.

Je n'ai pas une vue d'ensemble de la structure du site, mais ça ne me paraît pas très orthodoxe, j'ai le sentiment qu'il est constitué d'un ensemble de pages d'entrées qui font appel à des éléments communs via des includes. Il est plus cohérent de procéder de la façon opposée, une page d'entrée unique, puis l'appel des pages particulières en fonction des besoins. Ce n'est pas en soi un problème de sécurité, mais ça ne facilite pas le traitement, et notamment la mise en place de processus de sécurité qui pourraient être mis en place de façon plus sûre sur le seul point d'entrée plutôt que d'être appelé sur chaque page (au risque de l'oublier).

Une fois encore, il ne suffit pas de mettre en place quelques bonnes pratiques en terme de sécurité. La préparation des requêtes c'est en effet nécessaire, mais ça ne suffit pas.

Un point de vue : il faut partir de l'idée que quelqu'un a eu accès à tout ton code, base de donnée, et à l'ensemble de ton infrastructure. Avec ces connaissances, est-il en mesure d'attaquer le site ? Si la réponse est oui, c'est que probablement le site est insuffisamment sécurisé, il ne faut pas partir de l'idée que quelque chose peut rester secret, en tout cas la sécurité ne peut reposer sur cette assomption.

flexi2202 · 16 Août 2021

merci pour la reponse et surtout de m ouvrir les yeux
en fait mon site est construits avec des pages de tout ce qu il y a de plus basique
avec l appel de fichiers css , et javascript
et des includes pour par exemple l entête qui est toujours la même ou encore la bannière , le menu ect...

que faire d autres que des requêtes préparées pour sécuriser son site
peut être des liens

Un point de vue : il faut partir de l'idée que quelqu'un a eu accès à tout ton code, base de donnée, et à l'ensemble de ton infrastructure. Avec ces connaissances, est-il en mesure d'attaquer le site ?

cela est difficile de répondre

emualliug · 16 Août 2021

Un site reposant sur PHP se construit d'une façon très différente d'un site classique (avec des fichiers HTML), il n'y a justement pas autant de fichier que de type de pages mais un point d'entrée qui va générer une page en fonction de la demande.

En pratique il faut récupérer la requête et l’interpréter en interne, ne pas laisser Apache aller choisir les fichiers.

On peut certes se contenter de mettre quelques balises PHP dans une page classique, mais c'est à mon avis une façon très peu commode de procéder et c'est passer très loin de la puissance offerte par un "vrai" site dynamique.

flexi2202 a dit:
que faire d autres que des requêtes préparées pour sécuriser son site

Tout dépend de ce qui est mis en œuvre sur le site. Chaque chose nécessite sa dose de sécurité : préparer les requêtes si appel à une BDD, nettoyer les variables si elles proviennent de l'utilisateur (pour éviter une injection XSS), utiliser des fichiers signés si on a recours à des fichiers externes, si des mots de passe sont stockés, s'assurer qu'ils sont hachés et salés, avec des algorithmes sans faille exploitable connue, et que les méthodes de comparaison ne sont pas exposées à une attaque temporelle, s'il y a des requêtes modifiant la BDD utiliser des token pour éviter une attaque de type CSRF, etc.

Si tu n'es pas allergique à l'anglais, OWASP est une sacrée bonne source d'information, particulièrement les cheat sheet : https://cheatsheetseries.owasp.org/

flexi2202 · 16 Août 2021

merci pour la réponse et surtout les explications merveilleuses
oui mes variables sont également nettoyées
je n utilise aucun fichier externe
les mots de passe sont bien haches et cryptés
oui il y a des requêtes qui peuvent modifier la base de données et je pense que cela est peut etre une chose a laquelle je dois mieux me renseigner
merci pour le lien
je vais aller jeter un œil

Marie-Aude · 16 Août 2021

flexi2202 a dit:
j essaye de comprendre pourquoi google a juste indexer mon fichier principal de mon site donc le index.php

Sinon pour info, voilà ce que Google a indexé :
https://www.google.com/search?client=firefox-b-d&q=site:phil.pecheperle.be

flexi2202 · 16 Août 2021

ah ok c est vrai que j ai pas pense a cette fonction
un grand merci