Google index une pj jointe envoyée depuis un formulaire !!!

mengeco · 5 Mars 2018

Bonjour,

Depuis mon site Wordpress, j'utilise le plugin "Form Maker" pour les formulaires.

Un formulaire permet de joindre des pj comme un RIB et grosse frayeur, un client vient de me dire que le RIB qu'il avait envoyé depuis mon formulaire se retrouve indexé sur Google (quand il fait une recherche sur son nom).

Vent de panique, je supprime tout ce que je peux mais je ne sais pas comment éviter ce pb à l'avenir.

Quelqu'un aurait-il une idée ou connu la même mésaventure ???

Madrileño · 5 Mars 2018

Bonjour,

Si le fichier est indexable et à un moment le robot peut y avoir accès, il sera indexé.
Vérifier la configuration du site Internet et le fonctionnement/gestion des pièces jointes de votre plugin.

N'hésitez pas à vous présenter au forum : ici et entre deux messages présenter vos avis aussi sur les sujets : ici, pour aider les autres personnes de la communauté d'entraide.

Temps de réponse : 5 minutes.
Cordialement.

UsagiYojimbo · 5 Mars 2018

En général, c'est parce que la pièce jointe est stockée sur le serveur, et que le dossier où elle est stockée est accessible au robots.

Il va donc falloir modifier les droits d'accès du dossier en question.

mengeco · 5 Mars 2018

Merci pour vos retours ultra rapides, top !!.

Pour info, les PJ sont "classiquement" stockées dans le dossier "wp-content/uploads/form-maker" et ce dossier ne dispose que des autorisations 200 (écriture par le propriétaire") et d'ailleurs, impossible de modifier les autorisations en ftp.

Quel serait donc le "dossier en question" dont il faudrait modifier l'accès ?

spout · 5 Mars 2018

A tout hasard, le directory listing ne serait pas activé, c'est à dire que example.com/wp-content/uploads/form-maker/ affiche le listing des fichiers ?

Madrileño · 5 Mars 2018

Bonjour,

Il est possible que les fichiers soient indexables et que ce qui est indiqué par Spout soit actif, vous pouvez modifier cela ou même modifier le plugin pour vous faire un espace spécifique protégé pour les fichiers reçus via le serveur par le formulaire.

Vous pouvez aussi indiquer l'URL du site Internet.

Temps de réponse : 5 minutes.
Cordialement.

mengeco · 5 Mars 2018

Je pense effectivement qu'il faut pouvoir changer les autorisations du dossier ! Après, comme elles sont bloquées, je sais que l'hébergeur ne fera pas la manip et il faut a priori que je me plonge dans les commandes SSH ou un truc de ce genre... Pas ma tasse de thé mais comme toujours, on finit par trouver la solution, il suffit de s'accrocher un peu parfois

Merci à tous !!!

UsagiYojimbo · 5 Mars 2018

Avec l'url, on pourrait davantage vous aider.

mengeco · 5 Mars 2018

Je comprends mais désolé, vue la bourde, je crois qu'il vaut mieux que le site ne soit pas associé à ce post dans les résultats de recherches... J'espère que vous me comprendrez
Bonne soirée !

UsagiYojimbo · 6 Mars 2018

Si ce que dit Spout est vrai, alors tu peux déjà commence par ajouter la directive suivante dans le fichier .htaccess :

Options -Indexes

mengeco · 6 Mars 2018

et peut-être qu'un petit ajout sur robot.txt peut aussi faire l'affaire

spout · 6 Mars 2018

robots.txt

mengeco · 6 Mars 2018

Oui, merci pour cette précision !!

elas · 15 Mars 2018

finalement, dans worpress et les autres CMS, et les sites en général :
1 - on essaie au maximum de ne pas garder les noms de répertoire classiques du CMS
(tout spécialement dans wordpress)
2 - jamais !!! jamais on utilise le fichier robots.txt avec des vrais valeurs dedans
--> il y a google certes (qui déjà ne respecte pas forcément les règles), bing non plus, yandx encore moins et on ne parle même pas de accunetix ou tout programme malveillant

On interdit les accès au repertoires au moyens des droits du system d'exploitation, et on fait très attention au zones ou le browser (apache, IIS,...) doit avoir accès pour des raisons de fonctionnement.

Le respect des bonnes pratiques du crawle d'un site (par robots.txt) appartient aux années 1990.

Les bots actuels indexent tout (officiellement on va dire qu'ils respectent, et peut être les google ou autre respectent ?), même les répertoires par défaut de wordpress si wordpress est détecté.

Quand à robots.txt, on s'en sert uniquement pour envoyer les bots malveillants vers de pot de miel.

mengeco · 15 Mars 2018

En l'état, je crois que c'était une indexation Google sans malveillance particulière, juste que le dossier où se trouve les pj ne disposait pas des bonnes autorisations.

Et oui, j'ai lu effectivement qu'il était utile de ne pas conserver le chemin d'archive d'origine.

Pour robots.txt, ok mais pourquoi cette pratique est encore aussi répandues et trône en bonne place dans les outils Search Console ?

elas · 15 Mars 2018

parce qu'il y a les bonnes pratiques et la réalité.
La réalité sur le web, c'est les personnes malveillantes et les robots des personnes malveillantes qui vont utiliser l'information dans robots.txt pour faire exactement le contraire de ce que doit faire un robot. C'est à dire aller mettre leur nez dans tout ce qui est disallow dans robots.txt à la recherche de .doc .. ou tout fichier que le browser ne traitera pas. Mettre leur nez dans tous les répertoires connus des CMS qui souvent sont mal protégés et acessible au serveur web (apache..), donc au visiteur

Idem pour les repertoires d'upload, idem pour les fichier mal renommés tels que config.php.old ou config.php.1......

Au final, c'est une des solutions pour détecter les bots malveillants automatiquement.
!!! cette info tres simple vaut de l'or !!!!
Dans robots.txt, il faut mettre un repertoire particulier en disallow
Dans le repertoire, un fichier par défaut qui soit si on a les moyen envoie le bot dans des fausses pages
>> c'est la meilleure solution, laisser penser que les personnes ont trouvé
Dans tous les cas passent l'ip en black list pour ses prochaines visites

Simple mais très efficace et ne pénalise pas le référencement puisque supergoogle respecte robots.txt

Après l'indexation par google est un moindre mal, a comparer de la meme indexation par des robots malveillants et qui n'affichent pas leur resultats comme google