Bonjour,
J'ai pas débuté 10 posts sur WRI avec bonjour (donc les anciens comprendront ... les autres ensuite :wink: ). Depuis quelques semaines on retrouve sur ce forum un paquet de sites plagiés. Quelques solutions de bases de détection et de blocage.
1. Petit rappel.
Les copieurs sont de plusieurs types.
a. le copieur le plus courant est un moteur de recherche standard (Google, Bing, Yahoo, ... éventuellement yandex (russe) ou bailu (Chine)): ceux là on va les laisser passer :mrgreen: Sinon: la meta (dans le header de chaque page est https://www.google.fr/search?sourceid=navclient&aq=&oq=liste+balise+me ... .........0. ): <META NAME="ROBOTS" content="noindex, nofollow"> ... lu sur le site ybet.be
b. les copieurs occasionnels (on va les appelés comme ça) qui utilisent des logiciels particuliers ou des extentions: normalement c'est juste pour récupérer en local: cas typique, le gamin qui doit faire un devoir et qui n'a pas trop envie de se fatiguer ... ou le prof (il y a des fainéants des deux cotés). Plusieurs pays africains sont (peut-être) dans le collimateur: notamment des pays d'Afrique centrale ou Madagascar .... peu de connections Internet (ou chère) et envie d'apprendre ... mes sites reprennent des formations techniques en informatiques: ca peut sinon encourager, sinon comprendre. :wink:
c. la copie plutôt brutale: envoi direct sans page précédente pour pomper un maximum de pages en un minimum de temps.
d. la copie vicieuse: presque l'identique que C. sauf que le logiciel (c'est une programmation) reprend souvent deux fois la même page de suite, soit prend son temps avec quelques dizaines de secondes entre chaque visite pour rester sur le site plusieurs jours.
PS: tout robot qui ne suit pas le robot.txt est d'office nuisible.
2. Les motivations des "robots".
On oublie les copieurs occationnels de type B ci-dessus.
2.1. les plus ou moins faux robots de bonne conscience. ... souvent des essais, un rêve de détrôner Google qui ne vont pas très loins comme Exalead ou même voilà (même plus repris sur WRI). Il y en a un paquet de petit qui sont (ou seront peut-être) intéressants: j'en doute mais je suis plutôt pour la démocratie et le droit d'expression NORMAL de nature.
2.2. Les sites de E-réputations, analyse de liens vers votre site: Marie Aude va pas être d'accord (je m'en excuse à l'avance): ce sont des sites commerciaux qui analysent les pages par des robots pour vérifier le contenu et surtout les liens. Personnellement, je les juge inutile puisque je payerais jamais ces entreprises pour vérifier mes liens entrants.
2.3 COPIE de sites ... toutes les méthodes peuvent être utilisées. Logiquement, ils ne s'occupent que des liens (et des sociétés qui les emploient) mais peuvent très bien modifier le type pour devenir des agrégateurs de contenus.
2.4. les archiveurs. ces robots récupèrent le contenu de vos pages pour les archiver sur leur propre site: Là il y a archvie.rog qui met en no index et no follow et TOUS les autres : ia archiver par exemple est une plaie pour le duplicate content (A interdire)
3. Les méthodes:
1. Déjà les robots qui récupèrent le contenu des pages. Les plus évolués retravaillent les liens dans la page pour supprimer le site de départ: c'est valable pour les liens internes en absolu, récupérer aussi les images (et modifier la référence). On a vu les méthodes: ca ressemble à de simples visiteurs ...
Mais ils passent plus ou moins régulièrement sur le site (parfois une seule fois)
2. la méthode bête: mise en page du site en frame ou équivalent. Petits exemples:
.thetownkindle..com/link/base-en-electricite-et-electronique-magasin-aHR0cDovL3d3dy55YmV0LmJlL2hhcmQxY2gyL2hhcmQxX2NoMi5waHA=
ou
http://rss...persianwet.ir/Les_entreprises_de_la_Province_de_Luxembourg
Iraquiens ... (pas la peine d'expliquer qu'ils doivent être bloqués. Pourtant, il y a un travail manuel: les <title> et <description> sont modifiés (mal, pas en équation avec le contenu) mais modifiés.
3. Redirection des DNS (je pense) mais je suis un peu faible dans cette partie. Dans cette partie (je l'ai bloqué sans savoir comment), c'est sdd.pen.io Plusieurs sites qui se plaignent de copies sur WRI le reprennent en partie sans savoir que c'est lui.
On y est: la méthode C n'est pas de mon niveau (quoique puisqu'on en reparlera). Pour la méthode B, il y a un code à mettre en dans le header de chaque page:
Et pour la méthode A? Plusieurs méthodes mais qui passent toutes par l'analyse des logs (en gros les visiteurs et leurs problèmes). Personnellement j'ai développé en PHP mais des méthodes automatiques (des logiciels) existent: je laisse les spécialistes de LINUX les nommer.
Désolé si je laisse pour l'instant ce post à ce niveau (mais quelques uns comprendront). Il me reste un paquet de trucs à ajouter: les méthodes de blocage (PHP, .htaccess, iptables, ...), les types de visiteurs indésirables pour d'autres raisons (et un petit outils).
Pour l'instant, ce que j'attend de mes collègues, c'est probablement quelques corrections ..
J'ai pas débuté 10 posts sur WRI avec bonjour (donc les anciens comprendront ... les autres ensuite :wink: ). Depuis quelques semaines on retrouve sur ce forum un paquet de sites plagiés. Quelques solutions de bases de détection et de blocage.
1. Petit rappel.
Les copieurs sont de plusieurs types.
a. le copieur le plus courant est un moteur de recherche standard (Google, Bing, Yahoo, ... éventuellement yandex (russe) ou bailu (Chine)): ceux là on va les laisser passer :mrgreen: Sinon: la meta (dans le header de chaque page est https://www.google.fr/search?sourceid=navclient&aq=&oq=liste+balise+me ... .........0. ): <META NAME="ROBOTS" content="noindex, nofollow"> ... lu sur le site ybet.be
b. les copieurs occasionnels (on va les appelés comme ça) qui utilisent des logiciels particuliers ou des extentions: normalement c'est juste pour récupérer en local: cas typique, le gamin qui doit faire un devoir et qui n'a pas trop envie de se fatiguer ... ou le prof (il y a des fainéants des deux cotés). Plusieurs pays africains sont (peut-être) dans le collimateur: notamment des pays d'Afrique centrale ou Madagascar .... peu de connections Internet (ou chère) et envie d'apprendre ... mes sites reprennent des formations techniques en informatiques: ca peut sinon encourager, sinon comprendre. :wink:
c. la copie plutôt brutale: envoi direct sans page précédente pour pomper un maximum de pages en un minimum de temps.
d. la copie vicieuse: presque l'identique que C. sauf que le logiciel (c'est une programmation) reprend souvent deux fois la même page de suite, soit prend son temps avec quelques dizaines de secondes entre chaque visite pour rester sur le site plusieurs jours.
PS: tout robot qui ne suit pas le robot.txt est d'office nuisible.
2. Les motivations des "robots".
On oublie les copieurs occationnels de type B ci-dessus.
2.1. les plus ou moins faux robots de bonne conscience. ... souvent des essais, un rêve de détrôner Google qui ne vont pas très loins comme Exalead ou même voilà (même plus repris sur WRI). Il y en a un paquet de petit qui sont (ou seront peut-être) intéressants: j'en doute mais je suis plutôt pour la démocratie et le droit d'expression NORMAL de nature.
2.2. Les sites de E-réputations, analyse de liens vers votre site: Marie Aude va pas être d'accord (je m'en excuse à l'avance): ce sont des sites commerciaux qui analysent les pages par des robots pour vérifier le contenu et surtout les liens. Personnellement, je les juge inutile puisque je payerais jamais ces entreprises pour vérifier mes liens entrants.
2.3 COPIE de sites ... toutes les méthodes peuvent être utilisées. Logiquement, ils ne s'occupent que des liens (et des sociétés qui les emploient) mais peuvent très bien modifier le type pour devenir des agrégateurs de contenus.
2.4. les archiveurs. ces robots récupèrent le contenu de vos pages pour les archiver sur leur propre site: Là il y a archvie.rog qui met en no index et no follow et TOUS les autres : ia archiver par exemple est une plaie pour le duplicate content (A interdire)
3. Les méthodes:
1. Déjà les robots qui récupèrent le contenu des pages. Les plus évolués retravaillent les liens dans la page pour supprimer le site de départ: c'est valable pour les liens internes en absolu, récupérer aussi les images (et modifier la référence). On a vu les méthodes: ca ressemble à de simples visiteurs ...
Mais ils passent plus ou moins régulièrement sur le site (parfois une seule fois)
2. la méthode bête: mise en page du site en frame ou équivalent. Petits exemples:
.thetownkindle..com/link/base-en-electricite-et-electronique-magasin-aHR0cDovL3d3dy55YmV0LmJlL2hhcmQxY2gyL2hhcmQxX2NoMi5waHA=
ou
http://rss...persianwet.ir/Les_entreprises_de_la_Province_de_Luxembourg
Iraquiens ... (pas la peine d'expliquer qu'ils doivent être bloqués. Pourtant, il y a un travail manuel: les <title> et <description> sont modifiés (mal, pas en équation avec le contenu) mais modifiés.
3. Redirection des DNS (je pense) mais je suis un peu faible dans cette partie. Dans cette partie (je l'ai bloqué sans savoir comment), c'est sdd.pen.io Plusieurs sites qui se plaignent de copies sur WRI le reprennent en partie sans savoir que c'est lui.
On y est: la méthode C n'est pas de mon niveau (quoique puisqu'on en reparlera). Pour la méthode B, il y a un code à mettre en dans le header de chaque page:
<script language="javascript" type="text/javascript">
if (top != self) {
top.location.href = location.href;
}
</script>
Et pour la méthode A? Plusieurs méthodes mais qui passent toutes par l'analyse des logs (en gros les visiteurs et leurs problèmes). Personnellement j'ai développé en PHP mais des méthodes automatiques (des logiciels) existent: je laisse les spécialistes de LINUX les nommer.
Désolé si je laisse pour l'instant ce post à ce niveau (mais quelques uns comprendront). Il me reste un paquet de trucs à ajouter: les méthodes de blocage (PHP, .htaccess, iptables, ...), les types de visiteurs indésirables pour d'autres raisons (et un petit outils).
Pour l'instant, ce que j'attend de mes collègues, c'est probablement quelques corrections ..