[Duplicate Content] Script anti DC

shelcko · 8 Juillet 2010

Bonjour à tou(te)s,

Lorsque je fais mes validations sur mes annu je prend un partie du texte des desc et le claque dans GG (pour le moment) et ça n'arrive pas souvent qu'il y ai 0 réponses même sur des texte ou il y a 1 ou 2 mots en commun donc je pense que ce genre de script n'est pas optimal.
Donc je voulais savoir si vous connaissez un bon script anti DC que l'on puisse adapter sur une validation de formulaire (ou au moins la technique à utiliser pour avoir un résultat cohérent ça me dérange pas de la coder

), car j'ai cherché un peu partout mais je trouve toujours le même genre qui fait une requête sur GG et qui parse le texte de la page de réception pour voir le nombre de réponses.

Merci d'avance pour vos réponses

YoyoS · 8 Juillet 2010

Re: Script anti DC

Quoi ca ne suffit pas comme script ? Tu voudrais quoi de plus ?

Rod la Kox · 8 Juillet 2010

Re: Script anti DC

Je connais un super script anti-DC et comme je suis d'excellente humeur, je vous en faire part.

Tu prends 10 doigts, n'importe lesquels, mais ceux de a main sont plus efficaces.
Tu place ensuite ses 10 doigts sur ce que l'on nomme "un clavier". Là, faut pas chercher longtemps, dans le premier Super U venu, tu en trouvera un.
On arrive au plus difficile. La connexion.
Tu doigt, oops, tu dois réussir à connecter ensemble, ses 10 doigts avec la matière mole contenu dans une boite crânienne. Evidement, si les doigts et la matière mole font partie du même ensemble, c'est le mieux. Dans le cas contraire, il faudra également faire appel à l'algorithme vocal du tiers qui t'offre momentanément l'usage de sa matière mole.

Une fois réuni ses éléments et la connexion faite, tout devrais fonctionner pour créer un texte qui est totalement unique.

Bon courage.

ricosound · 8 Juillet 2010

Re: Script anti DC

Hello.

Rod la Kox a dit:
Une fois réuni ses éléments et la connexion faite, tout devrais fonctionner pour créer un texte qui est totalement unique.

:mrgreen: :mrgreen: :mrgreen:

J'ai bien rigolé à la recette, mais tu lui proposes une entrée alors qu'il demandait un dessert.

Ce dont il a besoin c'est d'un script de contrôle pour validation des description reçues pour son annuaire !

shelcko a dit:
je voulais savoir si vous connaissez un bon script anti DC que l'on puisse adapter sur une validation de formulaire

Mal réveillé ? Un bon café et ça devrais aller mieux. :wink:

Cordialement, Éric.

ricosound · 8 Juillet 2010

Re: Script anti DC

La question a été reposée il n'y a pas longtemps ici :wink:

https://www.webrankinfo.com/forum/duplicat-content-dans-description-annuair ... 30406.html

Bonne journée, Éric.

shelcko · 8 Juillet 2010

Re: Script anti DC

Rod la Kox a dit:
Je connais un super script anti-DC et comme je suis d'excellente humeur, je vous en faire part.

Tu prends 10 doigts, n'importe lesquels, mais ceux de a main sont plus efficaces.
Tu place ensuite ses 10 doigts sur ce que l'on nomme "un clavier". Là, faut pas chercher longtemps, dans le premier Super U venu, tu en trouvera un.
On arrive au plus difficile. La connexion.
Tu doigt, oops, tu dois réussir à connecter ensemble, ses 10 doigts avec la matière mole contenu dans une boite crânienne. Evidement, si les doigts et la matière mole font partie du même ensemble, c'est le mieux. Dans le cas contraire, il faudra également faire appel à l'algorithme vocal du tiers qui t'offre momentanément l'usage de sa matière mole.

Une fois réuni ses éléments et la connexion faite, tout devrais fonctionner pour créer un texte qui est totalement unique.

Bon courage.

Cette méthode très complexe est celle que j'utilise en ce moment, mais il y a des petits malins qui ne savent pas lire et j'ai entre 50 et 100 inscriptions sans respecter les conditions d'inscriptions assez claires. Donc si je place un des scripts que j'ai trouvé sur le net pour faire un pré-tri tous vos sites avec une optimisation pour un mot clé seront refusé même avec une DU.

carole heinz · 8 Juillet 2010

Re: Script anti DC

shelcko a dit:
je trouve toujours le même genre qui fait une requête sur GG et qui parse le texte de la page de réception pour voir le nombre de réponses

salut,

c'est évident que ce n'est pas une bonne solution.
il faudrait plutôt compter le nombre cumulés de mots mis en gras dans le snippet, c'est à dire compter le nombre de mots présents entre et en pensant à supprimer la suite de balises qui sert au passage à la ligne du snippet.

donc, en gros:

1. lancer la requête sur la description
2. parser la page de résultats
3. isoler les snippets (garder tout ce qui se trouve entre div class="s" et span class="f" )
4. supprimer la suite de balise (saut de ligne)
5. compter le nombre n1 de mots restant entre la première balise et la dernière balise , pour chaque snippet
6. fixer un nombre n2 au-delà duquel tu estimes que la phrase est en DC
7. si n1 > n2 alors warning DC

à adapter selon les cas bien sûr. à partir de 15 mots en gras à la suite on peut estimer qu'on est en DC je pense

shelcko · 8 Juillet 2010

Re: Script anti DC

Merci carole heinz pour cette réponse constructive ça faisait longtemps que j'en avait pas eut sur ce forum remplis d'esprits farceurs.
C'est à peut près ce à quoi je pensais (sauf que je voulais le faire dans l'autre sens en chopant des phrases au hasard dans la descriptions, enlever les stop words et parser la page de résultat pour connaitre la densité de mots trouvés).

forty · 8 Juillet 2010

Re: Script anti DC

tu peux aussi utiliser http://www.phpsources.org/utilisation-de-l-api-de-recherche-google_97.html et compter le nombre de mots en gras.
Tu peux faire des contrôles phrase par phrase ou avec un ensemble de phrases. Tu peux faire des tests avec ou sans ""
rien ne vaut un contrôle manuel car l'API ne retourne pas toujours les même résultats.

shelcko · 8 Juillet 2010

Re: Script anti DC

forty a dit:
Tu peux faire des tests avec ou sans ""
rien ne vaut un contrôle manuel car l'API ne retourne pas toujours les même résultats.

Si je claque directement une phrase en $_GET dans GG ça fait comme si je faisait un contrôle manuel, non ?

zeb · 8 Juillet 2010

Re: Script anti DC

carole heinz a dit:
donc, en gros:

1. lancer la requête sur la description
2. parser la page de résultats
3. isoler les snippets (garder tout ce qui se trouve entre div class="s" et span class="f" )
4. supprimer la suite de balise (saut de ligne)
5. compter le nombre n1 de mots restant entre la première balise et la dernière balise , pour chaque snippet
6. fixer un nombre n2 au-delà duquel tu estimes que la phrase est en DC
7. si n1 > n2 alors warning DC

à adapter selon les cas bien sûr. à partir de 15 mots en gras à la suite on peut estimer qu'on est en DC je pense

c'est bien compliqué je pense.
Dans le cas ou le contenu possiblement dupliqué est demandé a GG entre guillemet (avec des + a la place des espaces entre les mots) et qu'il n'y a pas de réponse GG renvoie un truc alambiqué en proposant autre chose mais la mention "Aucun résultat trouvé pour" est présente en haut de page. il suffit donc de tester le retour GG sur cette phrase pour savoir si c'est du 100% pur original.

carole heinz · 8 Juillet 2010

Re: Script anti DC

zeb a dit:
il suffit donc de tester le retour GG sur cette phrase pour savoir si c'est du 100% pur original.

non cela ne fonctionne pas bien, il suffit qu'un caractère soit différent entre la phrase testée entre guillements et le contenu déjà indexé par Google, pour que Google renvoie "aucun résultat" alors qu'il s'agit bien d'un contenu déjà existant!

>> preuve avec un copier-coller de l'annuaire WRI déjà indexé: Google renvoie "aucun résultat" et pourtant il s'agit bel et bien d'une description déjà utilisée (sur WRI justement, voir premier résultat)

la mesure de la densité de gras sur les snippets est à mon sens la méthode la plus fiable :wink:

Leonick · 8 Juillet 2010

Re: Script anti DC

shelcko a dit:
forty a dit:

Tu peux faire des tests avec ou sans ""
rien ne vaut un contrôle manuel car l'API ne retourne pas toujours les même résultats.

Cliquez pour agrandir...

Si je claque directement une phrase en $_GET dans GG ça fait comme si je faisait un contrôle manuel, non ?

sauf que gg peut blacklister ton ip, surtout si tu interroges depuis un mutu : avec tous les autres sites qui appellent gg en direct depuis l'ip du mutu (1 seule pour des milliers de sites), ça fait du blacklistage d'ip toute la journée

WebRankInfo · 9 Juillet 2010

Re: Script anti DC

Merci Carole pour ce retour d'expérience.

Tu considères uniquement les mots en gras qui se suivent, ou bien le nb de mots en gras en tout dans un snippet ?

zeb · 9 Juillet 2010

Re: Script anti DC

carole heinz a dit:
la mesure de la densité de gras sur les snippets est à mon sens la méthode la plus fiable :wink:

en effet bien vu. :wink:

carole heinz · 10 Juillet 2010

Re: Script anti DC

WebRankInfo a dit:
Tu considères uniquement les mots en gras qui se suivent, ou bien le nb de mots en gras en tout dans un snippet ?

le script idéal devrait sûrement présenter les 2 données, et laisser la décision finale au validateur humain. néanmoins je pense que le nombre de mots en gras qui se suivent est un meilleur indicateur que le nombre total de mots en gras. sachant que Google buggue de temps en temps sur la mise en gras qu'il interrompt à tort (lettres accentuées, ponctuation, chiffres...)

exemple de sortie du script idéal:

- 6 mots consécutifs en gras, puis 10 mots consécutifs en gras sur le premier snippet
- 20 mots en gras en tout soit 80% du premier snippet
- lien vers la SERP
- valider/supprimer/éditer

limite du script: ne repère pas systématiquement les descriptions générées par les outils de content spinning (synonymes notamment). néanmoins on sait que Google passe de + en + de synonymes en gras dans les snippets (exemple agence = agency) et on peut raisonnablement penser que si le synonyme n'est pas passé en gras alors Google ne considère pas qu'il s'agit de DC. sans garantie que le jour où Google développe sa liste de synonymes et de mots/expressions sémantiquement proches (ce qu'il doit faire tous les jours!), la description passe alors en DC d'où l'intérêt de lancer régulièrement la vérification...

zeb · 10 Juillet 2010

Re: Script anti DC

carole heinz a dit:
1. lancer la requête sur la description
2. parser la page de résultats
3. isoler les snippets (garder tout ce qui se trouve entre div class="s" et span class="f" )
4. supprimer la suite de balise (saut de ligne)
5. compter le nombre n1 de mots restant entre la première balise et la dernière balise , pour chaque snippet
6. fixer un nombre n2 au-delà duquel tu estimes que la phrase est en DC
7. si n1 > n2 alors warning DC

L'étape 6 est pas du tout évidente si par exemple tu fait une recherche sur un contenu court / moyen / long, les résultats vont être difficile a rendre probant.

Quoi qu'il en soit, j'ai vite fait un petit script (a l'arrache j'avais pas envie de partir a la pêche au lien aujourd'hui) pour voir ce que cela donne.

Je ne suis pas parti sur un comptage de mots, un comptage de lettres me semblait plus simple. En gros on parse la page pour avoir les différents résultats (c'est la partie la moins fiable avec le pregmatchall) et là dedans on isole le snippet pour lui faire subir deux trois traitements genre :
- on vire les balises pour avoir le nombre de caractères "pur"
- on vire tout ce qui est dans du gras (...) pour avoir le nombre de caractères non gras
ensuite on a plu qu'a calculer

Code:

  <form action="" method="post">
   test phrase <input type="text" name="key" value="<?php if(isset($_POST['key'])){echo stripslashes($_POST['key']);} ?>" />
   <input type="submit" name="submit" value="Ok" /><br><br>
  </form>
  <br/><br/>
<?
	if(isset($_POST['key'])){
		$_POST['key'] = eregi_replace(" ","+",$_POST['key']);
		$_POST['key'] = stripslashes($_POST['key']);

		/**
		 * Google fr
		 */

		// charger le flux
	    $url_flux_ex = "https://www.google.fr/search?q=\"".$_POST['key']."\"";
	    $ch = curl_init();
		curl_setopt($ch, CURLOPT_URL, $url_flux_ex);
		curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
		$String_html = curl_exec($ch);
		$info = curl_getinfo($ch);
		curl_close($ch);
		
		$snippetCount = 0;
		preg_match_all('|<h3 class=.{0,1}r.{0,1}>.{1,2000}<li class=.{0,1}g.{0,1}>|', $String_html, $matches, PREG_SET_ORDER);
		foreach ($matches as $obj) {
			$snippetCount ++;
			$snippet = eregi_replace("^.*<div class=.{0,1}s.{0,1}>","",$obj[0]);
			$snippet = eregi_replace("<span class=.{0,1}f.{0,1}>.*$","",$snippet);
			$snippetText = strip_tags($snippet);
			$snippetHG = eregi_replace("<em>.*</em>","",$snippet);
			$tailleSnippet = strlen($snippetText);
			$tailleSnippetHG = strlen(strip_tags($snippetHG));
			$tailleSnippetG = $tailleSnippet - $tailleSnippetHG;
			
			$pcGras = ($tailleSnippetG/$tailleSnippet)*100;
			$pcNGras = ($tailleSnippetHG/$tailleSnippet)*100;
			$pcGrasT += $pcGras;
			$pcNGrasT += $pcNGras;
			// afichage partiel
			//echo "<b>snippet :</b> $snippet<br/><br/>";
			echo "Taille du snippet : $tailleSnippet caractères.<br/>";
			echo "Taille du snippet hors gras : $tailleSnippetHG caractères $pcNGras %.<br/>";
			echo "Taille du snippet gras : $tailleSnippetG caractères $pcGras %.<hr/>";
		}
		$pcGrasT = $pcGrasT / $snippetCount;
		$pcNGrasT = $pcNGrasT / $snippetCount;
		echo "% gras moyen: $pcGrasT %.<br/>";
		echo "% Non gras moyen : $pcNGrasT %.<hr/>";
	}
?>

C'est très sommaire mais ça peut servir de base d'expérimentation.

sur une phrase courte forcement dupliqué (titre depeche AFP par exemple) ça donne un truc du genre :
Google
"Fort séisme de magnitude 6,2 dans le Pacifique, au sud de Guam"

Taille du snippet : 172 caractères.
Taille du snippet hors gras : 172 caractères 100 %.
Taille du snippet gras : 0 caractères 0 %.
Taille du snippet : 165 caractères.
Taille du snippet hors gras : 103 caractères 62.424242424242 %.
Taille du snippet gras : 62 caractères 37.575757575758 %.
Taille du snippet : 148 caractères.
Taille du snippet hors gras : 86 caractères 58.108108108108 %.
Taille du snippet gras : 62 caractères 41.891891891892 %.
Taille du snippet : 155 caractères.
Taille du snippet hors gras : 93 caractères 60 %.
Taille du snippet gras : 62 caractères 40 %.
Taille du snippet : 160 caractères.
Taille du snippet hors gras : 160 caractères 100 %.
Taille du snippet gras : 0 caractères 0 %.

% gras moyen: 23.89352989353 %.
% Non gras moyen : 76.10647010647 %.

sur une portion plus importante de la dépèche ça donne :
google
Un fort séisme de magnitude 6,2 s'est produit samedi au sud de l'île américaine de Guam dans l'océan Pacifique à une profondeur de 10 km, a annoncé l'Institut de géophysique américain (USGS), sans qu'une alerte au tsunami ne soit déclenchée dans l'immédiat.

Taille du snippet : 174 caractères.
Taille du snippet hors gras : 22 caractères 12.64367816092 %.
Taille du snippet gras : 152 caractères 87.35632183908 %.
Taille du snippet : 174 caractères.
Taille du snippet hors gras : 22 caractères 12.64367816092 %.
Taille du snippet gras : 152 caractères 87.35632183908 %.
Taille du snippet : 169 caractères.
Taille du snippet hors gras : 21 caractères 12.426035502959 %.
Taille du snippet gras : 148 caractères 87.573964497041 %.
Taille du snippet : 174 caractères.
Taille du snippet hors gras : 22 caractères 12.64367816092 %.
Taille du snippet gras : 152 caractères 87.35632183908 %.
Taille du snippet : 174 caractères.
Taille du snippet hors gras : 22 caractères 12.64367816092 %.
Taille du snippet gras : 152 caractères 87.35632183908 %.
Taille du snippet : 174 caractères.
Taille du snippet hors gras : 22 caractères 12.64367816092 %.
Taille du snippet gras : 152 caractères 87.35632183908 %.
Taille du snippet : 174 caractères.
Taille du snippet hors gras : 22 caractères 12.64367816092 %.
Taille du snippet gras : 152 caractères 87.35632183908 %.
Taille du snippet : 171 caractères.
Taille du snippet hors gras : 9 caractères 5.2631578947368 %.
Taille du snippet gras : 162 caractères 94.736842105263 %.
Taille du snippet : 174 caractères.
Taille du snippet hors gras : 10 caractères 5.7471264367816 %.
Taille du snippet gras : 164 caractères 94.252873563218 %.

% gras moyen: 88.96684568889 %.
% Non gras moyen : 11.03315431111 %.

Il y a sûrement mieux donc a vos pianos si le coeur vous en dit.

Aaarrrgggh · 13 Juillet 2010

Hello,

au bout de x requêtes, Google nous considère comme des robots effectuant des requêtes de masse.
Me retrouve souvent avec la page :

Vérification nécessaire...
Merci de votre coopération...

... Il semble que votre ordinateur ou votre réseau envoie des requêtes automatiques. La protection des utilisateurs est notre priorité. Par conséquent, nous ne pouvons pas traiter votre requête immédiatement.
Pour continuer à effectuer des recherches, veuillez saisir les caractères que vous voyez affichés ci-dessous :

Quelqu'un a une parade ?

Merci,

zeb · 13 Juillet 2010

changer d'IP ou passer a travers un proxy clean pour Google. Dans tous les cas éviter les demandes répétitives (faut y aller doucement avec le F5).

Voir éventuellement si l'api google avec l'api Key permet de le secouer un peut plus.

Aaarrrgggh · 13 Juillet 2010

Hello,

en fait je ne le fais pas manuellement. Je passe par le protocole Curl et effectue des requêtes par 10 environ. Mais auparavant, j'avais plus de liberté par rapport à ces requêtes. J'ai l'impression que Google a réduit le nombre de requêtes autorisées par jour.

zeb · 13 Juillet 2010

Curl ne t'empêche pas de passer a travers un proxy ;-) Mais bon 10 requêtes a la suite c'est sur que ça fait beaucoup, fait attention a pas te faire bloquer l'IP de ton serveur.

J'ai l'impression que Google a réduit le nombre de requêtes autorisées par jour.

J'ai aussi cette impression car je me suis fais pister super vite lors des test du script au dessus.

YoyoS · 13 Juillet 2010

Aaarrrgggh a dit:
effectue des requêtes par 10 environ. Mais auparavant, j'avais plus de liberté par rapport à ces requêtes.

C'est que google préfère que tu espaces tes requêtes. Il ne faut justement pas faire des requêtes par lots de 10 requêtes !

KOogar · 14 Juillet 2010

zeb a dit:
Voir éventuellement si l'api google avec l'api Key permet de le secouer un peut plus.

autant que tu veux puisque que Google n'impose pas de limite, c'est le nombre de résultat par requete qui est limité a 64 et a 32 en local

zeb · 14 Juillet 2010

KOogar a dit:
zeb a dit:

Voir éventuellement si l'api google avec l'api Key permet de le secouer un peut plus.

Cliquez pour agrandir...

autant que tu veux puisque que Google n'impose pas de limite, c'est le nombre de résultat par requete qui est limité a 64 et a 32 en local

sachant que google te donne des résultats différents en fonction que tu est connecté a ton compte / ou pas / ta région etc ...
Peut tu me dire si les résultats donnés avec une clé google ne sont pas "influencés" ?

Leonick · 14 Juillet 2010

zeb a dit:
sachant que google te donne des résultats différents en fonction que tu est connecté a ton compte / ou pas / ta région etc ...
Peut tu me dire si les résultats donnés avec une clé google ne sont pas "influencés" ?

de toutes façons, les résultats sont tellement personnalisés que, même en n'étant pas connecté sur ton compte, tu n'obtiendras pas les mêmes résultats que tous les internautes, donc l'api n'y changera pas grand chose.
N'as-tu jamais essayé les requêtes tapées par tes visiteurs (trouvées dans tes stats) et ne pas avoir trouvé ton site, même en regardant 3 pages plus loin dans les serp ?

zeb · 14 Juillet 2010

Leonick a dit:
N'as-tu jamais essayé les requêtes tapées par tes visiteurs (trouvées dans tes stats) et ne pas avoir trouvé ton site, même en regardant 3 pages plus loin dans les serp ?

Si justement c'est pour cela que je me demande si les requêtes traitées via une key google sont "plus neutres".
En fait pour avoir une certaine "neutralité" j'ai des scripts qui consultes depuis le serveur donc avec un profil plus neutre que le miens et sans coockies

Leonick · 14 Juillet 2010

le "problème", c'est que les requêtes des internautes ne sont plus "neutres", et je me demande même si la géolocalisation des entreprises IRL et de l'internaute n'interfèrent pas dans les serp, au delà même de l'affichage de la map
donc même si nous on navigue en version "neutre", on n'arrive, très souvent, plus à récupérer les mêmes positionnements que les internautes

KOogar · 15 Juillet 2010

ce sont 2 flux different avec des resultats differents, ceux de l'api sont plus pauvres (plus neutre). le moteur public est beaucoup mieux si on peu y acceder par fopen. L'api est une solution si les requetes a passer sont tres nombreuses (100 000 par ex), si le serveur n'accède pas au moteur public par fopen, ou si on travaille sur des requetes peu concurrentielles

YoyoS · 24 Juillet 2010

Alors, je viens apporter ma pierre à ce topic. Sachez que tout ce que j'ai utilisé de ce topic, c'est le mot GRAS. Qui a tout déclenché dans ma tête

Sinon j'ai rien repris d'autre. Voila le code que j'ai réalisé pour cet outil qui permet donc de calculer le taux de mots en gras dans un résultat de google.

On part d'un tableau $arrValues ou chaque case est un résultat de google provenant de l'api SEARCH. Rien de compliqué à faire, juste utiliser l'api google.
On va récupérer seulement ce qui est en gras dans le snippet et ensuite exploser chaque résultat en mots avec la fonction explode() de php

PHP:

<span class="syntaxdefault"><br /></span><span class="syntaxcomment">// On a un tableau de tous les mots du snippet (donc ceux en gras et ceux non en gras)<br /></span><span class="syntaxdefault">$all </span><span class="syntaxkeyword">=</span><span class="syntaxdefault"> explode</span><span class="syntaxkeyword">(</span><span class="syntaxstring">' '</span><span class="syntaxkeyword">,</span><span class="syntaxdefault">$val</span><span class="syntaxkeyword">->{</span><span class="syntaxstring">'content'</span><span class="syntaxkeyword">});</span><span class="syntaxdefault"> <br /><br /></span><span class="syntaxcomment">// On récupère et  réunit tous les morceaux en gras<br /></span><span class="syntaxdefault">preg_match_all</span><span class="syntaxkeyword">(</span><span class="syntaxstring">"/(<([\w]+)[^>]*>)(.*?)(<\/\\2>)/"</span><span class="syntaxkeyword">,</span><span class="syntaxdefault"> $rawgras</span><span class="syntaxkeyword">,</span><span class="syntaxdefault"> $matches</span><span class="syntaxkeyword">);<br /></span><span class="syntaxdefault">$rawgras </span><span class="syntaxkeyword">=</span><span class="syntaxdefault"> implode</span><span class="syntaxkeyword">(</span><span class="syntaxstring">' '</span><span class="syntaxkeyword">,</span><span class="syntaxdefault">$matches</span><span class="syntaxkeyword">[</span><span class="syntaxdefault">0</span><span class="syntaxkeyword">]);</span><span class="syntaxdefault"> <br /><br /></span><span class="syntaxcomment">// On crée un tableau de mots en gras<br /></span><span class="syntaxdefault">$gras </span><span class="syntaxkeyword">=</span><span class="syntaxdefault"> explode</span><span class="syntaxkeyword">(</span><span class="syntaxstring">' '</span><span class="syntaxkeyword">,</span><span class="syntaxdefault">strip_tags</span><span class="syntaxkeyword">(</span><span class="syntaxdefault">$rawgras</span><span class="syntaxkeyword">));</span><span class="syntaxdefault"> <br /><br /></span><span class="syntaxcomment">//On calcul un pourcentage du nombre de mots en gras par rapport au nombre de l'ensemble des mots. Au dessus de 50% > Il y a plagiat   <br /></span><span class="syntaxdefault">$percent </span><span class="syntaxkeyword">=</span><span class="syntaxdefault"> round</span><span class="syntaxkeyword">(</span><span class="syntaxdefault">count</span><span class="syntaxkeyword">(</span><span class="syntaxdefault">$gras</span><span class="syntaxkeyword">)/</span><span class="syntaxdefault">count</span><span class="syntaxkeyword">(</span><span class="syntaxdefault">$all</span><span class="syntaxkeyword">)*</span><span class="syntaxdefault">100</span><span class="syntaxkeyword">,</span><span class="syntaxdefault">2</span><span class="syntaxkeyword">);</span><span class="syntaxdefault">  </span>

Notez que je ne mesure pas simplement la densité de gras mais la densité des mots en gras. Ce qui est très différent

WebRankInfo · 28 Juillet 2010

Merci pour cette contribution ! (je rentre seulement de vacances...)
Je vais mettre mon commentaire dans l'autre topic
Olivier

rudddy · 3 Octobre 2010

merci à vous 2 pour vos scripts mais, car il y a un mais :

comment testez-vous ? si la description à tester fait 400 caractères (par exemple), vous envoyez tout d'un coup ? vous faîtes par tranche de x caractères ? de mémoire, je croyais que google avait arrêter de fournir des réponses à ces requêtes entre guillemets de plus de 20 mots (de mémoire) !

Aaarrrgggh · 4 Octobre 2010

Hello,

soit une phrase entière, soit les X premiers mots, soit une expression prise aléatoirement au sein de la description.

rudddy · 4 Octobre 2010

Aaarrrgggh a dit:
Hello,

soit une phrase entière, soit les X premiers mots, soit une expression prise aléatoirement au sein de la description.

donc la solution n'est pas fiable à 100% : si le DC est au début et qu'on checke la fin, c'est pas bon et inversement

Mountain Magazin · 4 Octobre 2010

Non, c'est pas totalement fiable, c'est sur.

Google demande de lutter contre le duplicate, mais on n'a pas vraiment d'outil totalement efficace et automatisable à notre disposition.

Ils devraient y réfléchir, je sais qu'on a l'API, mais c'est pas vraiment satisfaisant non plus. Google déclare faire confiance aux utilisateurs, qu'il nous laisse l'aider à faire le ménage du duplicate, au moins sur nos sites !