Détecteur de duplicate content (sans API Google) ?

tyler23 · 13 Août 2011

Bonjour

Existe-t-il, actuellement, des solutions pour détecter le contenu dupliqué externe d'une base de données type blog d'actu ou site de petites annonces. Nous avions une solution qui nous satisfaisait plus ou moins basée sur l'API Google, mais depuis quelques semaines, ça ne fonctionne plus, Google ayant fermé son API en version gratuite.

J'ai entendu dire qu'il était possible de passer par Bing ou Yahoo, en parsant leurs résultats, ou via leur API, je ne sais pas trop... Existe-t-il une solution existante ? De la documentation sur le sujet ? Un script open source sur lequel se baser ?

Pour ceux qui tiennent un annuaire de sites, comme l'annuaire WRI, vers quelle solution vous êtes-vous tourné ?

Toute aide serait bonne à prendre en ce week-end de Panda français.

loran750 · 13 Août 2011

Hello

On chasse le duplicate content à cause de Google
Donc ...
... la solution est le scraping (lecture des pages puis extraction de ce qu'on veut dans la page lue).

Pour ne pas etre blacklisté par le serveur (comportement non naturel puisqu'on charge massivement les pages de resultat de Google) il faut prendre des proxies. Cf mon article http://www.unpeudeseo.com/2011/07/21/proxys-gratuits-trop-cher/

tyler23 · 13 Août 2011

Ah oui, merci. C'est donc la solution actuelle... Tant pis pour la bande passante de Google, c'est vrai.

En admettant qu'on passe donc par le parsage direct... Mais qu'on a pas la possibilité d'utiliser un proxy, mais un script sur des machines locales, avec possibilité de mettre à jour l'adresse IP de son FAI, quelle limite de "pause" entre les requêtes me conseillerais tu pour éviter de se faire blacklister trop vite ?

1 requête par seconde, c'est trop agressif et détectable par Google, ou on est largement bon avec une pause de ce type ?

Encore merci d'avance !

Leonick · 13 Août 2011

j'espère que tu es sur un dédié, car sinon avant même ta première requête ton ip sera déjà blacklisté (par les autres sites hébergés)

loran750 · 13 Août 2011

Il faut plusieurs IPs afin de scrapper soit à la suite, soit en parallèle.
Le nombre d'IP permettra de moins se faire blacklister.

Imagine 10 proxies, avec disons au hasard 3, 4 ou 5 secondes d'écart entre chaque requête.
Cela te permet d'interroger Google
=> 10 proxies * 60 secondes / 3 s d'écart = 200 fois par minute.
=> 10 proxies * 60 secondes / 4 s d'écart = 150 fois par minute.
=> 10 proxies * 60 secondes / 5 s d'écart = 120 fois par minute.

Une requête toutes les 1 secondes est évidemment trop évident. Toutes les 5 secondes, ça me parait safe. Il faut aussi que ça ne soit pas régulier ... soit entre 0 et 1 seconde, en plus ou en moins.

Plus on a de proxies, plus on peut être tranquille car on peut se permettre de scrapper plus tranquillement.
Et évidemment, prendre des proxies de qualité... pas les proxies qu'on trouve sur internet, déjà massivement utilisés et donc blacklistés !

tyler23 · 13 Août 2011

Bonne idée que de générer aléatoirement un temps de pause compris entre 3 et 5 secondes !

merci Loran !

leroile · 13 Août 2011

Merci c'est exactement ce que je cherchais...