Détecteur de duplicate content (sans API Google) ?

WRInaute discret
Bonjour

Existe-t-il, actuellement, des solutions pour détecter le contenu dupliqué externe d'une base de données type blog d'actu ou site de petites annonces. Nous avions une solution qui nous satisfaisait plus ou moins basée sur l'API Google, mais depuis quelques semaines, ça ne fonctionne plus, Google ayant fermé son API en version gratuite.

J'ai entendu dire qu'il était possible de passer par Bing ou Yahoo, en parsant leurs résultats, ou via leur API, je ne sais pas trop... Existe-t-il une solution existante ? De la documentation sur le sujet ? Un script open source sur lequel se baser ?

Pour ceux qui tiennent un annuaire de sites, comme l'annuaire WRI, vers quelle solution vous êtes-vous tourné ?

Toute aide serait bonne à prendre en ce week-end de Panda français. ;)
 
WRInaute discret
Ah oui, merci. C'est donc la solution actuelle... Tant pis pour la bande passante de Google, c'est vrai. ;)

En admettant qu'on passe donc par le parsage direct... Mais qu'on a pas la possibilité d'utiliser un proxy, mais un script sur des machines locales, avec possibilité de mettre à jour l'adresse IP de son FAI, quelle limite de "pause" entre les requêtes me conseillerais tu pour éviter de se faire blacklister trop vite ? :)

1 requête par seconde, c'est trop agressif et détectable par Google, ou on est largement bon avec une pause de ce type ?

Encore merci d'avance !
 
WRInaute accro
j'espère que tu es sur un dédié, car sinon avant même ta première requête ton ip sera déjà blacklisté (par les autres sites hébergés)
 
WRInaute passionné
Il faut plusieurs IPs afin de scrapper soit à la suite, soit en parallèle.
Le nombre d'IP permettra de moins se faire blacklister.

Imagine 10 proxies, avec disons au hasard 3, 4 ou 5 secondes d'écart entre chaque requête.
Cela te permet d'interroger Google
=> 10 proxies * 60 secondes / 3 s d'écart = 200 fois par minute.
=> 10 proxies * 60 secondes / 4 s d'écart = 150 fois par minute.
=> 10 proxies * 60 secondes / 5 s d'écart = 120 fois par minute.

Une requête toutes les 1 secondes est évidemment trop évident. Toutes les 5 secondes, ça me parait safe. Il faut aussi que ça ne soit pas régulier ... soit entre 0 et 1 seconde, en plus ou en moins.

Plus on a de proxies, plus on peut être tranquille car on peut se permettre de scrapper plus tranquillement.
Et évidemment, prendre des proxies de qualité... pas les proxies qu'on trouve sur internet, déjà massivement utilisés et donc blacklistés !
 
WRInaute discret
Bonne idée que de générer aléatoirement un temps de pause compris entre 3 et 5 secondes ! :) merci Loran !
 
Discussions similaires
Haut