Détecteur de duplicate content (sans API Google) ?

Discussion dans 'Référencement Google' créé par tyler23, 13 Août 2011.

  1. tyler23
    tyler23 WRInaute discret
    Inscrit:
    15 Mars 2011
    Messages:
    109
    J'aime reçus:
    0
    Bonjour

    Existe-t-il, actuellement, des solutions pour détecter le contenu dupliqué externe d'une base de données type blog d'actu ou site de petites annonces. Nous avions une solution qui nous satisfaisait plus ou moins basée sur l'API Google, mais depuis quelques semaines, ça ne fonctionne plus, Google ayant fermé son API en version gratuite.

    J'ai entendu dire qu'il était possible de passer par Bing ou Yahoo, en parsant leurs résultats, ou via leur API, je ne sais pas trop... Existe-t-il une solution existante ? De la documentation sur le sujet ? Un script open source sur lequel se baser ?

    Pour ceux qui tiennent un annuaire de sites, comme l'annuaire WRI, vers quelle solution vous êtes-vous tourné ?

    Toute aide serait bonne à prendre en ce week-end de Panda français. ;)
     
  2. loran750
    loran750 WRInaute passionné
    Inscrit:
    15 Mars 2005
    Messages:
    2 009
    J'aime reçus:
    0
    Hello

    On chasse le duplicate content à cause de Google
    Donc ...
    ... la solution est le scraping (lecture des pages puis extraction de ce qu'on veut dans la page lue).

    Pour ne pas etre blacklisté par le serveur (comportement non naturel puisqu'on charge massivement les pages de resultat de Google) il faut prendre des proxies. Cf mon article http://www.unpeudeseo.com/2011/07/21/proxys-gratuits-trop-cher/
     
  3. tyler23
    tyler23 WRInaute discret
    Inscrit:
    15 Mars 2011
    Messages:
    109
    J'aime reçus:
    0
    Ah oui, merci. C'est donc la solution actuelle... Tant pis pour la bande passante de Google, c'est vrai. ;)

    En admettant qu'on passe donc par le parsage direct... Mais qu'on a pas la possibilité d'utiliser un proxy, mais un script sur des machines locales, avec possibilité de mettre à jour l'adresse IP de son FAI, quelle limite de "pause" entre les requêtes me conseillerais tu pour éviter de se faire blacklister trop vite ? :)

    1 requête par seconde, c'est trop agressif et détectable par Google, ou on est largement bon avec une pause de ce type ?

    Encore merci d'avance !
     
  4. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 274
    J'aime reçus:
    0
    j'espère que tu es sur un dédié, car sinon avant même ta première requête ton ip sera déjà blacklisté (par les autres sites hébergés)
     
  5. loran750
    loran750 WRInaute passionné
    Inscrit:
    15 Mars 2005
    Messages:
    2 009
    J'aime reçus:
    0
    Il faut plusieurs IPs afin de scrapper soit à la suite, soit en parallèle.
    Le nombre d'IP permettra de moins se faire blacklister.

    Imagine 10 proxies, avec disons au hasard 3, 4 ou 5 secondes d'écart entre chaque requête.
    Cela te permet d'interroger Google
    => 10 proxies * 60 secondes / 3 s d'écart = 200 fois par minute.
    => 10 proxies * 60 secondes / 4 s d'écart = 150 fois par minute.
    => 10 proxies * 60 secondes / 5 s d'écart = 120 fois par minute.

    Une requête toutes les 1 secondes est évidemment trop évident. Toutes les 5 secondes, ça me parait safe. Il faut aussi que ça ne soit pas régulier ... soit entre 0 et 1 seconde, en plus ou en moins.

    Plus on a de proxies, plus on peut être tranquille car on peut se permettre de scrapper plus tranquillement.
    Et évidemment, prendre des proxies de qualité... pas les proxies qu'on trouve sur internet, déjà massivement utilisés et donc blacklistés !
     
  6. tyler23
    tyler23 WRInaute discret
    Inscrit:
    15 Mars 2011
    Messages:
    109
    J'aime reçus:
    0
    Bonne idée que de générer aléatoirement un temps de pause compris entre 3 et 5 secondes ! :) merci Loran !
     
  7. leroile
    leroile WRInaute discret
    Inscrit:
    6 Février 2009
    Messages:
    190
    J'aime reçus:
    1
    Merci c'est exactement ce que je cherchais...
     
Chargement...
Similar Threads - Détecteur duplicate content Forum Date
Voici mon detecteur de adblock educatif (anti-bloqueur de pubs) Demandes d'avis et de conseils sur vos sites 24 Janvier 2013
Forcer detecteur-de-fumee.net/boutique/ vers www.detecteur-de-fumee.net/boutique/ Problèmes de référencement spécifiques à vos sites 1 Septembre 2010
Détecteur les liens morts sans se prendre la tête... Sur un blog ou tout site... Développement d'un site Web ou d'une appli mobile 1 Août 2010
Google lance RatProxy, un détecteur de failles Web Google : l'entreprise, les sites web, les services 7 Juillet 2008
Liste de sites tricheur + outil détecteur de faux PageRank Netlinking, backlinks, liens et redirections 5 Juin 2007
detecteur de mots clés Débuter en référencement 12 Mai 2007
Detecteur lecteurs Développement d'un site Web ou d'une appli mobile 29 Novembre 2006
JS : Utilisation d´un script détecteur de langue Référencement Google 24 Octobre 2006
Quelles sont les caractéristiques de deux pages duplicate ? Problèmes de référencement spécifiques à vos sites 9 Mai 2022
mot-clé dans l'URL et le nom de domaine : duplicate content ? Référencement Google 1 Mars 2022
Duplicate content - Sous domaine - Landing Page Débuter en référencement 31 Janvier 2022
Question Duplicate Content sur une partie de la page Développement d'un site Web ou d'une appli mobile 12 Janvier 2022
Stratégie Blog de Niche Internationalisé et duplicate content Référencement Google 19 Décembre 2021
Nouveau domaine et duplicate content Référencement Google 29 Novembre 2021
Duplicate content sur la meta description Débuter en référencement 14 Novembre 2021
Duplicate images pour déclinaisons de produits Débuter en référencement 20 Octobre 2021
Prise en compte des attributs de déclinaisons, sans faire du duplicate content e-commerce 29 Septembre 2021
Publier dans SlideShare : risque de duplicate content ? Référencement Google 14 Juillet 2021
WordPress Duplicate ou pas widget droite du site Référencement Google 9 Juin 2021
Duplicate Content et réseaux sociaux ? Référencement Google 30 Mai 2021