Logiciel qui crawl un site et recherche du Duplicate

WRInaute discret
Bonjour,

Je recherche un logiciel qui crawl un site à la recherche de duplicate content, en comparant avec les pages ignorées de google, est ce que ça éxiste ?

Cordialement

Edit: Existe t'il une commande pour afficher toutes les pages ignorées par google sur un site ?
 
WRInaute accro
Pas sûr que ca soit que tu cherche mais j'utilise un petit truc qu'on m'a renseigné pour vérifier les pages que GG tient compte (ou plutôt) le nombre de pages vues comme pertinentes.
Aol utilise la base GG mais semble ne prendre que la partie standard (pas par exemple les pages sanctionnées (PR grisé).
https://www.google.be/search?sourceid=na ... tique%2ebe 754 résultats

http://www.recherche.aol.fr/aol/search? ... que.be&rp= 479 résultats. Toutes les pages non reprises sur AOL que j'ai vérifié sont effectvement sanctionnées.
 
Nouveau WRInaute
Je pensais que cela entrainerait l'exclusion des pages grisées des résultats, mais non... On ne peut donc pas les estimer comme "rejetées" par Google ?

Par ailleurs, comment définir les URL retenues et les URL non retenues, avec les dizaines et dizaines de pages qui affichent des résultats ?

Je ne comprends pas bien comment tu utilises ça... :wink: Merci de m'éclairer !

Cordialement
 
WRInaute discret
Merci, mais ça me semble assez fastidieux, en fait google indexe 550 pages sur 1000 de mon site web, je n'ai rien dupliqué mais je soupçonne un site de me pomper régulièrement du contenu avant crawl.

Il me faudrait vraiment un outil qui puisse me dire quelles pages sont ignorées par google..

Ça dois exister non ? =)
 
WRInaute passionné
ybet a dit:
Pas sûr que ca soit que tu cherche mais j'utilise un petit truc qu'on m'a renseigné pour vérifier les pages que GG tient compte (ou plutôt) le nombre de pages vues comme pertinentes.
Aol utilise la base GG mais semble ne prendre que la partie standard (pas par exemple les pages sanctionnées (PR grisé).
https://www.google.be/search?sourceid=na ... tique%2ebe 754 résultats

http://www.recherche.aol.fr/aol/search? ... que.be&rp= 479 résultats. Toutes les pages non reprises sur AOL que j'ai vérifié sont effectvement sanctionnées.

La piste semblait intéressante.. cependant je n'arrive pas à la même conclusion que toi.
Même si le résultat entre AOL et Google est conséquent, quelques recherches ont montré des pages non reprise par AOL annoté par Google avec un PR.

Après : d'où vient cette différence.........................
 
WRInaute accro
druart a dit:
La piste semblait intéressante.. cependant je n'arrive pas à la même conclusion que toi.
Même si le résultat entre AOL et Google est conséquent, quelques recherches ont montré des pages non reprise par AOL annoté par Google avec un PR.

Après : d'où vient cette différence.........................
J'avoue pas avoir vérifié celle qui avaient du PR, juste les pages repassées en grisées
-http://www.materiel-informatique.be/modem.php sanctionnée et http://www.recherche.aol.fr/aol/search? ... +modem&rp= pas trouvé la page. J'ai déjà testé sur une vingtaine de page dans ce cas, idem ... mais ca prouve pas qu'une page avec PR n'est pas sanctionnée non plus.
J'ai fait la même chose avec quelques sites qui avaient pris une baffe aussi. Parfois c'est assez affolant :? J'utiliserais bien alo pour mes recherches, mais trente pubs avec 3 résultats par pages, c'est plutôt casse pied.
Mais effectivement c'est une piste pas une réalité à prendre à la lettre. Sur mon WWW 695 pages reprises pour AOL, 15600 pour Google (à part la partie vente et le forum), rien d'anormal sur le site ... :wink:
juste une petite piste ...

Maintenant pour le duplicate ... puisque je viens de vérifier en long et en large deux sites (et pas le www), j'ai repris des morceaux de phrases directement sur Google entre "", supprimé en début et en fin les caractères de ponctuation, le, la, ... Certains sont facilement trouvables, d'autres rien trouvé ..
De toute façon, en cas de duplicate de phrases, trois solutions chez GG:
1. en garde quelques unes et met les autres en résultat ignorés ... souvent les annuaires où les sites sont inscrits en même temps, ceux qu'il garde sont souvent les mêmes sites
2. garde la page de référencence et oublie complètement ou presque les copies (souvent des vieux articles).
3. fait disparaître tout le monde :?

C'est même encore pire parfois, en essayant un de me sites, suis tombé sur des copieurs du WWW alors que si j'essaye les phrases des pages du WWW, le copieur n'apparaît pas (j'avoue, quelques phrases copiées entre mes deux sites, sauf que le www sert de vieux site et est pris comme référence - surtout quand le copieur laisse mes liens interes :lol: )

Bref, manuel et long pour rien trouvé parfois.
 
Discussions similaires
Haut