Lister toutes les url non indéxées dans Google ?

Discussion dans 'Crawl et indexation Google, sitemaps' créé par webstorm, 17 Février 2009.

  1. webstorm
    webstorm WRInaute discret
    Inscrit:
    26 Octobre 2006
    Messages:
    92
    J'aime reçus:
    0
    Salut,

    Tout est dans le sujet :wink:

    je voudrais savoir s'il existe un moyen de connaître toutes les pages d'un site non indéxées dans Google ?

    Genre, par exemple, en entrée, on donne à manger une liste d'urls dans un fichier sitemap XML et en sortie on obtient la liste de toutes les urls non indéxées dans Google...

    Si quelqu'un sait comment faire je suis preneur !

    Merci d'avance :)
     
  2. Rod la Kox
    Rod la Kox WRInaute accro
    Inscrit:
    24 Juin 2008
    Messages:
    2 803
    J'aime reçus:
    0
    Une différence de la commande site:www.exemple.com et du sitemap correspondant.
     
  3. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 371
    J'aime reçus:
    2
    Oui mais quand on a un peu plus d'une dizaines de pages d'indexées, c'est sympa de pouvoir automatiser :)
     
  4. webstorm
    webstorm WRInaute discret
    Inscrit:
    26 Octobre 2006
    Messages:
    92
    J'aime reçus:
    0
    Lol merci Rod pour le tuyau mais je cherche quelques chose de plus rapide :wink:
    Quand tu dis faire la différence, comment tu la fais la différence ?

    Si seulement il y avait moyen de récupérer les résultats de la commande site:www.exemple.com au format excel, il y aurait moyen de faire un truc mais là des résultats au format HTML il n'y a pas grand chose à faire avec...

    Peut être il y a t'il moyen avec un script php qui récupère tous les résultats de la commande site:www.exemple.com pour les parser. Mais Google n'aime pas trop ce genre de requête automatisée me semble t'il... ?

    Personne a un outil pour faire ce genre de chose ? ou un logiciel ?
     
  5. Rod la Kox
    Rod la Kox WRInaute accro
    Inscrit:
    24 Juin 2008
    Messages:
    2 803
    J'aime reçus:
    0
    Bah je le fais pour mes test de positionnement.
    Ensuite, tu fais une rouyine qui compare les pages indexées et celle du sitemap.

    Je ne vois pas de problème.


    ... si on sait codé, of course. :mrgreen:
     
  6. webstorm
    webstorm WRInaute discret
    Inscrit:
    26 Octobre 2006
    Messages:
    92
    J'aime reçus:
    0
    Tu les récupèrs comment tes pages indéxées ?
    Il fait quoi ton script grosso modo ?
     
  7. Rod la Kox
    Rod la Kox WRInaute accro
    Inscrit:
    24 Juin 2008
    Messages:
    2 803
    J'aime reçus:
    0
    Bah, c'est un script perso, mais pour toi, il ferait :

    Récupération du contenu de la requête site:machin.tld (fonction php)
    Extraction des url. (preg match)
    Boucle pour le faire sur toutes les pages données par GG (donc 1000 URL maxi.)
    Mise en bdd

    Récupération du sitemap de machin.tld (fonction php)
    Extraction des URL (preg match)
    Mise en bdd

    Comparaison.
     
  8. HawkEye
    HawkEye WRInaute accro
    Inscrit:
    23 Février 2004
    Messages:
    13 933
    J'aime reçus:
    4
    Le tout par DataCenter ? ;)
     
  9. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 371
    J'aime reçus:
    2
    On peut même le faire sans script perso, suffit d'utiliser un outil de ranking :)
     
  10. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 417
    J'aime reçus:
    0
    avec un script perso tu peux, en plus, connaître les pages qui sont dans les duplicate
     
  11. webstorm
    webstorm WRInaute discret
    Inscrit:
    26 Octobre 2006
    Messages:
    92
    J'aime reçus:
    0
    Peut-être qu'une âme charitable pourrait partager son (ses) script(s) ... ? :oops:
     
  12. saypee
    saypee WRInaute passionné
    Inscrit:
    7 Mai 2005
    Messages:
    2 399
    J'aime reçus:
    0
    Oui , au lieu de vous la raconter , faites peter vos codes quoi :mrgreen:
     
  13. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 417
    J'aime reçus:
    0
    je n'avais même pas pensé à faire un tel script. C'est ce fil qui m'en a donné l'idée. Mais bon, j'ai tellement d'autres priorités
     
  14. webstorm
    webstorm WRInaute discret
    Inscrit:
    26 Octobre 2006
    Messages:
    92
    J'aime reçus:
    0
    Allez Rod la Kox, fais pas genre que tu suis pas la discu :wink:
    Fais péter ton script !!! :wink:
     
Chargement...
Similar Threads - Lister indéxées Google Forum Date
Lister les dernières pages indexées ? Crawl et indexation Google, sitemaps 11 Mai 2009
Un outil pour lister tous les liens d'un site Netlinking, backlinks, liens et redirections 24 Janvier 2019
Comment lister mes URL pour faire mes redirections 301 Débuter en référencement 26 Janvier 2017
Est ce que mon site s'est fait blacklister? Débuter en référencement 24 Février 2015
Faut-il lister les images dans un sitemap ? Débuter en référencement 31 Mai 2013
Lister les Hn d'une page Rédaction web et référencement 15 Mai 2013
Gros souci Scrapebox : impossible de lister les pages d'un site Administration d'un site Web 24 Juin 2012
Lister de touts les articles Développement d'un site Web ou d'une appli mobile 7 Avril 2012
Lister tous les liens sortants d'un site Netlinking, backlinks, liens et redirections 1 Avril 2012
Lister les pages d'un site avec url non réécrites ? Administration d'un site Web 9 Juin 2011
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice