Supprimer massivement les pages 404 du cache (Code)

Discussion dans 'Crawl et indexation Google, sitemaps' créé par giviz, 21 Novembre 2006.

  1. giviz
    giviz WRInaute discret
    Inscrit:
    18 Juillet 2005
    Messages:
    112
    J'aime reçus:
    0
    Salut à tous,

    Voici pour ceux qui doivent supprimer beaucoup de pages 404 du cache de Google une manière de faire.
    Avant toute chose je ne tiens pas à ouvrir le débat du "c'est bien de le faire ou ce n'est pas bien", vous pensez ce que vous voulez et ca vous regarde...

    Pour ce qui doivent faire face à cette problématique comme c'était mon cas, voici comment supprimer ces pages à coup de 100 par 100 au lieu de 1 par 1.

    Déjà il faut vous logguer sur

    http://services.google.com:8882/urlconsole/controller?cmd=reload&lastcmd=login
    Bien sur vous devez créer un compte pour ca.

    Une fois loggué il vous faut ouvrir une seconde fenetre Google et effectuer correctement une recherche qui va vous lister uniquement les pages en 404 sur votre site.

    Par exemple si vous avez supprimé un lot de pages dont le nom est de la forme 'aaaa-XXX.html'

    Vous pourriez effectuer la recherche suivante :
    Code:
    site:www.exemple.com inurl:aaaa
    Je vous recommande fortement d'avoir régler les préférences de Google pour afficher 100 résultats par page.

    Ensuite il vous faut ajouter &filter=0 dans l'url pour virer les résultats complémentaires également.

    Vous devez donc vous trouver devant une liste de 100 urls de pages en 404 présentes sur votre site.

    Il ne vous reste plus qu'à enregistrer la page que vous avez sous les yeux sur votre ordi, et à la donner à manger au bout de code php que voici :

    Code:
    <?
    
    // search.html correspond à la page de résultats de google récupérée
    $fd = fopen('search.html', 'r');
    $datas = fread($fd, filesize('search.html'));
    
    $i=0;
    while($pos = strchr($datas, '<a class="l" ')) {
        $datas = substr($pos, 19);
        $pos = strchr($datas, '">');
        $url = substr($datas, 0, strlen($datas) - strlen($pos));
            echo '<iframe src="http://services.google.com:8882/urlconsole/controller?cmd=authenticateSiteDown&url='.urlencode($url).'&type=noindex"></iframe>';
        $datas = $pos;
        $i++;
    }
    
    ?>
    
    Ce bout de code doit etre ouvert dans le même navigateur ou vous etes loggué à urlconsole et votre session à urlconsole doit toujours etre valide (elle dure très peu de temps, genre 2 minutes).

    Ce la va ouvrir 100 frames dans la fenetre affiché par le code, chaque frame se chargera d'ajouter un des résultats dans la liste des pages à supprimer du cache.

    Il suffit ensuite de récupérer la page 2, puis la 3, etc...

    Les pages sont supprimées sous un délai de 3 à 5 jours.
    Seules les pages en 404 sur votre site seront supprimées.

    Vous l'aurez compris, c'est une technique sans prétention destinée à traiter rapidement un problème que l'on ne peut pas traiter manuellement (qui va aller supprimer 3000 ou 4000 pages une par une...).

    En espérant que ca puisse vous servir ;)
     
  2. oxman
    oxman WRInaute discret
    Inscrit:
    21 Juin 2004
    Messages:
    111
    J'aime reçus:
    0
    Merci chef =)
     
  3. ChauffeurDeBuzz
    ChauffeurDeBuzz WRInaute impliqué
    Inscrit:
    31 Juillet 2006
    Messages:
    777
    J'aime reçus:
    0
    Ah ah excelent !!!... j'étais en train de me dire : ce topic pourrait intéresser Giviz ;)
     
  4. giviz
    giviz WRInaute discret
    Inscrit:
    18 Juillet 2005
    Messages:
    112
    J'aime reçus:
    0
    Hé hé, tu penses bien que j'allais pas laisser mon site avec toutes ces pages en 404, le pauvre :p

    En tout cas cette méthode fonctionne très bien ;)
     
  5. yep
    yep WRInaute occasionnel
    Inscrit:
    3 Avril 2004
    Messages:
    252
    J'aime reçus:
    0
    ton astuce semble géniale, mais la page donnée m'indique que je dois activer les cookies (alors qu'ils sont actifs :p)
     
  6. giviz
    giviz WRInaute discret
    Inscrit:
    18 Juillet 2005
    Messages:
    112
    J'aime reçus:
    0
    Quand tu dis la page donnée, tu parles de quelle page ?
     
  7. verozaure
    verozaure WRInaute discret
    Inscrit:
    7 Avril 2004
    Messages:
    94
    J'aime reçus:
    0
    Même principe pour supprimer à la volée des pages en NOINDEX,NOFOLLOW


    Code:
    <? 
    
    // search.html correspond à la page de résultats de google récupérée 
    $fd = fopen('search.html', 'r'); 
    $datas = fread($fd, filesize('search.html')); 
    
    $i=0; 
    while($pos = strchr($datas, 'class=l ')) { 
        $datas = substr($pos, 14); 
        $pos = strchr($datas, '" onmousedown'); 
        $url = substr($datas, 0, strlen($datas) - strlen($pos)); 
    echo '<iframe src="http://services.google.com:8882/urlconsole/controller?cmd=authenticateMetaTags&metaTagsUrl='.urlencode($url).'"></iframe>'; 
        $datas = $pos; 
        echo "$url<br>";
    	$datas = $pos; 
        $i++; 
    } 
    
    ?>
    
     
  8. ACth
    ACth WRInaute impliqué
    Inscrit:
    11 Novembre 2006
    Messages:
    683
    J'aime reçus:
    0
    Elles ne sont pas supprimées automatique les pages inaccessibles, au bout d'un certain temps ?
     
  9. giviz
    giviz WRInaute discret
    Inscrit:
    18 Juillet 2005
    Messages:
    112
    J'aime reçus:
    0
    Si, plusieurs mois, donc quand tu en a quelques 10000...
     
  10. ACth
    ACth WRInaute impliqué
    Inscrit:
    11 Novembre 2006
    Messages:
    683
    J'aime reçus:
    0
    ok, mais quel est la contrainte pour toi d'avoir ces pages encore dans le cache des différents moteurs ?
     
  11. bertimus
    bertimus WRInaute passionné
    Inscrit:
    24 Août 2005
    Messages:
    1 632
    J'aime reçus:
    0
  12. Tchinkatchuk
    Tchinkatchuk WRInaute discret
    Inscrit:
    22 Avril 2003
    Messages:
    248
    J'aime reçus:
    0
    Bonjour,
    Cette méthode est-elle toujours valide ?
     
Chargement...
Similar Threads - Supprimer massivement 404 Forum Date
[JavaScript Array] modifier un code html sans le supprimer/recréer Développement d'un site Web ou d'une appli mobile 20 Juin 2022
Impossible de supprimer une page Facebook Facebook 15 Juin 2022
comment supprimer articles fantômes référencés Problèmes de référencement spécifiques à vos sites 12 Mai 2022
Unused CSS et outils pour supprimer feuilles de style inutilisées Développement d'un site Web ou d'une appli mobile 27 Avril 2022
Pénalité Penguin. Doit-on supprimer les backlinks toxiques en 1 fois ? Netlinking, backlinks, liens et redirections 15 Avril 2022
comment supprimer définitivement une page zombie ? Problèmes de référencement spécifiques à vos sites 5 Décembre 2021
Supprimer landing page homepage, rediriger vers page réelle Problèmes de référencement spécifiques à vos sites 28 Novembre 2021
Comment supprimer un onglet personnalisé (app) sur Facebook Facebook 6 Septembre 2021
Désindexer ou supprimer ? Débuter en référencement 25 Mai 2021
Supprimer événement groupe FB crée par un membre Facebook 7 Avril 2021
Comment supprimer un Pixels Facebook ? Facebook 19 Mars 2021
Supprimer la version en cache de dizaines de PDF Crawl et indexation Google, sitemaps 11 Janvier 2021
Supprimer son compte google maps pour cause d'avis négatifs YouTube, Google Images et Google Maps 10 Décembre 2020
Supprimer mon site de Similarweb ? Ou modifier les données ? Administration d'un site Web 26 Novembre 2020
RGPD : faire supprimer par Facebook l'ensemble de mes informations Droit du web (juridique, fiscalité...) 2 Novembre 2020
Search Console Supprimer des doublons Crawl et indexation Google, sitemaps 26 Octobre 2020
Contenu Obsolète supprimer ou noindex ? Débuter en référencement 16 Octobre 2020
Supprimer pages indexées Crawl et indexation Google, sitemaps 11 Octobre 2020
Supprimer des pages en moasse (avec l'accent de Gad) Crawl et indexation Google, sitemaps 5 Octobre 2020
Galère pour supprimer index.php URL Rewriting et .htaccess 12 Août 2020