Extraire le contenu et le référencement d'un site

Nouveau WRInaute
Bonjour,

Je cherche s'il existe un logiciel capable d'extraire (dans un fichier excel ou texte) le contenu d'un site et son référencement, c'est à dire tout ce qu'il y a entre les balises de titre, de paragraphe, mais aussi le nom des images, le contenu de leur balise alt, également le title de la page, sa description et ses meta tags.

Le but est de pouvoir faire traduire le site dans une autre langue de la manière la plus complète, en donnant l'extraction du site à un traducteur, pour ensuite l'intégrer.

Je vous remercie d'avance.
 
WRInaute accro
Non pas vraiment... c'est pour traduire

C'est possible avec un crawler comme htttracks, et ensuite l'utilisation de regex pour nettoyer le code. ça demande un certain savoir faire ^^
 
WRInaute passionné
Marie-Aude a dit:
Non pas vraiment... c'est pour traduire
Oui, ou j'ai l'esprit mal tourné mais c'est pour aspirer un site tout bien tout propre et le traduire pour le lancer dans une autre langue.
Ce serait pas du plagiat ça ?
 
WRInaute accro
J'ai un client qui a exactement le même problème : pas l'accès à l'admin, le développeur refuse de faire un export de base de données. On peut aussi être honnête et dans la m... ça peut aussi être un site en html pur et dur, bref il y a des tas de bonnes raisons pour avoir besoin de faire ça.

Je trouve qu'il y a une tendance lourde sur ce forum à faire des procès d'intention aux gens. Quand on VOIT qu'ils sont hors clou, OK, mais considérer a priori que les demandes sont dans une mauvaise intention, c'est pas très normal.
 
Nouveau WRInaute
Mon site présente notre activité touristique et permet à nos clients de réserver leurs vacances en ligne. Nous avons un site en français et un en anglais que nous pouvons construire nous même, cependant il est plus difficile de gérer le contenu et le référencement dans des langues que nous ne maîtrisons pas dont le hollandais, l'allemand et le danois. C'est pourquoi nous voulions exporter dans un fichier excel par exemple le titre des pages, leur description, les mots clés, la balise de titre, de paragraphe, le nom des images, les balises alt, ... pour pouvoir les remettre à un traducteur. Ce n'est pas du plagiat puisque le site de base nous l'avons créé et il nous appartient.
 
WRInaute accro
kyrdecegirl a dit:
Bonjour,
Je cherche s'il existe un logiciel capable d'extraire (dans un fichier excel ou texte)
Techniquement a coder c'est pas trop compliqué mais je suis pas certains qu'un format XL soit adapté (tu ne va pas avoir le même nombre de choses dans chaque pages donc une grille :? )
Sinon je ne connais pas de logiciel tout fait qui en soit capable, je n'en ai même jamais entendu parler mais je suis pas le oueb a moi tout seul :D .
Après extraire tout ça et le lâcher dans une base de données si tu as une liste d'url c'est pas sorcier non plu :wink:
 
Discussions similaires
Haut