probleme pour parser du xml

  • Auteur de la discussion suppr36306
  • Date de début
S
suppr36306
Guest
Bonjour,

J'ai un probleme pour parser du xml qui n'est pas valide. J'ai réussi à récupérer les pages du dictionnaires français qui est dans le domaine publique. Je voudrais le parser pour insérer tous ca dans une bdd mais leur xml et vraiement pourri car pas trop conforme ca mélange du html et du xml j'ai vraiement pas réussi. Pouvez-vous m'aider ? attention cest assez chiadé

Voila un exemple d'article ( l'ensemble fait 24Mo )

Code:
<biblio hw="A" cat="n. m.">
<p>
<font size="+1">A.</font size="+1">
<Xpage n="1:1">
 <CAT>n. m.</CAT> La premi&egrave;re lettre de notre alphabet.<BR>
Elle repr&eacute;sente une des voyelles. <I>La<BR>
lettre</I> A. <I>Un grand</I> A. <I>Un petit</I> a. <I>Un</I> A <I>majuscule.<BR>
Un</I> a <I>romain. Un a italique. Des</I> a <I>mal<BR>
form&eacute;s. La voyelle</I> A. A <I>est ferm&eacute; dans</I> Bl&acirc;me.<BR>
A <I>est ouvert dans</I> Glace. A, <I>dans les mots</I><BR>
Casuel, larron, etc., <I>a un son interm&eacute;diaire.</I><BR>
A <I>ne se prononce pas ordinairement dans</I> Ao&ucirc;t<BR>
<I>et ne se prononce jamais dans</I> Sa&ocirc;ne.<BR>
<p><DD>
<I>Une panse d'</I>a, La premi&egrave;re partie d'un<BR>
petit <I>a,</I> dans l'&eacute;criture ordinaire, la partie<BR>
arrondie de l'<I>a</I> qui a la forme d'une panse.<BR>
<p><DD>
Prov., <I>N'avoir pas fait une panse d'</I>a,<BR>
N'avoir rien &eacute;crit, rien copi&eacute; de ce qu'on<BR>
devait &eacute;crire, copier; et figur&eacute;ment N'avoir<BR>
rien compos&eacute;, n'&ecirc;tre point auteur. <I>Depuis<BR>
deux jours, mon copiste n'a pas fait une panse<BR>
d'</I>a. <I>Il laisse croire que cet ouvrage est de lui;<BR>
mais il n'en a pas fait une panse d'</I>a, <I>il n'y a<BR>
pas fait une panse d'</I>a.<BR>
<p><DD>
Fam., <I>Ne savoir ni A ni B,</I> Ne savoir pas<BR>
lire; et figur&eacute;ment &Ecirc;tre fort ignorant.<BR>


Comme vous voyez il feme pas les balises alors je sais pas comment faire pouvez-vous m'aider ? :(

Merci
 
WRInaute occasionnel
Hé bien justement c'est là que ça coince puisque pour le parser il DOIT a tout prix être correct sémantiquement... tu as un soucis, ou alors tu le scan et répare en php avant de le parser mais bonjour le stress du serveur ;oD
 
S
suppr36306
Guest
mamat- a dit:
Hé bien justement c'est là que ça coince puisque pour le parser il DOIT a tout prix être correct sémantiquement... tu as un soucis, ou alors tu le scan et répare en php avant de le parser mais bonjour le stress du serveur ;oD

cest a dire comment le réparer ?
 
WRInaute accro
faut avoir le schéma de la page enfin...savoir les balises utilisées quoi.. et s'arranger pour les corriger ou fermer les balises non fermées mais comme dit mamat-, faut être patient :)
 
S
suppr36306
Guest
dd32 a dit:
faut avoir le schéma de la page enfin...savoir les balises utilisées quoi.. et s'arranger pour les corriger ou fermer les balises non fermées mais comme dit mamat-, faut être patient :)

Personne aurait une petite solution à me proposer j'y arrive pas :(
 
Discussions similaires
Haut