WRInaute accro
Bonjour a tous
Je suis à la recherche d'informations sur d'éventuels scripts PHP existant, permettant de lire un PDF et d'en extraire le texte, pour ensuite l'ajouter dans une BDD en mode "plain text" (pas de HTML).
Je ne cherche pas de solution OCR, mais des classes ou scripts PHP qui permettent d'extraire du texte de documents générés par par Xpress, "à la volée", donc à priori avec du contenu texte correctement encapsulé.
... sans avoir besoin d'acquérir une licence, ou de compiler du C++ pour un serveur Linux...
L'idée c'est qu'un utilisateur puisse mettre un fichier PDF en ligne et que le script PHP en extraie le contenu pour en faire une version alternative dans une base de données, pour utilisation ultérieure dans un moteur de recherche.
Et non, je ne veux pas utiliser les solutions Google
Je n'ai rien trouvé qui puisse correspondre à ce que je recherche, je jette donc une bouteille à la mer ici ..
Si quelqu'un a déjà vu quelquechose comme celà :mrgreen:
Je suis à la recherche d'informations sur d'éventuels scripts PHP existant, permettant de lire un PDF et d'en extraire le texte, pour ensuite l'ajouter dans une BDD en mode "plain text" (pas de HTML).
Je ne cherche pas de solution OCR, mais des classes ou scripts PHP qui permettent d'extraire du texte de documents générés par par Xpress, "à la volée", donc à priori avec du contenu texte correctement encapsulé.
... sans avoir besoin d'acquérir une licence, ou de compiler du C++ pour un serveur Linux...
L'idée c'est qu'un utilisateur puisse mettre un fichier PDF en ligne et que le script PHP en extraie le contenu pour en faire une version alternative dans une base de données, pour utilisation ultérieure dans un moteur de recherche.
Et non, je ne veux pas utiliser les solutions Google
Je n'ai rien trouvé qui puisse correspondre à ce que je recherche, je jette donc une bouteille à la mer ici ..
Si quelqu'un a déjà vu quelquechose comme celà :mrgreen: