Transcription de PDF en texte

nickargall · 6 Mai 2009

Bonjour a tous

Je suis à la recherche d'informations sur d'éventuels scripts PHP existant, permettant de lire un PDF et d'en extraire le texte, pour ensuite l'ajouter dans une BDD en mode "plain text" (pas de HTML).
Je ne cherche pas de solution OCR, mais des classes ou scripts PHP qui permettent d'extraire du texte de documents générés par par Xpress, "à la volée", donc à priori avec du contenu texte correctement encapsulé.
... sans avoir besoin d'acquérir une licence, ou de compiler du C++ pour un serveur Linux...

L'idée c'est qu'un utilisateur puisse mettre un fichier PDF en ligne et que le script PHP en extraie le contenu pour en faire une version alternative dans une base de données, pour utilisation ultérieure dans un moteur de recherche.
Et non, je ne veux pas utiliser les solutions Google

Je n'ai rien trouvé qui puisse correspondre à ce que je recherche, je jette donc une bouteille à la mer ici ..

Si quelqu'un a déjà vu quelquechose comme celà :mrgreen:

RiPSO · 6 Mai 2009

nickargall a dit:
Si quelqu'un a déjà vu quelquechose comme celà :mrgreen:

Oui moi j'ai déjà vu une bouteille à la mer :mrgreen: :lol:

skyll · 6 Mai 2009

nickargall a dit:
Je n'ai rien trouvé qui puisse correspondre à ce que je recherche, je jette donc une bouteille à la mer ici ..
Si quelqu'un a déjà vu quelquechose comme celà :mrgreen:

Tiens, je cherche aussi quelque chose comme ca, mais j'ai rien trouvé...

DadouDuck · 6 Mai 2009

Il faut que pstotext soit installé sur le serveur, sans cela, tu oublies

nickargall · 6 Mai 2009

Ca, ça peut se faire, ca serait sur un dédié. Et ensuite ?

jamalofski · 6 Mai 2009

Je vais faire un peu de pub pour mon site puisque personne ne propose autre chose :wink:
Conv2pdf proposera ce service avec son API dans très peu de temps (Quelques jours maximum)

nickargall · 6 Mai 2009

Ok, mais en l'occurence je ne cherche pas de passage par une solution tierce, mais un module, un script, une classe PHP autonome à installer sur un serveur & un site PHP

carole heinz · 6 Mai 2009

je ne sais pas si ça peut aider:

http://sourceforge.net/search/?type_of_search=soft&words=pdf+to+text+php
http://incubator.apache.org/pdfbox/
http://incubator.apache.org/pdfbox/userguide/text_extraction.html

nickargall · 6 Mai 2009

Merci carole, je vais creuser sur PDFbox

c'uila , je l'avais pas vu