Conversão de Arquivos PDF para XML/HTML

Pessoal,

Estou precisando fazer um trabalho onde devo converter arquivos PDF para XML e/ou HTML.

Vcs sabem se existe alguma classe pronta (e FREE naturalmente) que execute isto?

Achei alguns programas, mas são pagos e, como meu projeto é acadêmico, não posso utilizar nada que não seja freeware.

Se não tiver em Java, pode ser em outra linguagem…

Valeu!!


Abs,
Marcus Rocha

A biblioteca iText te permite ler arquivos PDF.
Não é lá grandes coisas, mas se bobear, pode te ajudar de alguma maneira.

Para ler arquivos pdf em Java existe essa biblioteca:

http://www.pdfbox.org/

Obrigado pela atenção, pessoal.

Só que não tenho experiência em programação e muito menos em Java. Só estou começando…

Ler PDF não é o problema, já estou fazendo isto. Também já consigo converter para txt.

Só que preciso de uma classe (ou biblioteca Java ou ainda um programa .exe em C/C++) que converta o arquivo PDF corretamente para XML (ou pode ser também HTML).

Assim, se vcs tiverem alguma sugestão mais direta vai me ajudar mais.

Valeu,

Marcus

Boa noite mcrocha,

Dei uma pesquisada e achei este programa aqui, a demo parece ser muito boa :stuck_out_tongue:


http://pdftohtml.sourceforge.net/

Veja se atende suas necessidades.

[]'s