Boa tarde!
Estou utilizando a biblioteca iText para “ler” arquivos .pdf e transformá-los em .txt.
O problema é que dentro desses arquivos(.pdf) têm imagens e ele me retorna ao invés de imagem, algo parecido com isso .
Há uma maneira de trazer apenas o texto e quando for imagens tratar a exceção para não trazer nada?
Segue o código:
[code]public class teste {
public void seila() throws IOException
{
String path = “C:/arquivo.pdf”;
PdfReader reader = new PdfReader(path);
int numberOfPages = reader.getNumberOfPages();
PdfTextExtractor extractor = new PdfTextExtractor(reader);
try {
File arquivo;
String texto;
arquivo = new File("c:/arquivo.txt");
FileOutputStream fos = new FileOutputStream(arquivo);
for (int i = 0;i<numberOfPages;i++)
{
texto = extractor.getTextFromPage(i+1);
fos.write(texto.getBytes());
}
fos.close();
}
catch (Exception ee) {
ee.printStackTrace();
}
}
public static void main(String[] args) throws IOException
{
teste ha = new teste();
ha.seila();
}
}[/code]
Fico no aguardo.
Grato!>