peoples, alguém ai sabe como fazer para pegar apenas a quantidade x de linhas de um arquivo pdf? Tipo, preciso pegar apenas a 2ª e 3ª linha (1ª página) de 2000 pdfs distintos.
usei esse código abaixo, mas ele pega todo o conteudo das páginas.
import java.io.IOException;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;
public class lerPDF {
private String endereco;
public void setEndereco(String endereco) {
this.endereco = endereco;
}
public String getConteudo() {
File arquivoPDF = new File(this.endereco);
FileInputStream arquivo = null;
try {
arquivo = new FileInputStream(arquivoPDF);
} catch (IOException e) {
System.out.println("ERRO:" + e.getMessage());
return null;
}
PDDocument pdfDocument = null;
try {
PDFParser parser = new PDFParser(arquivo);
parser.parse();
pdfDocument = parser.getPDDocument();
PDFTextStripper stripper = new PDFTextStripper();
return stripper.getText(pdfDocument);
} catch (IOException e) {
return "ERRO: Não pode abrir o fluxo" + e;
} catch (Throwable e) {
return "ERRO: Ocorreu um erro ao obter o conteúdo do PDF" + e;
} finally {
if (pdfDocument != null) {
try {
pdfDocument.close();
} catch (IOException e) {
return "ERRO: Não pode fechar pdf" + e;
}
}
}
}
}
chamada
[code]
import java.io.IOException;
import jxl.read.biff.BiffException;
public class Main {
public static void main(String[] args) throws IOException, BiffException, ClassNotFoundException {
lerPDF lerpdf = new lerPDF();
String nomeArquivo = "Agro";
String nomeCaminho;
String conteudo;
int i = 1;
while (i <= 35) {
nomeCaminho = "C:/Users/cafe/Desktop/simposio/simposio 1/pdf/" + nomeArquivo + i + ".pdf";
lerpdf.setEndereco(nomeCaminho);
conteudo = lerpdf.getConteudo();
System.out.println(conteudo);
i++
}
}
} [/code]