Optical Mark Reader

Preciso ler um arquivo .pdf e gerar relatórios baseados nos dados obtidos desse arquivo.

Certa vez, fiz um sistema específico para uma gráfica, que interpretava as respostas dos candidatos de um concurso público. O sistema interpretava as marcações (das respostas) dos alunos e cruzava os dados com o gabarito da prova, gerando um relatório com base nesses dados, etc.

Enfim, acontece que “ler” um .pdf, que contém textos, números, etc… é algo bem mais complexo.

Qual a melhor maneira de atacar esse tipo de problema? Alguém pode me auxiliar com algum material ou qualquer outra pista… rs

Aguardo!

Depende de como os dados estão organizados no PDF. Se ele contém formulários marcáveis, você pode usar bibliotecas como a iText e tentar fazer o parse do PDF. Se o PDF contém uma imagem, você estará mais servido trabalhando direto com a imagem, ao invés de tentar analisá-la dentro do pdf.

Abraço.