Leitor de HTML

Dae pessoal,

Estou com uma tarefa e é a seguinte: preciso ler uns arquivos HTML para extrair o texto principal que está dentro de uma div.
Existe uma API que trabalhe com isso?

Estava tentando usar a classe HTMLDocument.HTMLReader, mas ela não me dá a opção de carregar o arquivo para eu trabalhar em cima dele, ou pelo menos eu não encontrei como. Essa classe tem um construtor que utiliza argumentos do tipo Inteiro. Eu sei lá o q eu vou fazer com esses inteiros, eu só gostaria de poder carregar a página HTML que já existe e poder ‘varrer’ dentro dela.

Alguém tem alguma idéia?

[quote=luizhro]Dae pessoal,

Estou com uma tarefa e é a seguinte: preciso ler uns arquivos HTML para extrair o texto principal que está dentro de uma div.
Existe uma API que trabalhe com isso?

Estava tentando usar a classe HTMLDocument.HTMLReader, mas ela não me dá a opção de carregar o arquivo para eu trabalhar em cima dele, ou pelo menos eu não encontrei como. Essa classe tem um construtor que utiliza argumentos do tipo Inteiro. Eu sei lá o q eu vou fazer com esses inteiros, eu só gostaria de poder carregar a página HTML que já existe e poder ‘varrer’ dentro dela.

Alguém tem alguma idéia?[/quote]

O que você precisa é extrair um texto de dentro de outro texto?
Bem, para uma solução simples, coloque o conteudo do arquivo dentro de uma String e use o StringUtils da Apache Commons Lang

String textoExtraido = StringUtils.substringBetween(textoDaHtml, "<div>", "</div>");

[]'s

JL