Dae pessoal,
Estou com uma tarefa e é a seguinte: preciso ler uns arquivos HTML para extrair o texto principal que está dentro de uma div.
Existe uma API que trabalhe com isso?
Estava tentando usar a classe HTMLDocument.HTMLReader, mas ela não me dá a opção de carregar o arquivo para eu trabalhar em cima dele, ou pelo menos eu não encontrei como. Essa classe tem um construtor que utiliza argumentos do tipo Inteiro. Eu sei lá o q eu vou fazer com esses inteiros, eu só gostaria de poder carregar a página HTML que já existe e poder ‘varrer’ dentro dela.
Alguém tem alguma idéia?
[quote=luizhro]Dae pessoal,
Estou com uma tarefa e é a seguinte: preciso ler uns arquivos HTML para extrair o texto principal que está dentro de uma div.
Existe uma API que trabalhe com isso?
Estava tentando usar a classe HTMLDocument.HTMLReader, mas ela não me dá a opção de carregar o arquivo para eu trabalhar em cima dele, ou pelo menos eu não encontrei como. Essa classe tem um construtor que utiliza argumentos do tipo Inteiro. Eu sei lá o q eu vou fazer com esses inteiros, eu só gostaria de poder carregar a página HTML que já existe e poder ‘varrer’ dentro dela.
Alguém tem alguma idéia?[/quote]
O que você precisa é extrair um texto de dentro de outro texto?
Bem, para uma solução simples, coloque o conteudo do arquivo dentro de uma String e use o StringUtils da Apache Commons Lang
String textoExtraido = StringUtils.substringBetween(textoDaHtml, "<div>", "</div>");
[]'s
JL