Estou desenvolvendo uma classe para analisar um arquivo HTML. Porém, para realizar essa tarefa tenho que converter esse HTML para XHTML, pois o documento original pode ser mal formado (do ponto de vista do XML), ou seja, coisas do tipo:
<b>Nome: <i> Davi </b> </i>
<b>Endereço:<i>R. Bla Bla</i>
onde, na primeira linha, o tag vem antes do e, na segunda linha, está faltando um tag . Gostaria de saber se existe algum pacote que eu possa utilizá-lo para corrigir automaticamente essas coisas para mim. Não sei se o JTidy ajudaria nisso, pois até agora só encontrei documentação falando sobre como utilizar o JTidy na verficação dos HTML e não na correção dos problemas citados.