Leitura de arquivos .doc e .docx

Pessoal, já fiz várias pesquisas e encontrei diversos materiais ensinando como ler o conteúdo de um arquivo .doc ou .docx, mas o problema é que todas as maneiras que eu encontrei perdem a formatação.
Poderiam me informar alguma maneira onde o conteúdo lido NÃO PERCA a formatação?

Muito obrigado.

Ola Coisa123,

que eu saiba com Apache POI é possivel ler sem perder a formatação, ja tentou com esta lib? abraços.

Maven

POI-Scratchpad

POI-Core

1 curtida

Exatamente… foi essa biblioteca que tentei usar só que não achei nenhum exemplo mostrando como não perder a formatação. Você sabe algum exemplo?

Eu não possuo nenhum exemplo pronto mas ja utilizei no passado e não tive esses problemas, fui dar uma olhada na documentação e diz isso:

Word file structure
A Word file is made up of the document text and data structures
containing formatting information about the text. Of course, this is a
very simplified illustration. There are fields and macros and other
things that have not been considered. At this stage, HWPF is mainly
concerned with formatted text.

resumindo: HWPF Incide essencialmente sobre texto formatado.

Monte um exemplo de teste e posta aqui mostrando que não funciona, assim podemos ajudar melhor.

Realmete, peguei o conteúdo de um .doc e joguei em outro e veio todo formatado. Agora o que eu tenho que fazer é jogar esse conteúdo formatado dentro de um CK Editor do primefaces. Você sabe se funciona também?

Não sei como ficaria, só testando, mas ali é web acredito que possa definir um estilo(css) até mesmo criar um layout pré definido.