Split Tags

Estou com um problema que seria assim eu leio um arquivo html e preciso pegar o conteudo que esta entre as tags . Sendo assim preciso pegar tudo q esta entre < > ou < /> mas estou com dificuldade em definir esse conjunto.


public HTML(StringBuilder conteudo)
	{

              String delimitadores =" ";  => Nao sei oq definir aqui dentro 

              StringTokenizer st = new StringTokenizer(conteudo.toString(),delimitadores,true);

Vlw

Por que é que você quer ler HTML desse jeito? Use alguma coisa pronta, se possível. StringTokenizer é o pior cara que você pode tentar usar para o que você tem de fazer.

O que vc sugere para fazer isto ?

http://java.sun.com/products/jfc/tsc/articles/bookmarks/

vlw ai mas isso ai nem vai me ajudar. A minha ideia é a seguinte eu tenho por exemplo o seguint codigo HTML

<html>
    <head>
            <title>AA </title>
    </head>
    <body> 
    </body>
</html>

Eu tenho q ler ele e remover os abre e fecha tags apos isso irei fazer um processamento e a saida seria assim:

_HTML
   _HEAD
       _TITLE AA _TITLE
   _HEAD
  ... 

Mas para isso preciso de um jeito de delimitar o StringTokenizer ou o split, mas nao sei como fazer essa parte.