sugestão de tecnologia

Bom dia ,

estou trabalhando atualmente com processamento de texto e estou precisando encontrar uma forma de autotagear o texto…
pode ate parecer um problema impossivel mas preciso de uma API que leia o texto e atribua a ela algumas tags com base em repetição de palavras ou outra coisa.

qeria que o “analisador” pegasse o texto :

“eu gosto de java”

e gostaria que a API transformasse isso nu seguinte

eu gosto de java

alguem conhece algo que faca isso ? ou parecido .

Você percebeu que o complicado aí é “achar as palavras interessantes”?

Não é suficiente ter uma lista de palavras interessantes - provavelmente você terá de ter o contrário, que é uma “lista de palavras não-interessantes”.

E o pior de tudo, se pensar bem, é que essa lista varia de acordo com seus dados.

Por exemplo, em português, “eu” e “de” não são palavras interessantes, mas nesse texto em particular, “Java” é uma palavra interessante.

Não parece tão trivial assim - não basta só separar a string em frases e palavras.

http://support.dtsearch.com/webhelp/dtsearch/noise_words.htm

[quote=entanglement]Você percebeu que o complicado aí é “achar as palavras interessantes”?

Não é suficiente ter uma lista de palavras interessantes - provavelmente você terá de ter o contrário, que é uma “lista de palavras não-interessantes”.

[/quote]

entendo o que vc quer dizer , na verdade eu ja eliminei as stop-words do texto, utilizando Lucene.

Na verdade existem bibliotecas de idiomas especificos e o lucene possui uma chamada BrazilianAnalyser que serve pro portugues.

O que acontece agora é que eu gostaria de pegar todo oconteudo de texto de uma pessoa e agrupa-los por tags.

Algo como um grupo vai ser os textos que falam sobre outros os textos que falam sobre com os textos agrupados por assunto, eu utilizaria o lucene para Indexar os grupos de assuntos, tornando o processo de recuperação mais eficiente .

O que eu preciso é de uma api que leia a String e rotule, talvez o lucene faça isso , so nao sei como.

Obg pela resposta.

=P

http://support.dtsearch.com/webhelp/dtsearch/noise_words.htm

Hum… como o proxy da minha empresa barra muita coisa, não consigo dar muitas idéias.
Eu procurei por “tag cloud generator” + “Lucene” e o cara que escreveu esse “tag cloud generator” indicou que ele olhava na base do Lucene, depois de uma busca, para pegar as palavras interessantes.
Então bastaria você conseguir dividir seu texto em frases ou parágrafos, e então pôr as tags conforme as palavras que forem encontradas nessa frase ou parágrafo. Mais trabalhoso que outra coisa.