Identificação de linguagem - API

Bom dia,

alguém conhece uma API que permita identificar a linguagem de um documento HTML. Só me interessa identificar que um documento está em português. Uma possivel abordagem (não sei se é razoaável) seria pegar numa lista de stopwords para alingua portuguesa e verificar quantas vezes existiam no documento??? mas para isso tinha que definir um limite de ocorrências que considerasse aceitável!!!

Alguém conhece um método abordagem que com uma margem de erro naceitável diga se o doc. está ou nao em português.

Obrigado

MP

A quantidade você tem que inferir estatisticamente, não tem saída. Pelo contrário, pra dificultar, existem muitos analfabetos na Internet.

Como ponto de partida, sugiro o Stemmer do Lucene, que já possui esta relação de StopWords. Outro método que eu posso sugerir é uma tabela de frequências de letras do idioma português.

Link útil:

http://www.let.rug.nl/~vannoord/TextCat/competitors.html

Já usei o TextCat há muitos anos atrás. Funcionou, mas era em perl ou algo assim.