Identificação de linguagem - API

marco_perez · Abril 22, 2008, 7:03am

Bom dia,

alguém conhece uma API que permita identificar a linguagem de um documento HTML. Só me interessa identificar que um documento está em português. Uma possivel abordagem (não sei se é razoaável) seria pegar numa lista de stopwords para alingua portuguesa e verificar quantas vezes existiam no documento??? mas para isso tinha que definir um limite de ocorrências que considerasse aceitável!!!

Alguém conhece um método abordagem que com uma margem de erro naceitável diga se o doc. está ou nao em português.

Obrigado

MP

Aldrin_Leal · Abril 22, 2008, 8:58am

A quantidade você tem que inferir estatisticamente, não tem saída. Pelo contrário, pra dificultar, existem muitos analfabetos na Internet.

Como ponto de partida, sugiro o Stemmer do Lucene, que já possui esta relação de StopWords. Outro método que eu posso sugerir é uma tabela de frequências de letras do idioma português.

psevestre · Abril 23, 2008, 11:49pm

Link útil:

http://www.let.rug.nl/~vannoord/TextCat/competitors.html

Já usei o TextCat há muitos anos atrás. Funcionou, mas era em perl ou algo assim.

system · Dezembro 28, 2015, 10:25pm

Identificação de linguagem - API

Cursos de Mobile

Cursos de Programação

Cursos de Front-end

Cursos de DevOps

Cursos de Design & UX

Cursos de Business

Cursos de Data & BI