Bom dia,
alguém conhece uma API que permita identificar a linguagem de um documento HTML. Só me interessa identificar que um documento está em português. Uma possivel abordagem (não sei se é razoaável) seria pegar numa lista de stopwords para alingua portuguesa e verificar quantas vezes existiam no documento??? mas para isso tinha que definir um limite de ocorrências que considerasse aceitável!!!
Alguém conhece um método abordagem que com uma margem de erro naceitável diga se o doc. está ou nao em português.
Obrigado
MP