Lançada versão 2.3 do Lucene com melhoria de até 500% no desempenho da indexação  XML
Índice dos Fóruns » Notícias
Autor Mensagem
Luca
Moderador
[Avatar]

Membro desde: 06/09/2002 14:30:10
Mensagens: 5695
Localização: São Paulo/SP ou Paraty/RJ
Offline

Olá

O Lucene (open-source search software) é uma ferramenta que tem lugar em um grande número de aplicações web e quem não conhece está perdendo tempo. Ontem saiu a nova versão com novidades que merecem aparecer aqui.

A grande mudança acontece com o novo algoritmo de indexação que agora trabalha na memória e consegue enorme melhoria no desempenho. A simples troca do jar do Lucene 2.2 pelo novo jar do Lucene 2.3 (sem recompilar nada) já mostra um excelente ganho de desempenho na indexação que pode atingir até 500%.

Algumas informações tiradas de http://svn.apache.org/repos/asf/lucene/java/tags/lucene_2_3_0/CHANGES.txt

Os defaults do IndexWriter mudaram de modo a maximizar a velocidade de indexação.
1) Agora o IndexWriter usa a memória, 16 MB por default) (call IndexWriter.setMaxBufferedDocs to get backwards compatible behavior).

2) ConcurrentMergeScheduler serve para executar merges usando background threads (call IndexWriter.setMergeScheduler(new SerialMergeScheduler()) to get backwards compatible behavior).

3) Os merges são escolhidos baseados no tamanho em bytes de cada segmento ao invés do número de documentos (call IndexWriter.setMergePolicy(new LogDocMergePolicy()) to get backwards compatible behavior).


O download pode ser veito em em http://lucene.apache.org/#24+January+2008+-+Lucene+Java+2.3.0+available

Vejam mais informações em http://www.infoq.com/news/2008/01/lucene-23-mahout

[]s
Luca

Dare Obasanjo (Program Manager at Microsoft)
"The folks I know from across the industry who have to build large scale Web services on the Web today at Google, Yahoo!, Facebook, Windows Live, Amazon, etc are using RESTful Web services. The only times I encounter someone with good things to say about WS-* is if it is their job to pimp these technologies or they have already "invested" in WS-* and want to defend that investment."


CEP, JMS, JMX e coisas afins (ou não)
http://lucabastos.blogspot.com/
[Email] [WWW]
maquiavelbona
Forum Spammer
[Avatar]

Membro desde: 29/06/2006 09:06:51
Mensagens: 2444
Localização: São Paulo - SP
Offline

Caramba, essa estatística não está muito irreal? Vou testar aqui numa aplicação minha para ver se o ganho de indexação pelo menos é metade disso.
Testaste se está bem rápido mesmo? Uso Lucene desde as versões 1.X e já estava um pouco desapontado pela performance.
Aliás, alguém sabe como anda o Hadoop?

Até!

----------------------------------------------------------------
"Within a few years a simple and inexpensive device, readily carried about, will enable one to receive on land or sea the principal news, to hear a speech, a lecture, a song or play of a musical instrument, conveyed from any other region of the globe. "
Nikola Tesla - A means for furthering Peace (1905)

"Gedanken ohne Inhalt sind leer, Anschauungen ohne Begriffe sind blind."
Immanuel Kant - Kritik der reinen Vernunft (1781)
Paulo Silveira
Administrador
[Avatar]

Membro desde: 07/08/2002 18:38:50
Mensagens: 3879
Localização: São Paulo
Offline

A mudancas do lucene de 2.0 para 2.1 e 2.1 para 2.2 tambem anunciaram grandes ganhos de performance. Em uma delas o formato binario do indice foi totalmente modificado e ficou incompativel (mas ele mesmo convertia se precisasse). O Lucene é um dos projetos open source mais incriveis que conheco, e é uma grande aplicação de conceitos academicos.

Hadoop continua encubado, e esta sendo utilizado em um projeto recem lancado, o Manhount, que tem um pessoal de grandes universidades envolvidos.

Maquiavel, o lucene e qualquer indexador sempre vai ser mais lento para escrever do que pra ler. Pra mim a leitura pelo lucene sempre foi incrivelmente rapida.

http://blog.caelum.com.br


QCon SP: o maior evento de líderes e arquitetos agora no Brasil
[Email] [WWW]
maquiavelbona
Forum Spammer
[Avatar]

Membro desde: 29/06/2006 09:06:51
Mensagens: 2444
Localização: São Paulo - SP
Offline

Paulo Silveira wrote:A mudancas do lucene de 2.0 para 2.1 e 2.1 para 2.2 tambem anunciaram grandes ganhos de performance. Em uma delas o formato binario do indice foi totalmente modificado e ficou incompativel (mas ele mesmo convertia se precisasse). O Lucene é um dos projetos open source mais incriveis que conheco, e é uma grande aplicação de conceitos academicos.

Realmente mudou mas não vi ganhos aparentes. Deve ser bem incrível mesmo por dentro, mas ainda não tenho capacidade de entender por dentro a fundo a maneira que faz os índices.
Paulo Silveira wrote:Hadoop continua encubado, e esta sendo utilizado em um projeto recem lancado, o Manhount, que tem um pessoal de grandes universidades envolvidos.

Então não saiu muito do que estava a um ano atrás.
Paulo Silveira wrote:Maquiavel, o lucene e qualquer indexador sempre vai ser mais lento para escrever do que pra ler. Pra mim a leitura pelo lucene sempre foi incrivelmente rapida.

Para ler estou bem satisfeito, na escrita já sabia que era bem mais lento, mas ainda esperava algo mais. Geralmente faço criação de pouco em pouco dos índices, assim não sobrecarrego o sistema. Não gosto de comparar coisas, mas quando fiz testes do MS IndexServer e Lucene 1.9 na época, o IndexServer e o IFilter não comiam um processador inteiro para eles e faziam a indexação em menor tempo (não tão menor). Tinha um projeto que a primeira indexação tinha que indexar 120GB de pdfs, não creio que seja culpa só do Lucene e do PDFBox, e talvez o que eu fiz na época também não era tão otimizado, mas mesmo assim era mais simples integrar o Lucene ao portal em PHP do que o IndexServer.

Valeu pelas respostas.

Até!

This message was edited 1 time. Last update was at 25/01/2008 14:16:13


----------------------------------------------------------------
"Within a few years a simple and inexpensive device, readily carried about, will enable one to receive on land or sea the principal news, to hear a speech, a lecture, a song or play of a musical instrument, conveyed from any other region of the globe. "
Nikola Tesla - A means for furthering Peace (1905)

"Gedanken ohne Inhalt sind leer, Anschauungen ohne Begriffe sind blind."
Immanuel Kant - Kritik der reinen Vernunft (1781)
glaucioguerra
JavaGuru
[Avatar]

Membro desde: 12/05/2006 09:18:54
Mensagens: 252
Localização: Porto, Portugal
Offline

Com certeza, o Lucene é um projeto impressionante. Não só para a comunidade Java, mas para o povo que trabalha com php (como o maquiavel citou) e o pessoal de ruby com o ferret e o lucene4c para C. Acredito que tenha suporte para outras linguagens, mas só trabalhei com essas.

Põe projeto de sucesso nisso

Um abraço,

Glaucio Guerra
http://glaucioguerra.wordpress.com
[WWW]
saoj
Forum Spammer
[Avatar]

Membro desde: 09/03/2004 23:34:46
Mensagens: 2358
Localização: Los Angeles, EUA
Offline

Lucene é o tipo de projeto que o cara poderia ter ficado rico (ou ganho uma bela grana), mas preferiu fazer um projeto open-source e gratuito. Tem que tirar o chapéu para o autor e para o projeto, que é realmente fenomenal. Outro que também me impressiona bastante é o JGroups.

This message was edited 1 time. Last update was at 25/01/2008 22:06:11


Participe dos meus novos blogs:
O Poder Primário - Você no controle da sua felicidade
Sedução Tecnológica - Tutoriais, dicas e histórias de um engenheiro

[Email] [WWW]
Daniel.F
Virtual Machine Man

Membro desde: 29/03/2007 18:30:39
Mensagens: 771
Offline

Desculpe a ignorancia mas pra que serve o lucene?


[Email]
maquiavelbona
Forum Spammer
[Avatar]

Membro desde: 29/06/2006 09:06:51
Mensagens: 2444
Localização: São Paulo - SP
Offline

Lucene é um servidor de indexação, servindo para fazer principalmente full-text search.
Caso queira saber mais do projeto: http://lucene.apache.org/
Especificamente para java: http://lucene.apache.org/java/docs/index.html

Até!

----------------------------------------------------------------
"Within a few years a simple and inexpensive device, readily carried about, will enable one to receive on land or sea the principal news, to hear a speech, a lecture, a song or play of a musical instrument, conveyed from any other region of the globe. "
Nikola Tesla - A means for furthering Peace (1905)

"Gedanken ohne Inhalt sind leer, Anschauungen ohne Begriffe sind blind."
Immanuel Kant - Kritik der reinen Vernunft (1781)
tr_jr
Smalltalk

Membro desde: 27/12/2006 13:38:21
Mensagens: 2
Offline

Olá Pessoal!
Alguem ai sabe onde posso encontrar um tutorial sobre o Lucene??? Ou se existe algum livro???

valeu!
mlobao
HelloWorld

Membro desde: 10/10/2007 11:44:28
Mensagens: 12
Offline

Existe o livro "Manning - Lucene In Action"
 
Índice dos Fóruns » Notícias
Ir para:   
Powered by JForum 2.1.8 © JForum Team