Thursday, April 23, 2009, 13:56
A espera foi longa mas valeu a pena! Saiu ontem a versão Beta1 do JBoss OSGI. Acho que era isso que faltava para os containers OSGI darem um grande pulo em direção a plataforma JEE. O JBoss OSGI, assim como o Spring Dynamic Modules, é uma camada de integração com containers OSGI existentes ( felix, equinox, knopflerfish).
Ainda estou testando o container, e parece ser promissor, junto com um post mais detalhado sobre OSGI (estou preparando uma palestra para turma de computação da PUC-MG sobre o assunto) eu posto aqui minhas impressões.
Não deixem de conferir: JBoss OSGI
Thursday, April 2, 2009, 11:07
Uma das minhas grandes paixões no mundo java é o projeto Lucene, e com ele, todos os seus fantásticos sub-projetos como:
- Nutch - Um poderoso crawler (ou spider se preferir) que consegue rodar de forma paralela em vários nós de cluster.
- Solr - Um sistema completo de indexação e busca que oferece uma interface webservice para acesso remoto. Nunca foi tão simples criar um full text search para sua aplicação (e não importa qual linguagem)
- Mahout - Um framework para execução em cloud de algoritmos tradicionais de inteligência computacional (como Redes Neurais, Clustering, Classification, Collaborative Filtering, Algoritmos Genéticos e etc), o Mahout é o meu principal foco de estudos ultimamente e se basea no Hadoop (mais abaixo)
Hadoop - Cloud computing for java masses
Mas de todos os projetos que estão sob a tutela do Lucene, um em particular se destaca. O Hadoop. O Hadoop começou como um subprojeto lucene, mas hoje já se elevou a categoria de subprojeto apache. O Hadoop é uma implementação do famoso algoritmo Map-Reduce do google. Tentando resumir muito brevemente a idéia por de trás deste algoritmo, o que ele faz é segmentar o trabalho a ser executado (vamos imaginar que voce precise de ordernar uma lista de 10^16 elementos), a chamada map fase, e então os trabalhos são divididos entre nós do cluster que executam apenas um pequeno trecho. Ao final, a fase de Reduce junta os pedaços para completar a execução.
A filosofia por de trás do Hadoop é muito bacana. Aplicações tradicionais tendem a mover o dado (que se encontra normalmente centralizado em um SGDB) e distribuir a computação (um cluster de servidores de aplicação por exemplo). O Hadoop faz o oposto: Você segmenta seus dados em N partições, e então “move” a computação para cada um dos nós.
Isto é feito através do uso de um sistema distribuido de arquivos próprio do Hadoop (HDFS, que por sinal foi inspirado no google GFS). A computação é um jar que você gera e que contêm a implementação do Map-Reduce para sua tarefa específica. O Hadoop cuida da distribuição, ciclo de vida, e gerência de falhas de seus jobs.
O Hadoop merece vários posts apenas para ele, e estou preparando, mas no momento estou atolado com estudos e com a palestra de Collective Intelligence que vou ministrar no próximo evento em maio do MGJUG (mais informações em breve)
Para vocês terem uma breve noção do poder do Hadoop aqui vai alguns números interessantes:
- O Facebook usa o Hadoop, são 600 servidores com 2 processadores quad-core rodando os jobs
- O Hadoop venceu ano passado a competição de Terabyte Sort, um cluster com 910 máquinas conseguiu ordenar 1 terabyte de dados em apenas 207 segundos
- O Yahoo usa hadoop, acredita-se que cerca de 10.000 máquinas (isso mesmo, você leu correto) usem o hadoop para filtros de spam
Após estes números se vocês não acreditarem no poder do framework, não sei o que mais poderia convence-los.
Bem, depois de explicar um pouco o que é o Hadoop, vamos finalmente ao título do Post :). Bem o serviço de Elastic Computing da amazon (na minha opinião a mais sensacional revolução dos últimos 5 anos em TI), lançou ontem o serviço de map-reduce distribuido.
O bacana deste serviço é a facilidade de uso, e a possibilidade de usar centenas de máquinas para processamento em paralelo e pagar pouco por isso. Deixe-me ilustrar com um exemplo:
Uma máquina simples custa $0.015 a hora. Vamos supor que você queira ordenar o terabyte do concurso mencionado antes. Vamos usar 910 máquinas para isso. então: 910*0.015= 13,65
Bem, você gastaria apenas 13,65 dólares por 1 hora de processamento. Como foram gastos cerca de 4 min (levando pra cima o valor), então: T= 13,65/15 = 0.91. Agora, imagine você tendo que comprar 910 máquinas para processar alguma coisa?
A descrição do serviço se encontra em: http://aws.amazon.com/elasticmapreduce/
Abraços