Archive for 2009

Automatic Language Detection

In my first english blog entry, I could not find a more appropriate topic. I’m still looking for a way to provide both Portuguese and English content on this blog.

Meanwhile, english readers can check my blog entries using the google translate. Google’s Language API is the reason of this post.

Lucene, is probably one of my favorites frameworks of all times, and I love everything related to it: Hadoop, Nutch, Solr and Hibernate Search.

I use Lucene whenever I can :) And one of the things we did within it was a Federated Search for JBoss Portal. We indexed all kind of documents uploaded to the CMS portal using interceptors. One of the problems we faced, was automatic language detection. Because Lucene needs an analyzer to proper index the document, we needed a specific analyzer for each language. Well, at the time we miserably failed on that. It was a restriction we did not gave much attention since we were only indexing portuguese documents.

This week started with this restriction on my mind. At first I thought that I could find an open source api for this. Only found a few desktop apps, all closed source.

What if I use some kind of classifier, for instance a Naive-Bayes classifier, to classify my documents? I could download a few hundred of documents from wikipedia, all from different languages, train it, and then use it. Wow! That seemed cool, but would require some effort (and I’m feeling lazy this week).

So I was checking GWT extensions (because GWT is the coolest thing ever happened to the presentation layer), and I found the translation API , which BTW have an method to detect the language. Now my problems are really solved. The API relies on REST and JSON which makes it really simple to use. I started to use it by extracting random pieces of text from the documents and asking google to classify it. I’ve used this approach to avoid hitting some quotes or an abstract in a paper, which could led to a wrong idiom detection. Once we have the correct language we can instantiate the appropriate Analyzer.

The code bellow uses JSONSimple to parse the JSON response from google.

try {
	String s = URLEncoder.encode("Há tantos burros mandando em homens de inteligência, que, às vezes, fico pensando que a burrice é uma Ciência", "UTF-8");
	URL url = new URL("http://ajax.googleapis.com/ajax/services/language/detect?v=1.0&q="+s);
	 BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));
        String str;
        StringBuilder  buffer = new StringBuilder();
        while ((str = in.readLine()) != null) {
            buffer.append(str);
        }
        in.close();
        JSONObject obj = (JSONObject) ((JSONObject)JSONValue.parse(buffer.toString())).get("responseData");
        System.out.println(obj.get("language"));
        System.out.println(obj.get("confidence"));
 
 
} catch (UnsupportedEncodingException e) {
	// TODO Auto-generated catch block
	e.printStackTrace();
} catch (MalformedURLException e) {
	// TODO Auto-generated catch block
	e.printStackTrace();
} catch (IOException e) {
	// TODO Auto-generated catch block
		e.printStackTrace();
	}
}

The API not only provides the correct language, but also a confidence value.

Happy coding, and hope you enjoy this API as much as I did :)

Saiu o JBoss OSGI Beta

A espera foi longa mas valeu a pena! Saiu ontem a versão Beta1 do JBoss OSGI. Acho que era isso que faltava para os containers OSGI darem um grande pulo em direção a plataforma JEE. O JBoss OSGI, assim como o Spring Dynamic Modules, é uma camada de integração com containers OSGI existentes ( felix, equinox, knopflerfish).

Ainda estou testando o container, e parece ser promissor, junto com um post mais detalhado sobre OSGI (estou preparando uma palestra para turma de computação da PUC-MG sobre o assunto) eu posto aqui minhas impressões.

Não deixem de conferir: JBoss OSGI

Amazon lança serviço de Elastic Map Reduce

Uma das minhas grandes paixões no mundo java é o projeto Lucene, e com ele, todos os seus fantásticos sub-projetos como:

  • Nutch - Um poderoso crawler (ou spider se preferir) que consegue rodar de forma paralela em vários nós de cluster.
  • Solr - Um sistema completo de indexação e busca que oferece uma interface webservice para acesso remoto. Nunca foi tão simples criar um full text search para sua aplicação (e não importa qual linguagem)
  • Mahout - Um framework para execução em cloud de algoritmos tradicionais de inteligência computacional (como Redes Neurais, Clustering, Classification, Collaborative Filtering, Algoritmos Genéticos e etc), o Mahout é o meu principal foco de estudos ultimamente e se basea no Hadoop (mais abaixo)

Hadoop - Cloud computing for java masses

Mas de todos os projetos que estão sob a tutela do Lucene, um em particular se destaca. O Hadoop. O Hadoop começou como um subprojeto lucene, mas hoje já se elevou a categoria de subprojeto apache. O Hadoop é uma implementação do famoso algoritmo Map-Reduce do google. Tentando resumir muito brevemente a idéia por de trás deste algoritmo, o que ele faz é segmentar o trabalho a ser executado (vamos imaginar que voce precise de ordernar uma lista de 10^16 elementos), a chamada map fase, e então os trabalhos são divididos entre nós do cluster que executam apenas um pequeno trecho. Ao final, a fase de Reduce junta os pedaços para completar a execução.
A filosofia por de trás do Hadoop é muito bacana. Aplicações tradicionais tendem a mover o dado (que se encontra normalmente centralizado em um SGDB) e distribuir a computação (um cluster de servidores de aplicação por exemplo). O Hadoop faz o oposto: Você segmenta seus dados em N partições, e então “move” a computação para cada um dos nós.
Isto é feito através do uso de um sistema distribuido de arquivos próprio do Hadoop (HDFS, que por sinal foi inspirado no google GFS). A computação é um jar que você gera e que contêm a implementação do Map-Reduce para sua tarefa específica. O Hadoop cuida da distribuição, ciclo de vida, e gerência de falhas de seus jobs.
O Hadoop merece vários posts apenas para ele, e estou preparando, mas no momento estou atolado com estudos e com a palestra de Collective Intelligence que vou ministrar no próximo evento em maio do MGJUG (mais informações em breve)
Para vocês terem uma breve noção do poder do Hadoop aqui vai alguns números interessantes:

  • O Facebook usa o Hadoop, são 600 servidores com 2 processadores quad-core rodando os jobs
  • O Hadoop venceu ano passado a competição de Terabyte Sort, um cluster com 910 máquinas conseguiu ordenar 1 terabyte de dados em apenas 207 segundos
  • O Yahoo usa hadoop, acredita-se que cerca de 10.000 máquinas (isso mesmo, você leu correto) usem o hadoop para filtros de spam
  • Após estes números se vocês não acreditarem no poder do framework, não sei o que mais poderia convence-los.

    Bem, depois de explicar um pouco o que é o Hadoop, vamos finalmente ao título do Post :). Bem o serviço de Elastic Computing da amazon (na minha opinião a mais sensacional revolução dos últimos 5 anos em TI), lançou ontem o serviço de map-reduce distribuido.

    O bacana deste serviço é a facilidade de uso, e a possibilidade de usar centenas de máquinas para processamento em paralelo e pagar pouco por isso. Deixe-me ilustrar com um exemplo:

    Uma máquina simples custa $0.015 a hora. Vamos supor que você queira ordenar o terabyte do concurso mencionado antes. Vamos usar 910 máquinas para isso. então: 910*0.015= 13,65

    Bem, você gastaria apenas 13,65 dólares por 1 hora de processamento. Como foram gastos cerca de 4 min (levando pra cima o valor), então: T= 13,65/15 = 0.91. Agora, imagine você tendo que comprar 910 máquinas para processar alguma coisa?

    A descrição do serviço se encontra em: http://aws.amazon.com/elasticmapreduce/

    Abraços