Nossa missão

"Busca constante da informação para satisfação de seus usuários"

quarta-feira, 25 de maio de 2011

Google e Harvard lançam ferramenta de busca que pode proporcionar estudos mais quantitativos para as Ciências Humanas.


MATTHEW SHIRTS - O Estado de S.Paulo

Não sei se você se lembra, mas escrevi com entusiasmo alguns anos atrás a respeito do projeto do Google de reproduzir todos os livros do mundo em formato digital. Foi aqui mesmo, no Caderno 2. A ideia da empresa era escanear, obra por obra, tudo que havia nas bibliotecas da cidade de Nova York e do Congresso americano, e nas universidades de Berkeley e Stanford e Michigan e Oxford, entre outras. A empresa ofereceria, depois, acesso às informações através do mecanismo de busca que todos nós, ou quase todos nós, já conhecemos. Poder-se-ia digitar uma frase, por exemplo, ou uma palavra, para saber onde e quando foi empregada ao longo da história.

É muito livro. No meu tempo de faculdade, no século passado, cheguei a trabalhar na biblioteca de Berkeley, também conhecida como a Universidade da Califórnia. Minha tarefa principal era colocar os livros de volta. No lugar certo. A emoção ficava por conta dos constantes treinamentos de abandono do prédio. Como fora construído no século retrasado e como a região é sujeita a terremotos, corríamos o risco, eu e meus colegas, de morrer soterrados debaixo de 6 milhões de volumes.

Era aí que eu queria chegar, ao número. Se somente na biblioteca principal de Berkeley havia 6 milhões de livros, imagine quantos o Google não vai digitalizar, ou melhor, já digitalizou.
Escrevi sobre o projeto há uns cinco anos, acredito, com base em uma longa reportagem da revista New Yorker. Tento acompanhar o assunto de lá para cá, mas as informações rarearam. Li, aqui e acolá, que o Google sofreu diversos processos por parte de editoras e autores que reclamam direitos autorais. Soube que alguns acordos foram feitos, mas pouco mais do que isso.

Isso até a semana passada, quando lançaram os primeiros resultados do projeto. Agora vai. As informações permitem aos pesquisadores medirem com que frequência aparece um termo ao longo da história. No início do século 19, para dar um exemplo, a palavra "men", homem em inglês, era utilizada quase 7 vezes mais do que "women". Essas frequências foram mudando ao longo dos últimos 200 anos. É possível acompanhá-las através de gráficos. Resultado: sabe-se que se escreve nos livros, hoje, mais sobre mulher do que de homem. Vocês ultrapassaram a gente por volta de 1990. Não sei se é um bom sinal. Haverá controvérsias, imagino.

Deus, ou melhor, "God", aparecia 18 vezes em cada 10 mil palavras por volta de 1840. Sua utilização nos livros caiu sistematicamente na segunda metade do século até atingir o patamar de 4 vezes em 10 mil no começo do século 20. De onde talvez seja possível concluir que a teoria de evolução de Charles Darwin, lançada em meados do século 19, teve o mesmo impacto que ele temia: minou a importância da religião.

É curioso notar, também, que Jimmy Carter recebe o dobro de menções que Che Guevara, nos dias de hoje, pelo menos nos 5,2 milhões de livros e 2 bilhões de palavras liberados para consulta (o número ainda é restrito, em função dos processos em andamento na Justiça). Também é interessante constatar que a popularidade da Marilyn Monroe só cresce.

Há quem teme o poder de tanta informação nas mãos de uma única empresa. Entendo a preocupação, mas, no meu caso, ela é obnubilada pelas perspectivas de novos entendimentos abertas por esse gigantesco banco de dados. Desconfio que ele vai nos permitir reescrever a História. A humanidade ganhará novas narrativas sobre seu passado. O futuro não será mais o mesmo.



Endereço: http://ngrams.googlelabs.com/
Fonte:
http://www.estadao.com.br/estadaodehoje/20101220/not_imp655810,0.php

Nenhum comentário: