Nossa missão

"Busca constante da informação para satisfação de seus usuários"

quarta-feira, 25 de maio de 2011

Google e Harvard lançam ferramenta de busca que pode proporcionar estudos mais quantitativos para as Ciências Humanas.


MATTHEW SHIRTS - O Estado de S.Paulo

Não sei se você se lembra, mas escrevi com entusiasmo alguns anos atrás a respeito do projeto do Google de reproduzir todos os livros do mundo em formato digital. Foi aqui mesmo, no Caderno 2. A ideia da empresa era escanear, obra por obra, tudo que havia nas bibliotecas da cidade de Nova York e do Congresso americano, e nas universidades de Berkeley e Stanford e Michigan e Oxford, entre outras. A empresa ofereceria, depois, acesso às informações através do mecanismo de busca que todos nós, ou quase todos nós, já conhecemos. Poder-se-ia digitar uma frase, por exemplo, ou uma palavra, para saber onde e quando foi empregada ao longo da história.

É muito livro. No meu tempo de faculdade, no século passado, cheguei a trabalhar na biblioteca de Berkeley, também conhecida como a Universidade da Califórnia. Minha tarefa principal era colocar os livros de volta. No lugar certo. A emoção ficava por conta dos constantes treinamentos de abandono do prédio. Como fora construído no século retrasado e como a região é sujeita a terremotos, corríamos o risco, eu e meus colegas, de morrer soterrados debaixo de 6 milhões de volumes.

Era aí que eu queria chegar, ao número. Se somente na biblioteca principal de Berkeley havia 6 milhões de livros, imagine quantos o Google não vai digitalizar, ou melhor, já digitalizou.
Escrevi sobre o projeto há uns cinco anos, acredito, com base em uma longa reportagem da revista New Yorker. Tento acompanhar o assunto de lá para cá, mas as informações rarearam. Li, aqui e acolá, que o Google sofreu diversos processos por parte de editoras e autores que reclamam direitos autorais. Soube que alguns acordos foram feitos, mas pouco mais do que isso.

Isso até a semana passada, quando lançaram os primeiros resultados do projeto. Agora vai. As informações permitem aos pesquisadores medirem com que frequência aparece um termo ao longo da história. No início do século 19, para dar um exemplo, a palavra "men", homem em inglês, era utilizada quase 7 vezes mais do que "women". Essas frequências foram mudando ao longo dos últimos 200 anos. É possível acompanhá-las através de gráficos. Resultado: sabe-se que se escreve nos livros, hoje, mais sobre mulher do que de homem. Vocês ultrapassaram a gente por volta de 1990. Não sei se é um bom sinal. Haverá controvérsias, imagino.

Deus, ou melhor, "God", aparecia 18 vezes em cada 10 mil palavras por volta de 1840. Sua utilização nos livros caiu sistematicamente na segunda metade do século até atingir o patamar de 4 vezes em 10 mil no começo do século 20. De onde talvez seja possível concluir que a teoria de evolução de Charles Darwin, lançada em meados do século 19, teve o mesmo impacto que ele temia: minou a importância da religião.

É curioso notar, também, que Jimmy Carter recebe o dobro de menções que Che Guevara, nos dias de hoje, pelo menos nos 5,2 milhões de livros e 2 bilhões de palavras liberados para consulta (o número ainda é restrito, em função dos processos em andamento na Justiça). Também é interessante constatar que a popularidade da Marilyn Monroe só cresce.

Há quem teme o poder de tanta informação nas mãos de uma única empresa. Entendo a preocupação, mas, no meu caso, ela é obnubilada pelas perspectivas de novos entendimentos abertas por esse gigantesco banco de dados. Desconfio que ele vai nos permitir reescrever a História. A humanidade ganhará novas narrativas sobre seu passado. O futuro não será mais o mesmo.



Endereço: http://ngrams.googlelabs.com/
Fonte:
http://www.estadao.com.br/estadaodehoje/20101220/not_imp655810,0.php

segunda-feira, 16 de maio de 2011

Folha põe na internet 90 anos de história em 1,8 milhão de páginas

FERNANDO RODRIGUES
DE BRASÍLIA

No dia em que comemora seus 90 anos, a Folha coloca na internet a versão fac-similar das suas edições desde 1921. São cerca de 1,8 milhão de páginas, incluindo as edições da "Folha da Noite", da "Folha da Manhã" e da "Folha de S.Paulo".

A Folha é o primeiro dos grandes jornais brasileiros a digitalizar seu acervo integral e a colocá-lo à disposição dos leitores.

O processo demorou cerca de um ano. Envolveu dezenas de pessoas do jornal e a contratação da empresa Digital Pages. O custo estimado foi da ordem de R$ 3 milhões, o que inclui a digitalização, o armazenamento e o espaço em servidores capazes de suprir a demanda que será criada na internet.
Nesta fase inicial, qualquer pessoa poderá ter acesso gratuito por meio do site acervo.folha.com.br.

"Após um período de degustação aberto a todos, o acesso gratuito será mantido só para assinantes do jornal. É uma ferramenta poderosa para pesquisas e uma vantagem a mais para o leitor fiel da Folha", afirma Antonio Manuel Teixeira Mendes, superintendente do jornal.

BUSCAS

"Todas as páginas receberam OCR, a tecnologia que permite o reconhecimento de caracteres nas imagens. Com isso, será possível fazer pesquisas simples ou sofisticadas sobre os textos do acervo de forma intuitiva. E, com enorme volume de páginas, a interface foi desenhada para que a busca traga resultados contextualizados visualmente em poucos cliques", diz Ana Busch, diretora-executiva da Folha.com.


Jorge Araújo-23.ago.1979/Folhapress
Pomba pousa                sobre faixa durante ato em favor da anistia a exilados e                presos políticos na praça da Sé, em SP
Pomba pousa sobre faixa durante ato em favor da anistia a exilados e presos políticos na praça da Sé, em SP

O trabalho foi quase todo feito a partir de microfilmes do jornal. Em 1982, a Folha começou a microfilmar suas edições desde a década de 1920. "Embora existam as coleções em papel, o microfilme é importante para preservar o material. A vida estimada de um livro em papel de jornal é de cem anos. Em microfilme, dura cerca de 500 anos", afirma Carlos Kauffmann, gerente do Banco de Dados da Folha e um dos coordenadores do projeto.

Ainda hoje a Folha continua sendo microfilmada. Para efeitos legais, só cópias a partir desse meio são aceitas em processos na Justiça.

"O fato de o jornal na década de 1980 ter decidido microfilmar seus exemplares antigos facilitou bastante o processo. No ano passado, a digitalização começou a partir dos microfilmes. Mesmo os das edições mais velhas estão em boa qualidade", explica Kauffmann.
A partir de agosto de 2003, os arquivos em pdf (imagens digitais das páginas) do jornal foram usados para o atual projeto de colocar na internet todo o acervo.

O projeto de digitalização e apresentação das páginas na web privilegia o acesso amplo dos leitores. Ao fazer a busca de um texto, o interessado chegará à página correspondente e terá a possibilidade de folhear a edição do jornal daquele dia ou até de um período mais longo.

Nesse sistema, o trabalho de pesquisa se torna mais rico. Por exemplo, numa busca sobre a Segunda Guerra Mundial, ao chegar ao artigo específico, o interessado também poderá ler as reportagens publicadas na mesma página e em outras partes da edição naquela data.

Em breve, outros jornais do Grupo Folha também terão seus acervos digitalizados. Entre eles, o "Notícias Populares", que circulou de 15 de outubro de 1963 a 20 de janeiro de 2001, e a "Folha da Tarde", criada em 1949.

GRANDES REPORTAGENS

Nesta e nas próximas páginas deste caderno especial, o jornal relaciona 90 grandes reportagens --como o caso do mensalão (2005)-- e fotos publicadas ao longo de todas as suas edições.

Esse índice pode servir de guia para quem deseja fazer uma viagem histórica pelas páginas do jornal nas últimas nove décadas.


Editoria de Arte/Folhapress