8 de março de 2006

A internet como corpus

A internet é uma faca de dois gumes: a mesma facilidade de acesso que nos oferece milhões de textos sobre os mais variados assuntos permite a publicação de todo tipo de bobagem, proposital ou não. Por isso, as pesquisas na internet devem ser cada vez mais criteriosas e confirmadas pelo menos mais uma vez de um modo relativamente seguro. Bater o olho numa informação perdida por aí, replicá-la e justificar com "li na internet" é como dizer "um desconhecido na rua me contou". Confiabilidade zero.

Vários blogs sobre tradução recentemente fizeram referências a este artigo de Stephen Strauss, no qual ele dá dicas para procurar e confirmar a tradução de uma expressão na internet. Em resumo, o método consiste em:
  1. Pesquisar a expressão original pedindo resultados na outra língua e/ou restringindo a busca a sites governamentais ou que inspirem confiança.
  2. Tomar nota das traduções encontradas (em geral, mais de uma).
  3. Pesquisar as traduções encontradas e comparar o número de ocorrências de cada uma.
Pesquisando expressões com mais de uma palavra e entre aspas, o número de ocorrências é muito menor do que pesquisando palavras soltas, de modo que esse tipo de busca é mais confiável do que o de palavras soltas. Se uma das palavras da expressão estiver errada ou não for esse o uso mais comum, serão encontradas muito poucas ocorrências. Poucas ocorrências, para mim, são na casa das dezenas e poucas centenas. Mesmo algo um tanto quanto obscuro aparece no mínimo em cerca de 1.000 textos no Google.

Aliás, duas formas de pesquisa "clássicas" aproveitando o corpus da internet são a de expressões ou "colocações" (collocations) e a de biologia/zoologia. A primeira se dá como explicado acima, procurando expressões entre aspas e comparando o número de resultados. A segunda é feita de um modo muito parecido ao método acima:
  1. Pesquisa-se o animal ou a planta na língua original e obtém-se o nome científico.
  2. Procura-se pelo nome científico pedindo resultados na língua-meta.
A hipótese de todos esses métodos, é claro, é a de que a maioria dos textos são escritos por falantes nativos e estão corretos. Ainda assim, como em qualquer pesquisa de corpus, os resultados precisam ser devidamente interpretados.

Infelizmente, o Google não possui um mecanismo de busca simultânea de consultas diferentes. A forma mais prática é abrir duas janelas do navegador, uma para cada pesquisa.

Há um mecanismo externo, aparentemente desenvolvido com fins de entretenimento, que faz essa busca simultânea: o Googlefight. Basta preencher as duas caixas de busca e o programa pesquisa as duas ao mesmo tempo no Google. Após uma luta entre dois bonequinhos, o número de ocorrências de cada pesquisa é exibido.

Dois pontos contra: primeiro, a busca é feita em inglês. Os resultados podem ser totalmente distorcidos se forem inseridas palavras em outras línguas, pois não há como informar isso exceto acrescentando domínios de site como filtros (por exemplo "site:.br") na janela de busca. Segundo, só é fornecido o número de ocorrências, sem mais informações. Isto é, não temos como interpretar os resultados.

Ainda assim, é uma ferramentazinha adicional, que pode complementar a busca no Google propriamente dita. Mas desde que a descobri eu aguardo algo parecido oferecido pelo próprio Google - aí sim, vai ser uma festa!

3 comentários:

Riccardo disse...

Hope you don't mind if I comment in English, since my Portuguese, while good enough to read easily, is far too rusty to attempt writing in it.

As regards doing simultaneous Google searches, the way I prefer to do it is to use a tabbed browser (such as Firefox), and devote several tabs to Google (for instance, two tabls for Google.it and two for Google.com.

If then I run my searches in the various google tabs, I can easily switch between them, and see the different results.

For those of us who are programmers, an even better solution would be to make use of the Google API to create a specialized web search page, geared towards the specific requirements of translation comparative searches.

There is a number of books that explain Google innards, one of the best is "Google Hacks", by Tara Calishain & Rael Dornfest.

I'm not a good enough programmer to do this on my own, though it would certainly be interesting to try.

Carol disse...

Thanks Riccardo. English is fine by me!

I love tabs too. I usually keep one Google window with several searches and one only with online dictionaries open in different tabs.

But would love to see some kind of advanced Googlefight, with informative data about two or more simultaneous searches in one window.

But then again, this is so specific I would probably have to design it myself...

Alô, tradutores-programadores de plantão: aqui há uma boa idéia de ferramenta para vocês disponibilizarem para seus queridos colegas... :o)

JPS disse...

Carol,

Seu blog está muito fofo.
Uma sugestão de tradução para "collocations" é a que o saudoso prof. Daniel Brilhante de Brito usava: "séries usuais". Que tal?