TRADUÇÃO AUTOMÁTICA
AINDA UM ENIGMA MULTIDISCIPLINAR

Milena de Uzeda Garrão (PUC-Rio)

 

Introdução

No início dos anos 50, estudiosos de vários domínios da ciência - como a Psicologia, Filosofia, Teoria da Informação, Inteligência Artificial (IA, doravante), Matemática, Neurologia - passam a voltar suas pesquisas para o funcionamento da mente. Nasce, então, um novo campo de investigação científica, de natureza multidisciplinar, cujo objeto de estudo é a mente como processador de informações.

Os modelos clássicos da mente foram derivados da estrutura da Máquina de Turing e de Von Newmann. Excluindo os detalhes técnicos destas máquinas, podemos dizer, em termos gerais, que elas postulam regras de causa e efeito manipuladas por símbolos. É neste sentido abstrato que podemos dizer que a mente representa uma máquina computacional, pois “dados neurobiológicos indicam que o cérebro é, de fato, uma máquina de causa e efeito” (Churchland & Grush, 1999: 1). Esta abordagem matemática argumenta que o cérebro lida com input (o dado recebido) através de representações e computações para, então, produzir o output. Não podemos dizer, contudo, que o modelo clássico da mente está comprometido com os detalhes da máquina de Turing e de Von Newman ou de computadores comerciais; “somente com a idéia básica de que o tipo de computação que é relevante para entender a cognição envolve operações com símbolos” (Fodor e Pylyshin, 1988: 4).

Neste contexto, nasce a Lingüística Computacional (LC, doravante), como conseqüência das pesquisas em IA - ciência que pode ser definida como resultado de métodos programáveis em computador que simulam atividades mentais humanas envolvendo inteligência (Freitas et al., 1999). A LC, por sua vez, também conhecida como PLN (Processamento de Linguagem Natural), destina-se ao estudo dos sistemas computacionais usados para a compreensão e a geração de linguagem natural. É geralmente definida como a interseção entre Lingüística e Computação: duas áreas que embora aparentemente nada tenham em comum, trabalham, na prática, com a razão e a lógica. É a Lingüística Formal de Noam Chomsky o grande elo entre as duas disciplinas. Segundo esta teoria, a competência lingüística do falante de uma língua poderia ser descrita em termos de um número finito de regras ou princípios lingüísticos capazes de gerar um número infinito de frases nessa língua e de eliminar um número infinito de frases consideradas agramaticais. Há, portanto, uma analogia entre matemática e linguagem natural.

Dentre as principais áreas de aplicação da LC está o Processamento de Textos, que viabiliza o desenvolvimento de Tradutores Automáticos, Corretores Gramaticais e de Sistemas de Pergunta e Resposta. A Tradução Automática (TA, doravante), por sua vez, é um dos domínios da LC que mais envolve conhecimento lingüístico, por codificar informações de uma língua para outra. O objetivo da presente análise é focar esta aplicação computacional, buscando compreender sua evolução pela história e sua aplicação atual.

 

Tradução Automática: breve histórico

A TA, precede a própria LC, historicamente, embora tenha sido incorporada a ela a partir dos anos 50. Foi a primeira aplicação computacional não-numérica proposta na década de 40 dentro da então recém-introduzida área de Ciência da Computação.

Após a segunda Guerra Mundial - durante a época da Guerra Fria - americanos e ingleses, ávidos por informações científicas soviéticas, desenvolveram esta aplicação computacional. A real autoria deste invento é atribuída ao inglês Booth e ao americano Warren Weaver, que desenvolveram uma calculadora científica com dados suficientes para realizar uma tradução palavra por palavra, sem considerar questões sintáticas ou de ordem lexical. Esta máquina permitia que o usuário da área tivesse acesso à tradução de uma lista de palavras-chave de determinado texto e, conseqüentemente, poderia ter uma idéia de seu conteúdo (Alfaro, 1998).

O inglês Richens, em 1948, introduz, nesta mesma máquina, informações no âmbito gramatical e sintático da língua russa, o que veio a acelerar a consulta automática. Já no início dos anos 50, Weaver propõe a exploração automática do contexto dos termos, no intuito de solucionar problemas de ambigüidade semântica. Ele acreditava que os circuitos lógicos das calculadoras seriam capazes de resolver os elementos lógicos da linguagem, auxiliados pela determinação da área à qual a informação pertence; o que em pouco tempo revelou-se um grande equívoco.

Em 1954, na Universidade de Georgetown, há a primeira experiência bem-sucedida de TA entre o russo e o inglês realizada por um computador - ao invés de calculadoras científicas. O vocabulário continha 250 palavras e seis regras sintáticas (Alfaro, 1998).

Esta década representa o grande entusiasmo e otimismo com relação à habilidade de programas de tradução. O que se achava necessário para este feito era um conhecimento de vocabulário e gramática da língua-fonte e da língua-meta aliado a regras de conversão de uma língua para a outra. Portanto, partia-se do pressuposto de que as descrições existentes das línguas eram boas descrições e que uma simples formalização daquelas gramáticas e dicionários poderia servir a esses fins (Vale, 1998). Foi necessário pôr em prática estes pressupostos teóricos para se constatar como eram ingênuos.

Conseqüentemente, a década seguinte revelaria um ceticismo ímpar em relação à possibilidade de TA. Isto é, torna-se claro que enquanto a simples tradução palavra por palavra estaria longe de resultar em uma tradução ao menos inteligível, a formalização das regras a partir das descrições fornecidas pelas gramáticas também parecia longe de dar conta de todos os aspectos das línguas em questão.

Portanto, constatou-se que as tentativas feitas nos anos 50 não pressupunham que o conhecimento de significado dependia de conhecimento de mundo. Assim como também faltava a conscientização de que uma grande proporção de palavras em uma língua é ambígua, como pode ser ilustrado em um famoso exemplo do filósofo Bar-Hillel (1964), ao apontar os problemas que um sistema de TA encontraria em uma seqüência como: Little Peter was looking for his toy box. The box was in the pen

Bar-Hillel argumenta que esta passagem será corretamente interpretada somente quando se tem o conhecimento do tamanho típico de canetas e caixas para que se reconheça a impossibilidade de se colocar uma caixa dentro de uma caneta. Assim, recorre-se a um contexto infantil, onde “pen” refere-se a “playpen” (“cercadinho”). Segundo Bar-Hillel, um computador nunca poderia ser provido de conhecimento suficiente para lidar com este tipo de problema; conseqüentemente, a TA estaria fadada ao fracasso.

Embora bastante pertinentes e lúcidas as afirmações sobre a impossibilidade de um potente tradutor automático, há nos anos 80 - após uma década de lacuna neste tipo de pesquisa motivada por argumentos persuasivos como o acima mencionado - uma retomada de interesses pela TA. Isto se deveu à criação da Comunidade Econômica Européia, à explosão da informatização, ao desenvolvimento e estabelecimento de teorias no âmbito da Lingüística Formal, com grande investigação semântica, ao processamento informatizado de línguas naturais com base em gramáticas de análise e de geração (Alfaro, 1998). Com isto, o campo da IA como um todo, mas principalmente o domínio da LC, e mais especificamente, o sub-domínio da TA passaram a receber apoio de diversos países, em destaque, os europeus.

O que, de fato, ajudou esta retomada de interesse foi uma mudança de expectativa para um ponto de vista mais pragmático. Nesta época já se descartava a esperança de obtenção de um tradutor automático ótimo, e se passava a confiar na utilidade de um programa de tradução, mesmo que imperfeito.

Portanto, a idéia disseminada em meados dos anos 50 de que o computador pudesse traduzir de forma satisfatória foi completamente descartada nos anos 80. Neste período, os objetivos já eram desenvolver aplicativos computacionais que auxiliassem a tradução e programas de TA que previssem a intervenção humana.

Hoje em dia, o grau de aceitação de programas é medido pela quantidade de pré e pós-revisão requerida. Um programa cujo índice de revisão posterior é menor do que 20% (uma correção a cada 5 palavras), é considerável aceitável. Além disso, muitas vezes, o sistema vai sendo melhorado com o uso, ao mesmo tempo em que o tradutor humano adquire prática na otimização do sistema, aprende a reconhecer os erros típicos da TA e pode chegar a dobrar sua produção em alguns meses (Slocum, J. apud Alfaro, 1998).

Note-se que com a proliferação da Internet, nos anos 90, estes programas são utilizados de forma exaustiva, pois estão disponíveis na rede. Portanto, atualmente, os programas de TA desempenham um papel singular na obtenção e disseminação de informação em nível mundial como ressaltam Alfaro & Dias (1998:569).

A quantidade de informações que podem ser repassadas através da rede é inimaginável, assim como o número de usuários de línguas completamente diferentes que têm acesso a essas informações. Soma-se a isso a aparente comodidade proporcionada por tais sistemas a usuários que precisam verter seus textos para outras línguas porém não possuem o conhecimento e a habilidade para tanto e se sentem atraídos pela velocidade com que isso poderia ser feito.

 

Os Tradutores Automáticos Atuais

Atualmente, há tradutores automáticos com capacidade de aquisição lexical, como, por exemplo, o Globalink Power Translator Pro® (1995). É um software de tradução multilíngüe inteligente; isto é, o usuário pode acrescentar informações ao seu banco de dados. Contudo, o guia do usuário deixa clara a necessidade de uma pós-edição, de uma intervenção humana no resultado final da TA.

Em 1999, foi introduzido no mercado o Delta Translator®, um tradutor bilíngüe entre a língua inglesa e uma segunda língua; nosso estudo destina-se ao exame da versão português-inglês deste programa. O que pode parecer um retrocesso tecnológico- pelo fato de este software traduzir somente entre duas línguas - pode vir a ser um ganho para o usuário: com um banco de dados mais compacto, por lidar somente com o léxico de dois idiomas, e menos regras gramaticais e sintáticas de correspondência entre as línguas, se comparado a um tradutor automático multilíngüe, a velocidade do programa é otimizada; muito embora, a pós-revisão humana também não venha a ser descartada.

Assim como o Globalink®, o Delta®, possui um dicionário de palavras e um dicionário de expressões, que podem ser otimizados pelo usuário. A grande vantagem do Delta® se deve à facilidade com que o usuário pode otimizar o dicionário. Ou seja, a interface com o usuário é bastante simples. Além disso, o Delta® foi elaborado com uma função de voz, incluindo a possibilidade de se ouvir o texto original e a tradução, o que não somente é um grande auxílio para quem deseja aprender a pronúncia em uma das línguas, como também uma ferramenta indispensável para deficientes visuais. O programa também dispõe de um assistente sintático-semântico que resolve casos de ambigüidade categorial de itens lexicais que não eram equacionados por sistemas de TA mais antigos. Santos (1995:123) aponta a necessidade de um assistente sintático no domínio da TA: “Sem que uma decisão sintática tenha sido tomada, o contributo que esses itens específicos fazem para o sentido das frases em que ocorrem não pode ser computado e, logo, elas não podem ser traduzidas.”

O autor cita o célebre exemplo “time flies like an arrow”; que pode erroneamente ser traduzido, por sistemas automáticos menos sofisticados (desprovidos de um assistente sintático robusto), como “as moscas do tempo gostam de uma flecha”. Já o assistente sintático do Delta® viabiliza a tradução “O tempo voa como uma flecha”.

Note-se que o tradutor automático, mesmo já no século XXI, é uma ferramenta de trabalho para tradutores ou para leigos em uma das línguas em questão; não é o resultado definitivo de uma tradução, nem o poderia ser, visto a capacidade exclusivamente humana de enxergar todas as nuanças da língua.

Na área de LC é fato notório que, independentemente da sofisticação do sistema, seu desempenho deve ser medido em grande parte pelos recursos do léxico computacional associado a ele. Portanto, a aquisição do léxico passou a ser uma etapa essencial para que um sistema de PLN (Processamento de Linguagem Natural) fosse realístico. Esta empreitada começou há mais ou menos 15 anos através de uma pesquisa (mencionada em Boguraev e Pustejovsky, 1996:3) direcionada a transformar informação compilada por lexicógrafos em forma de dicionários lidos por máquinas.

Hoje em dia, entretanto, chegou-se à conclusão de que mesmo com os dados lexicais destas fontes, há um enorme número de diferentes classes de palavras que ficam fora do alcance de um dicionário convencional; além disso “há informações necessárias aos sistemas computacionais atuais que não são acessíveis a dicionários lidos por máquinas.” (Boguraev e Pustejovsky, 1996:3). Portanto, podemos dizer que o trabalho do tradutor humano é primordial e absolutamente imprescindível. Alfaro & Dias (1998:382) ratificam a insubstituição do tradutor humano:

Os sistemas de tradução por máquina... exigem revisão humana, seja antes, durante ou após a tradução, não dispensando algum tipo de interação humana especializada em hipótese alguma... E, cada vez mais, tornam-se fortes aliados dos tradutores profissionais.

São aliados, principalmente, de tradutores técnicos, tendo em vista que a tradução literária lida, na maioria das vezes, com estilos sintáticos rebuscados, o que não é condizente com o pragmatismo da TA. Ou seja, a pós-edição humana de um texto literário traduzido por um programa, em geral, é muito maior do que a de um texto técnico.

Memória de Tradução

Os anos 90 também trouxeram projetos alternativos às limitações dos tradutores automáticos. Em 1993 foi lançado o sistema Déjà-Vu, que consistia em um grande banco de dados para tradução. Atualmente está sendo introduzido no mercado brasileiro o Sistema TRANSIT, claramente inspirado no sistema Déjà-Vu. Assim como o seu antecessor, o TRANSIT não é um tradutor automático, mas sim, uma memória de tradução. Este software, desenvolvido especialmente para tradutores, chega ao usuário com memória zero; é o próprio tradutor quem vai preencher o seu banco de dados. Este preenchimento ocorre on-line; ou seja, durante a tradução do usuário. Toda vez que o TRANSIT detecta uma frase ao menos semelhante àquela do seu banco de dados, ele imediatamente fornece a tradução e a percentagem de semelhança com a frase a ser traduzida.

Este sistema é interessante principalmente para tradutores técnicos que se dedicam a um mesmo domínio terminológico. Um aspecto bastante interessante do TRANSIT é que ele nada mais é do que o “espelho” do tradutor humano. Em outras palavras, se o usuário do software for um tradutor descuidado, o TRANSIT vai ter um banco de dados de pouca confiabilidade. Entretanto, se o tradutor for criterioso e traduzir textos do mesmo assunto, o software representará, além de confiabilidade, uma maior otimização do tempo e lucro.

 

Conclusões

O neurologista português radicado na Universidade de Iowa, António Damasio, argumenta que o grande erro do pensamento cartesiano foi achar que a razão e a lógica desprovidas de emoções nos fariam tomar decisões mais acertadas. Em The Descartes’ Error (1994), o neurologista defende que é a nossa experiência emocional que nos ajuda a decidir. A visão de Damasio explica, em parte, a dificuldade de programas eminentemente lógicos em lidar com algo essencialmente humano, a linguagem.

Tucker (1986:41) postula que “a TA é um dos problemas interdisciplinares mais profundos na história da pesquisa científica”. Problema este que somente será equacionado com a comunhão de diversos domínios da ciência - como a LC, a Engenharia Computacional, a IA, e a Neurologia - unindo criatividade e conhecimento acumulado para um único objetivo.

Em contrapartida, vivemos uma época em que a ciência se mostra cada vez mais capaz de alcançar o impossível. Há algum tempo ninguém imaginaria que o enxadrista Gary Kasparov fosse ser derrotado por um computador, como aconteceu em 1996, quando o programa Deep Blue levou o campeão ao desespero.

Claro é que a língua não pode ser posta em par de igualdade com a lógica e a estratégia do xadrez. Ela não é somente matemática. Nós, tradutores, respiramos aliviados.

 

Bibliografia

ALFARO, C. Descobrindo, Compreendendo e Analisando a Tradução Automática. Monografia de Fim de Curso de Especialização em Tradução Inglês/Português, PUC-Rio, 1998.

ALFARO, C & M.C.P. DIAS. “Tradução Automática: uma ferramenta de auxílio ao tradutor”. In Cadernos de Tradução n° 3. Centro de Comunicação e Expressão: GT de Tradução. Universidade Federal de Santa Catarina, 1998.

BAR-HILLEL. Language and Information. Selected essays on their theory and application. Massachusetts : Addison-Wesley Publishing Company., 1964.

BOGURAEV, B. & J. PUSTEJOVSKY. Issues in Text-based Lexical Acquisition. In B. Boguraev e J. Pustejovsky (orgs.) Corpus Processing for Lexical Acquistion. Cambridge, Massachusetts : MIT Press, 1995.

CHURCHLAND, P. & GRUSH, R. Computation and the Brain.

<http://mitpress.mit.edu/MITECS/work/churchland_r.html>, 1999.

DAMASIO, A. Descartes’ Error: emotion, reason, and the human brain. Nova York : Putnam, 1994.

FREITAS, NAME & SILVEIRA. Modelos Modulares e Modelos Conexionistas: abordagens possíveis para o processamento da informação. Versão escrita da palestra apresentada no curso Evolução do Pensamento Lingüístico, PUC-Rio, 1999.

FODOR, J. & PYLYSHYN, Z (1988) “Connectionism and Cognitive Architecture: A Critical Analysis”, In Pinker & Mehler, J.(Ed.) Connections and Symbols. Cognition, Special Issue.

KURZWEIL, R. The Age of Spiritual Machines: When Computers Excede Human Intelligence. Cambridge, Massachusetts: MIT Press, 2000.

NIRENBURG, S. “Knowledge and Choices in Machine Translation”. In Niremburg S. (Org). Machine Translation. Cambridge : Cambridge University Press, 1987.

OLIVEIRA, C. O Processamento Automático do Léxico. Monografía de fim do curso Introdução à Lingüística Computacional. PUC-Rio, 2000.

PINKER, S. Como a Mente Funciona. São Paulo : Companhia das Letras. 1999.

SANTOS, P. “Tradução Automática”. In Mateus, M.H. & Branco, A. H. (orgs.) Engenharia da Linguagem. Faculdade de Letras da Universidade de Lisboa. Lisboa : Colibri. 1995.

TUCKER, A. B. “Current Strategies in Machine Translation Research and Development”. In Niremburg S. (Org). Machine Translation. Cambridge : Cambridge University Press, 1987.

VALE, O. A. “Sintaxe, léxico e expressões idiomáticas”. In Brito & Vale (eds.) Filosofia, lingüística e informática: aspectos da linguagem, Goiânia : UFG, 1999.