ENGENHARIA LINGÜÍSTICA

Alfredo Maceira Rodríguez (UCB)

1. O QUE É A ENGENHARIA LINGÜÍSTICA
Denomina-se Engenharia Lingüística (Ing. Language Engineering; Esp. Ingeniería Lingüistica) a aplicação dos conhecimentos lingüísticos ao desenvolvimento da Informática, a qual pode reconhecer, entender, inter-pretar e gerar linguagem humana em todas as suas formas. Na prática, a Engenharia Lingüística abrange uma série de técnicas e recursos lingüísti-cos. As técnicas são implementadas em software e os recursos lingüísticos constituem um repositório de conhecimentos que podem ser acessados com o software dos computadores.

1. 1. COMPONENTES DA TECNOLOGIA
Os componentes básicos da Engenharia Lingüística são os seguintes:
a) entrada de material no computador por meio de fala, texto impresso ou manuscrito, ou qualquer outro texto codificado ou introduzido eletronicamente:
b) reconhecimento da língua constante no material introduzi-do, reconhecimento de palavras separadas, por exemplo, gravando simboli-camente o material e tornando-o válido;
c) elaboração e compreensão do significado do material no nível adequado para determinado uso;
d) uso desta compreensão em uma aplicação para transfor-mação, por exemplo, da fala em texto, recuperação de informação ou tradu-ção de linguagem humana;
e) geração de um meio em que possa apresentar os resultados da aplicação.

1.2. TÉCNICAS
Indicamos apenas algumas:
a) Identificação e verificação de um falante
A voz humana é tão individual quanto as impressões digitais. Isto possibilita a identificação de um falante e o possível uso desta identificação para seu reconhecimento. Um problema ainda a ser superado é a seleção da voz no meio de ruídos do ambiente e sua identificação confiável, mesmo com as mudanças ocasionadas pelo tempo, assim como as causadas por doenças, etc.
b) Reconhecimento da fala
O fonema é recebido num computador em formatos de onda analógi-cos, que são analisados para identificar os fonemas que formam as palavras. São usados modelos estatísticos de fonemas e palavras para reconhecer a entrada discreta ou contínua  da fala. A elaboração de modelos estatísticos de qualidade requer treinamento extensivo de amostras (corpora). Para isso grandes quantidades de fala já foram e continuam sendo coletadas com esse objetivo.
Existem muitos problemas a serem resolvidos para que a fala se tor-ne um meio comum de lidar com o computador. O primeiro deles é a capa-cidade de reconhecer o fluxo contínuo da fala, o que difere da fala que é deliberadamente enviada para o computador pelo falante em forma de uma série de palavras discretas, separadas por pausas. O seguinte passo é o reco-nhecimento de qualquer falante, sem necessidade de que o sistema tenha que reconhecer a fala de um indivíduo determinado. Existe também o sério problema do ruído, que pode interferir no reconhecimento: o ruído do ambi-ente, do meio de transmissão, como a linha telefônica, etc. A redução do ruído, a intensificação do sinal, a marcação da palavra-chave podem ser recursos usados para permitir melhor reconhecimento em ambientes baru-lhentos ou em redes de telecomunicações. Finalmente existe o problema de lidar com sotaques, dialetos e língua falada, quando os falantes geralmente não respeitam a gramática.

1.3. RECONHECIMENTO DE CARACTERES E IMAGENS EM DOCUMENTOS
O reconhecimento da língua escrita requer uma representação sim-bólica da língua, derivada da forma espacial de suas marcas gráficas. Para a maioria das línguas isso significa reconhecer e transformar caracteres. Há dois casos de reconhecimento de caracteres:
1) reconhecimento de imagens impressas, conhecido como Reco-nhecimento Ótico de Caracteres (OCR)
2) Reconhecimento de letra manuscrita, conhecido como Reco-nhecimento Inteligente de Caracteres (ICR)
Com o OCR pode-se obter um elevado grau de precisão de uma fa-mília de fontes impressas. Surgem problemas quando a fonte é desconheci-da ou muito decorativa ou quando a qualidade da impressão é ruim. Nestes casos e no da letra manuscrita podem-se obter bons resultados somente com o uso do ICR. Isto envolve técnicas de reconhecimento de palavras que usam modelos de língua tais como dicionários ou glossários com informa-ção estatística  a respeito de seqüências de palavras.
A análise das imagens de um documento está intimamente associada ao reconhecimento de caracteres, mas envolve em primeiro lugar a análise do documento para determinar sua composição em termos de gráficos, foto-grafias, linhas que separam o texto e, a seguir, a estrutura do texto para identificar cabeçalhos, títulos, etc., para assim poder processar o texto.

1.4. COMPREENSÃO DA LINGUAGEM NATURAL
A compreensão da linguagem é fundamental para muitas aplicações, entretanto, a compreensão perfeita nem sempre é uma exigência. De fato, uma compreensão parcial é com freqüência uma etapa preliminar utilíssima no processo porque possibilita a seleção de processos inteligentes para al-cançar níveis mais profundos.
A análise superficial ou parcial de textos é usada para obter uma classificação inicial dos textos. Esta análise, por exemplo, pode ser usada para focalizar partes "interessantes" para uma análise semântica mais pro-funda.

1.5. GERAÇÃO DE LÍNGUA NATURAL
Uma representação semântica de um texto pode ser usada como base para gerar linguagem. A interpretação de dados básicos ou o significado subjacente de uma sentença ou sintagma pode ser representada numa cadeia da estrutura superficial.

1.6. GERAÇÃO DE FALA
A fala é gerada partindo de assistentes, usando gravações "em con-serva" ou concatenando unidades da fala (fonemas, palavras, etc.). A fala gerada tem que levar em conta aspectos como intensidade, duração e tonici-dade, para produzir uma resposta contínua e natural.
Pode-se estabelecer diálogo combinando reconhecimento da fala com simples geração, concatenando componentes da fala humana armaze-nados ou usando regras sintetizadoras da fala.
Com uma biblioteca de reconhecedores e geradores da fala, junto com uma ferramenta gráfica para estruturar sua aplicação, é possível, mes-mo para quem não é foneticista ou programador de computador, planejar um diálogo estruturado que pode ser usado, por exemplo, em chamadas telefônicas automáticas.

2. RECURSOS LINGÜÍSTICOS
Os recursos lingüísticos são componentes essenciais da Engenharia Lingüística. Eles estão entre os meios principais de representar o conheci-mento da linguagem, que é usada para o trabalho analítico que leva ao reco-nhecimento e à compreensão.
A tarefa de produzir e manter recursos lingüísticos é enorme. Os re-cursos são produzidos de acordo com formatos e protocolos padrões para possibilitar o acesso a muitas línguas da União Européia, em laboratórios de pesquisas e instituições públicas. Muitos destes recursos são fornecidos pela Associação Européia de Recursos Lingüísticos (ELRA)

2.1. DICIONÁRIOS
Um dicionário é um repositório de palavras e informações sobre es-tas palavras. As informações podem incluir detalhes da estrutura gramatical de cada palavra (morfologia), da estrutura fônica (fonologia), de seu signifi-cado em diferentes contextos, etc. Um dicionário útil pode conter centos de milhares de entradas. Os dicionários são necessários para qualquer língua.

2.2. DICIONÁRIOS TÉCNICOS
a) Nomes próprios. São importantes para muitos usos, onde o nome é a chave da aplicação, como num sistema de navegação operado por voz, informação de horários em trens, chamadas automáticas de telefone, etc.
b) Terminológicos. São muito importantes na atualidade. Muitas das aplicações mais dispendiosas da Engenharia Lingüística, tais como gerenci-amento e tradução eletrônica de documentos multilíngües dependem da disponibilidade de bancos terminológicos apropriados.
c) Dicionários específicos. Descrevem a relação entre palavras, por exemplo, sinônimos, antônimos, coletivos, etc. São valiosíssimos para recu-perar informação, possibilitar bancos de dados para o tradutor e facilidades de informação para os autores.

2.3. GRAMÁTICAS.
A gramática descreve a estrutura de uma língua em diversos níveis: léxico, significado e sintaxe.

2.4. CORPORA.
Um corpus é uma peça de linguagem, texto ou fala, que fornece a base para:
a) analisar a linguagem para estabelecer suas características;
b) treinar uma máquina, geralmente para adaptar seu com-portamento às determinadas circunstâncias;
c) verificar empiricamente uma teoria relativa à linguagem;
d) fazer uma série de testes para uma determinada técnica de Engenharia Lingüística ou para uma aplicação, para verificar como funciona na prática.
Há corpora nacionais de centenas de milhões de palavras, mas tam-bém há corpora que são compilados para fins particulares. Por exemplo, um corpus pode compreender gravações de motoristas falando para um simula-dor de sistema de controle que reconhece comandos de voz, usado para ajudar a estabelecer as solicitações do usuário para um sistema de controle comercial operado por voz.

3. A CADEIA DE DESENVOLVIMENTO E APLICAÇÃO
O processo de pesquisa e desenvolvimento leva ao desenvolvimento de técnicas, produção de recursos e estabelecimento de padrões.  Na prática, a Engenharia Lingüística é aplicada em dois níveis.
No primeiro temos, entre outros empregos:
a) tradução;
b) gerenciamento da informação (multilíngüe);
c) produção de textos (multilíngües):
d) relacionamento homem/máquina (fala e texto multilín-gües).
No segundo nível temos as aplicações destes recursos nos problemas da vida real, no campo social e no econômico. Por exemplo:
a) o gerenciamento da informação pode ser usado em servi-ços de informação, analisando as solicitações e confrontado-as com a base de dados de textos ou imagens para selecionar a informação desejada;
b) ferramentas para produção de textos são usadas em pro-cessadores de textos e também para gerar textos como cartas comerciais em línguas estrangeiras, etc.;
c) a tradução da linguagem humana é usada para oferecer ajuda ao tradutor humano e à tradução automática, que só é usada em domí-nios limitados;
d) a maior das aplicações pode ser efetuada com interface do usuário de língua natural, incluindo a fala, com a finalidade de melhorar seu uso.
Em geral, a capacidade da linguagem está embutida nos sistemas para melhorar seu desempenho. A Engenharia Lingüística é uma "tecnolo-gia das possibilidades".

4. O IMPACTO DA ENGENHARIA LINGÜÍSTICA
A tecnologia da linguagem pode ser aplicada em uma ampla faixa de problemas, no comércio e na administração pública, para obter soluções melhores e mais efetivas. Pode ser usada também na educação, na ajuda a deficientes e na adoção de novos serviços para as organizações e os consu-midores. Há diversas áreas em que seu impacto é significativo:
a) competição no mercado global;
b) disponibilidade de informação para o comércio, adminis-tração pública e consumidores;
c) disponibilidade de serviços diretamente pelo telenegócios;
d) apoio eletrônico ao comércio;
e) possibilidade de comunicação efetiva;
f) garantia de acesso e participação mais fácil;
g) melhoria de oportunidades para educação e auto-desen-volvimento;
h) expansão do divertimento, lazer e criatividade.

5. PROJETOS
Existem diferentes programas de pesquisa e desenvolvimento finan-ciados pela União Européia. Regem-se pelos programas Marco, o primeiro dos quais iniciou-se em 1984.  O conteúdo e a estrutura do atual IV Pro-grama Marco (1994-1998) foi influenciado pelo Tratado de Maastrich, que estabelece a competência da União e dos Estados-Membros na pesquisa e desenvolvimento. Acabam de começar os preparativos para o V Programa (1998-2002), que contará com um programa dedicado à sociedade da in-formação, no que se integrarão a Engenharia Lingüística e as indústrias da língua.
Os Programas Marco são administrados pelas Direções Gerais da Comissão Européia e são de diversos tipos. Os mais relacionados à Enge-nharia Lingüística e Indústrias da Língua são o Programa de Aplicações Telemáticas (TAP) e o de Tecnologia da Informação. O TAP desenvolve atualmente mais de 35 projetos em diversas áreas de pesquisa. Estes proje-tos são desenvolvidos por consórcios formados por organizações que utili-zam a tecnologia e a experiência de organizações acadêmicas e de pesquisa, de organizações governamentais e de empresas. São administrados por firmas comerciais, cuja gerência acredita no valor da Engenharia Lingüísti-ca para seus negócios atuais e futuros. O TAP é administrado pela Direção Geral XIII, encarregada das telecomunicações, do mercado da informação e da exploração da pesquisa. Seus objetivos gerais compreendem o desenvol-vimento de projetos em todas as áreas em que possam aplicar com sucesso as novas tecnologias da comunicação: administração, transporte, pesquisa, ensino, bibliotecas, áreas rurais e urbanas, saúde, deficientes e idosos, assim como em ações denominadas horizontais, como a Engenharia Lingüística e a Engenharia da Informação.
O setor dedicado à Engenharia Lingüística é coordenado por uma unidade específica da Direção Geral XIII (E-5) e tem sua sede em Luxem-burgo. São contemplados, no IV Programa Marco, quatro tipos de projetos: aplicações-piloto da Engenharia Lingüística, criação de recursos lingüísti-cos, pesquisa básica e ações de apoio e difusão.
Na DG XIII/E, iniciou-se em 1996 o programa denominado Socie-dade da Informação Multilíngüe (SIML) .
O Programa de Tecnologias da Informação (ESPRIT) é administrado pela DG XIII, com competências sobre a indústria. ESPRIT inclui, entre outras, ações dedicadas à pesquisa de longo prazo, as tecnologias do softwa-re e os sistemas de multimídia, junto com atividades de coordenação e apoio, como as Redes de Excelência, uma das quais, a ELSNET (European Network in Language and Speech), dedica-se à Engenharia Lingüística. No campo do programa ESPRIT financiaram-se projetos na área da tecnologia da fala.
A primeira iniciativa institucional da Espanha relacionada com a En-genharia Lingüística ocorreu em 1990, com a criação de Tecnologia Lin-güística na Área de Indústrias da Língua da Sociedade Estatal Quinto Cen-tenário, continuado até 1992. Os principais resultados obtidos na área de recursos lingüísticos, por exemplo, o Arquivo Digital de Manuscritos e Textos Espanhóis (ADMYTE), ou o Corpus de Referência da Língua Espa-nhola Contemporânea, a terminologia, (com a constituição da Rede Ibero-Americana de Terminologia), e os programas educativos são resumidos no relatório sobre a língua espanhola nas auto-estradas da informação, publica-do pela FUNDESCO (Fundação para o Desenvolvimento Social das Tele-comunicações), em 1996.
O Observatório Espanhol das Indústrias da Língua (OEIL) participa em projetos relacionados com a criação de padrões em Engenharia Lingüís-tica (EAGLES) e com o setor (MAP-SPAIN e EUROMAP). Em 1984 foi fundada a Sociedade Espanhola para o Processamento da Linguagem Natu-ral (SEPLEN), com o objetivo de promover atividades relacionadas com a pesquisa, o desenvolvimento e o ensino. Desde então, a SEPLEN realiza um congresso anual e publica uma revista: Procesamiento del lenguaje natural.
O setor de Engenharia Lingüística da Direção Geral XIII, da Comis-são Européia, iniciou suas atividades em 1991, com o programa conhecido como Linguistic Research and Engineering (LRE), dentro do Terceiro Pro-grama Marco. As atividades do Quarto Programa Marco (1993-1994) rece-beram a denominação de Multilingual Action Plan (MLAP). A partir de 1994 houve quatro convocatórias do programa de Engenharia Lingüística (Language Engineering, LE), a última das quais teve lugar em 1997.
Dos 111 projetos aprovados, 32 contam com participantes espanhóis, 28,8% deles no setor de Engenharia Lingüística.
A participação pode dar-se em três níveis diferentes: como sócio principal (contractor), como participante ou sócio (part-ner), ou como par-ticipante associado a outra instituição (associated partner).
A participação das empresas é superior a das universidades. En-quanto o 27,5% procedem do meio universitário, o 45% procedem do mun-do empresarial.
Pesquisa lingüística na Espanha
Num levantamento aproximado, detectaram-se 120 grupos, centros ou empresas onde se desenvolvem atividades de pesquisa que podem ser consideradas de Engenharia Lingüística. Embora os dados sejam aproxima-dos, pode-se dizer que 47 destes grupos se dedicam primordialmente ao processamento do texto escrito, 44 à fala e 29 a recursos lingüísticos. Aqui a Engenharia Lingüística está mais presente no meio universitário. Dos gru-pos identificados, 93 pertencem a departamentos universitários ou a centros públicos de pesquisa, embora se possa alegar que os dados neste meio são mais acessíveis que os da atividade comercial.
Foram identificados 88 grupos de pesquisa, laboratórios, seminários ou departamentos em universidades públicas ou particulares, cujas linhas de trabalho se relacionam com alguma das vertentes da Engenharia Lingüísti-ca, o processamento da linguagem e da fala ou a constituição ou exploração de recursos lingüísticos.
No contexto acadêmico, 42 grupos, laboratórios ou departamentos situam-se no campo da Lingüística ou da Filologia, enquanto 23 relacio-nam-se com diversas áreas da Informática (inteligência artificial, linguagem e sistemas da informática, engenharia do software), oito enquadram-se em centros de engenharia de telecomunicações, quatro em outros campos técni-co-científicos (estatística e eletrônica) e sete em áreas humanas ou de ciên-cias sociais (psicologia, ciências da comunicação, lógica ou filosofia).
Desses grupos, 53 informaram seu número de membros, que somam um total de 474 pesquisadores universitários, dedicados a alguma das áreas da Engenharia Lingüística. Estes grupos têm em média oito pesquisadores, oscilando entre dois e 29. As equipes de pesquisadores mais numerosas encontram-se nos centros relacionados com a Engenharia das Telecomuni-cações (14 pesquisadores em média). No campo da Informática o número médio de pesquisadores por grupo é de 10 e os grupos que trabalham nos departamentos de Filologia têm uma média de cinco a seis pesquisadores,
Embora seja difícil definir o campo principal de atividades de um grupo de pesquisa, os resultados mostram que 34 grupos, laboratórios ou departamentos dedicam-se fundamentalmente às tecnologias do texto es-crito, 32 às da fala e 22 aos recursos lingüísticos. Dos grupos dedicados ao texto, 10 trabalham no tratamento do nível morfológico (desenvolvimento de lematizadores, etiquetadores, geradores e outras ferramentas correspon-dentes a este nível de análise). Outros seis grupos dedicam-se ao léxico, devido à sua importância no desenvolvimento de sistemas de processamento de linguagem natural. Outros cinco grupos ocupam-se com o papel dos formalismos gramaticais no processamento do texto; quatro grupos estudam modelos de linguagem, enquanto outros quatro grupos se dedicam a técni-cas de aprendizagem automática.
Existem muitos outros grupos que se dedicam a aplicações das tec-nologias do texto, reconhecimento da fala, conversão de texto em fala, identificação e verificação do falante, etc.

5. 1 CENTROS PÚBLICOS DE PESQUISA
Nos centros públicos de pesquisa realizam-se projetos de pesquisa e desenvolvimento e desenvolvem-se linhas de pesquisa relacionadas com a Engenharia Lingüística. Dos cinco grupos ou departamentos identificados, quatro enquadram-se no Consejo Superior de Investigaciones Científicas (CSIC), enquanto a Real Academia Española (ERA) se integra no Instituto de España.
A principal atividade refere-se à constituição e exploração dos recur-sos lingüísticos.

5.2 OUTROS PROGRAMAS EUROPEUS
Além dos programas mencionados, há grupos espanhóis participando em programas de Engenharia Lingüística financiados por programas como EUREKA, COST, ACTS, TIDE, LIBRARIES ou HCM. Neles há uns 123 projetos em que participam 13 grupos espanhóis (8 equipes universitárias, 3 empresas e 2 organismos oficiais). Quatro projetos referem-se a tecnologias que tratam do texto escrito, como tradução automática, processamento e recuperação da informação ou a interfaces em linguagem natural, enquanto seis se dedicam à conversão do texto em fala e ao reconhecimento ou identi-ficação e verificação do falante.
Na hora de avaliar os dados, deve-se levar em conta o número de projetos em que participou cada grupo ou empresa. 70,9% das equipes dis-põem de fundos para um projeto, embora se deva destacar que uma quarta parte dos grupos participou ou participa em um número de projetos que oscila entre dois e cinco; e 7,8% contaram com fundos para cinco ou mais projetos especialmente em programas como o de Tecnologias da Informa-ção e das Comunicações ou nos do setor de Engenharia Lingüística do Pro-grama de Aplicações Telemáticas.

6. CONCLUSÃO
Pelo que podemos concluir, a Engenharia Lingüística está despertan-do a atenção não só dos pesquisadores, mas também do meio empresarial, que leva em conta o que esta atividade promete para o futuro, tendo em vista o que já se tem conseguido e a seriedade com que é tratada como tec-nologia de ponta, que muito promete para um futuro próximo. Vemos o empenho e o investimento que domina nos países da União Européia. Na ocasião da leitura deste trabalho, o leitor já poderá ter informações de que alguma das propostas que constam como futuras realizações, já seja realida-de, tal a velocidade com que se avança nesta área de conhecimentos. Os métodos adotados tradicionalmente para a pesquisa lingüística de há muito estão superados. O pesquisador das ciências da linguagem (filologia, lin-güística, línguas estrangeiras, etc.) tem que fazer uso dos meios que a enge-nharia e as demais ciências relacionadas com a comunicação põem diaria-mente a seu dispor. Não se sabe o que o futuro nos reserva. A pesquisa lingüística é atualmente mais necessária do que nunca e seguirá sendo no futuro, inclusive para poder colaborar com outras disciplinas, porém os métodos de pesquisa terão que ser constantemente atualizados.

7. ALGUNS ENDEREÇOS PARA INFORMAÇÃO
Centro Virtual Cervantes
Instituto Cervantes (España), 1998   www. cvc.cervantes.es
Joaquim Llisterri & Juan M. Garrido Almiñana. La ingeniería lin-guística en España. Ver em cvc. Contém ampla bibliografia.
Anite Systems
151 rue des Muguets
L-2167 Luxembourg
linglink@anite-systems.lu
Groupe Langage et Cognition
LIMSI-CNRS – B. P. 133,
91403 ORSAY Cedex - France
http://www-csli.stanford. edu/publications/ Contém muita bibliografia recente.