ENGENHARIA LINGÜÍSTICA
Alfredo Maceira Rodríguez (UCB)
1. O QUE É A ENGENHARIA LINGÜÍSTICA
Denomina-se Engenharia Lingüística (Ing. Language Engineering;
Esp. Ingeniería Lingüistica) a aplicação dos
conhecimentos lingüísticos ao desenvolvimento da Informática,
a qual pode reconhecer, entender, inter-pretar e gerar linguagem humana
em todas as suas formas. Na prática, a Engenharia Lingüística
abrange uma série de técnicas e recursos lingüísti-cos.
As técnicas são implementadas em software e os recursos lingüísticos
constituem um repositório de conhecimentos que podem ser acessados
com o software dos computadores.
1. 1. COMPONENTES DA TECNOLOGIA
Os componentes básicos da Engenharia Lingüística
são os seguintes:
a) entrada de material no computador por meio de fala, texto impresso
ou manuscrito, ou qualquer outro texto codificado ou introduzido eletronicamente:
b) reconhecimento da língua constante no material introduzi-do,
reconhecimento de palavras separadas, por exemplo, gravando simboli-camente
o material e tornando-o válido;
c) elaboração e compreensão do significado do
material no nível adequado para determinado uso;
d) uso desta compreensão em uma aplicação para
transfor-mação, por exemplo, da fala em texto, recuperação
de informação ou tradu-ção de linguagem humana;
e) geração de um meio em que possa apresentar os resultados
da aplicação.
1.2. TÉCNICAS
Indicamos apenas algumas:
a) Identificação e verificação de um falante
A voz humana é tão individual quanto as impressões
digitais. Isto possibilita a identificação de um falante
e o possível uso desta identificação para seu reconhecimento.
Um problema ainda a ser superado é a seleção da voz
no meio de ruídos do ambiente e sua identificação
confiável, mesmo com as mudanças ocasionadas pelo tempo,
assim como as causadas por doenças, etc.
b) Reconhecimento da fala
O fonema é recebido num computador em formatos de onda analógi-cos,
que são analisados para identificar os fonemas que formam as palavras.
São usados modelos estatísticos de fonemas e palavras para
reconhecer a entrada discreta ou contínua da fala. A elaboração
de modelos estatísticos de qualidade requer treinamento extensivo
de amostras (corpora). Para isso grandes quantidades de fala já
foram e continuam sendo coletadas com esse objetivo.
Existem muitos problemas a serem resolvidos para que a fala se tor-ne
um meio comum de lidar com o computador. O primeiro deles é a capa-cidade
de reconhecer o fluxo contínuo da fala, o que difere da fala que
é deliberadamente enviada para o computador pelo falante em forma
de uma série de palavras discretas, separadas por pausas. O seguinte
passo é o reco-nhecimento de qualquer falante, sem necessidade de
que o sistema tenha que reconhecer a fala de um indivíduo determinado.
Existe também o sério problema do ruído, que pode
interferir no reconhecimento: o ruído do ambi-ente, do meio de transmissão,
como a linha telefônica, etc. A redução do ruído,
a intensificação do sinal, a marcação da palavra-chave
podem ser recursos usados para permitir melhor reconhecimento em ambientes
baru-lhentos ou em redes de telecomunicações. Finalmente
existe o problema de lidar com sotaques, dialetos e língua falada,
quando os falantes geralmente não respeitam a gramática.
1.3. RECONHECIMENTO DE CARACTERES E IMAGENS EM DOCUMENTOS
O reconhecimento da língua escrita requer uma representação
sim-bólica da língua, derivada da forma espacial de suas
marcas gráficas. Para a maioria das línguas isso significa
reconhecer e transformar caracteres. Há dois casos de reconhecimento
de caracteres:
1) reconhecimento de imagens impressas, conhecido como Reco-nhecimento
Ótico de Caracteres (OCR)
2) Reconhecimento de letra manuscrita, conhecido como Reco-nhecimento
Inteligente de Caracteres (ICR)
Com o OCR pode-se obter um elevado grau de precisão de uma fa-mília
de fontes impressas. Surgem problemas quando a fonte é desconheci-da
ou muito decorativa ou quando a qualidade da impressão é
ruim. Nestes casos e no da letra manuscrita podem-se obter bons resultados
somente com o uso do ICR. Isto envolve técnicas de reconhecimento
de palavras que usam modelos de língua tais como dicionários
ou glossários com informa-ção estatística
a respeito de seqüências de palavras.
A análise das imagens de um documento está intimamente
associada ao reconhecimento de caracteres, mas envolve em primeiro lugar
a análise do documento para determinar sua composição
em termos de gráficos, foto-grafias, linhas que separam o texto
e, a seguir, a estrutura do texto para identificar cabeçalhos, títulos,
etc., para assim poder processar o texto.
1.4. COMPREENSÃO DA LINGUAGEM NATURAL
A compreensão da linguagem é fundamental para muitas
aplicações, entretanto, a compreensão perfeita nem
sempre é uma exigência. De fato, uma compreensão parcial
é com freqüência uma etapa preliminar utilíssima
no processo porque possibilita a seleção de processos inteligentes
para al-cançar níveis mais profundos.
A análise superficial ou parcial de textos é usada para
obter uma classificação inicial dos textos. Esta análise,
por exemplo, pode ser usada para focalizar partes "interessantes" para
uma análise semântica mais pro-funda.
1.5. GERAÇÃO DE LÍNGUA NATURAL
Uma representação semântica de um texto pode ser
usada como base para gerar linguagem. A interpretação de
dados básicos ou o significado subjacente de uma sentença
ou sintagma pode ser representada numa cadeia da estrutura superficial.
1.6. GERAÇÃO DE FALA
A fala é gerada partindo de assistentes, usando gravações
"em con-serva" ou concatenando unidades da fala (fonemas, palavras, etc.).
A fala gerada tem que levar em conta aspectos como intensidade, duração
e tonici-dade, para produzir uma resposta contínua e natural.
Pode-se estabelecer diálogo combinando reconhecimento da fala
com simples geração, concatenando componentes da fala humana
armaze-nados ou usando regras sintetizadoras da fala.
Com uma biblioteca de reconhecedores e geradores da fala, junto com
uma ferramenta gráfica para estruturar sua aplicação,
é possível, mes-mo para quem não é foneticista
ou programador de computador, planejar um diálogo estruturado que
pode ser usado, por exemplo, em chamadas telefônicas automáticas.
2. RECURSOS LINGÜÍSTICOS
Os recursos lingüísticos são componentes essenciais
da Engenharia Lingüística. Eles estão entre os meios
principais de representar o conheci-mento da linguagem, que é usada
para o trabalho analítico que leva ao reco-nhecimento e à
compreensão.
A tarefa de produzir e manter recursos lingüísticos é
enorme. Os re-cursos são produzidos de acordo com formatos e protocolos
padrões para possibilitar o acesso a muitas línguas da União
Européia, em laboratórios de pesquisas e instituições
públicas. Muitos destes recursos são fornecidos pela Associação
Européia de Recursos Lingüísticos (ELRA)
2.1. DICIONÁRIOS
Um dicionário é um repositório de palavras e informações
sobre es-tas palavras. As informações podem incluir detalhes
da estrutura gramatical de cada palavra (morfologia), da estrutura fônica
(fonologia), de seu signifi-cado em diferentes contextos, etc. Um dicionário
útil pode conter centos de milhares de entradas. Os dicionários
são necessários para qualquer língua.
2.2. DICIONÁRIOS TÉCNICOS
a) Nomes próprios. São importantes para muitos usos,
onde o nome é a chave da aplicação, como num sistema
de navegação operado por voz, informação de
horários em trens, chamadas automáticas de telefone, etc.
b) Terminológicos. São muito importantes na atualidade.
Muitas das aplicações mais dispendiosas da Engenharia Lingüística,
tais como gerenci-amento e tradução eletrônica de documentos
multilíngües dependem da disponibilidade de bancos terminológicos
apropriados.
c) Dicionários específicos. Descrevem a relação
entre palavras, por exemplo, sinônimos, antônimos, coletivos,
etc. São valiosíssimos para recu-perar informação,
possibilitar bancos de dados para o tradutor e facilidades de informação
para os autores.
2.3. GRAMÁTICAS.
A gramática descreve a estrutura de uma língua em diversos
níveis: léxico, significado e sintaxe.
2.4. CORPORA.
Um corpus é uma peça de linguagem, texto ou fala, que
fornece a base para:
a) analisar a linguagem para estabelecer suas características;
b) treinar uma máquina, geralmente para adaptar seu com-portamento
às determinadas circunstâncias;
c) verificar empiricamente uma teoria relativa à linguagem;
d) fazer uma série de testes para uma determinada técnica
de Engenharia Lingüística ou para uma aplicação,
para verificar como funciona na prática.
Há corpora nacionais de centenas de milhões de palavras,
mas tam-bém há corpora que são compilados para fins
particulares. Por exemplo, um corpus pode compreender gravações
de motoristas falando para um simula-dor de sistema de controle que reconhece
comandos de voz, usado para ajudar a estabelecer as solicitações
do usuário para um sistema de controle comercial operado por voz.
3. A CADEIA DE DESENVOLVIMENTO E APLICAÇÃO
O processo de pesquisa e desenvolvimento leva ao desenvolvimento de
técnicas, produção de recursos e estabelecimento de
padrões. Na prática, a Engenharia Lingüística
é aplicada em dois níveis.
No primeiro temos, entre outros empregos:
a) tradução;
b) gerenciamento da informação (multilíngüe);
c) produção de textos (multilíngües):
d) relacionamento homem/máquina (fala e texto multilín-gües).
No segundo nível temos as aplicações destes recursos
nos problemas da vida real, no campo social e no econômico. Por exemplo:
a) o gerenciamento da informação pode ser usado em servi-ços
de informação, analisando as solicitações e
confrontado-as com a base de dados de textos ou imagens para selecionar
a informação desejada;
b) ferramentas para produção de textos são usadas
em pro-cessadores de textos e também para gerar textos como cartas
comerciais em línguas estrangeiras, etc.;
c) a tradução da linguagem humana é usada para
oferecer ajuda ao tradutor humano e à tradução automática,
que só é usada em domí-nios limitados;
d) a maior das aplicações pode ser efetuada com interface
do usuário de língua natural, incluindo a fala, com a finalidade
de melhorar seu uso.
Em geral, a capacidade da linguagem está embutida nos sistemas
para melhorar seu desempenho. A Engenharia Lingüística é
uma "tecnolo-gia das possibilidades".
4. O IMPACTO DA ENGENHARIA LINGÜÍSTICA
A tecnologia da linguagem pode ser aplicada em uma ampla faixa de problemas,
no comércio e na administração pública, para
obter soluções melhores e mais efetivas. Pode ser usada também
na educação, na ajuda a deficientes e na adoção
de novos serviços para as organizações e os consu-midores.
Há diversas áreas em que seu impacto é significativo:
a) competição no mercado global;
b) disponibilidade de informação para o comércio,
adminis-tração pública e consumidores;
c) disponibilidade de serviços diretamente pelo telenegócios;
d) apoio eletrônico ao comércio;
e) possibilidade de comunicação efetiva;
f) garantia de acesso e participação mais fácil;
g) melhoria de oportunidades para educação e auto-desen-volvimento;
h) expansão do divertimento, lazer e criatividade.
5. PROJETOS
Existem diferentes programas de pesquisa e desenvolvimento finan-ciados
pela União Européia. Regem-se pelos programas Marco, o primeiro
dos quais iniciou-se em 1984. O conteúdo e a estrutura do
atual IV Pro-grama Marco (1994-1998) foi influenciado pelo Tratado de Maastrich,
que estabelece a competência da União e dos Estados-Membros
na pesquisa e desenvolvimento. Acabam de começar os preparativos
para o V Programa (1998-2002), que contará com um programa dedicado
à sociedade da in-formação, no que se integrarão
a Engenharia Lingüística e as indústrias da língua.
Os Programas Marco são administrados pelas Direções
Gerais da Comissão Européia e são de diversos tipos.
Os mais relacionados à Enge-nharia Lingüística e Indústrias
da Língua são o Programa de Aplicações Telemáticas
(TAP) e o de Tecnologia da Informação. O TAP desenvolve atualmente
mais de 35 projetos em diversas áreas de pesquisa. Estes proje-tos
são desenvolvidos por consórcios formados por organizações
que utili-zam a tecnologia e a experiência de organizações
acadêmicas e de pesquisa, de organizações governamentais
e de empresas. São administrados por firmas comerciais, cuja gerência
acredita no valor da Engenharia Lingüísti-ca para seus negócios
atuais e futuros. O TAP é administrado pela Direção
Geral XIII, encarregada das telecomunicações, do mercado
da informação e da exploração da pesquisa.
Seus objetivos gerais compreendem o desenvol-vimento de projetos em todas
as áreas em que possam aplicar com sucesso as novas tecnologias
da comunicação: administração, transporte,
pesquisa, ensino, bibliotecas, áreas rurais e urbanas, saúde,
deficientes e idosos, assim como em ações denominadas horizontais,
como a Engenharia Lingüística e a Engenharia da Informação.
O setor dedicado à Engenharia Lingüística é
coordenado por uma unidade específica da Direção Geral
XIII (E-5) e tem sua sede em Luxem-burgo. São contemplados, no IV
Programa Marco, quatro tipos de projetos: aplicações-piloto
da Engenharia Lingüística, criação de recursos
lingüísti-cos, pesquisa básica e ações
de apoio e difusão.
Na DG XIII/E, iniciou-se em 1996 o programa denominado Socie-dade da
Informação Multilíngüe (SIML) .
O Programa de Tecnologias da Informação (ESPRIT) é
administrado pela DG XIII, com competências sobre a indústria.
ESPRIT inclui, entre outras, ações dedicadas à pesquisa
de longo prazo, as tecnologias do softwa-re e os sistemas de multimídia,
junto com atividades de coordenação e apoio, como as Redes
de Excelência, uma das quais, a ELSNET (European Network in Language
and Speech), dedica-se à Engenharia Lingüística. No
campo do programa ESPRIT financiaram-se projetos na área da tecnologia
da fala.
A primeira iniciativa institucional da Espanha relacionada com a En-genharia
Lingüística ocorreu em 1990, com a criação de
Tecnologia Lin-güística na Área de Indústrias
da Língua da Sociedade Estatal Quinto Cen-tenário, continuado
até 1992. Os principais resultados obtidos na área de recursos
lingüísticos, por exemplo, o Arquivo Digital de Manuscritos
e Textos Espanhóis (ADMYTE), ou o Corpus de Referência da
Língua Espa-nhola Contemporânea, a terminologia, (com a constituição
da Rede Ibero-Americana de Terminologia), e os programas educativos são
resumidos no relatório sobre a língua espanhola nas auto-estradas
da informação, publica-do pela FUNDESCO (Fundação
para o Desenvolvimento Social das Tele-comunicações), em
1996.
O Observatório Espanhol das Indústrias da Língua
(OEIL) participa em projetos relacionados com a criação de
padrões em Engenharia Lingüís-tica (EAGLES) e com o
setor (MAP-SPAIN e EUROMAP). Em 1984 foi fundada a Sociedade Espanhola
para o Processamento da Linguagem Natu-ral (SEPLEN), com o objetivo de
promover atividades relacionadas com a pesquisa, o desenvolvimento e o
ensino. Desde então, a SEPLEN realiza um congresso anual e publica
uma revista: Procesamiento del lenguaje natural.
O setor de Engenharia Lingüística da Direção
Geral XIII, da Comis-são Européia, iniciou suas atividades
em 1991, com o programa conhecido como Linguistic Research and Engineering
(LRE), dentro do Terceiro Pro-grama Marco. As atividades do Quarto Programa
Marco (1993-1994) rece-beram a denominação de Multilingual
Action Plan (MLAP). A partir de 1994 houve quatro convocatórias
do programa de Engenharia Lingüística (Language Engineering,
LE), a última das quais teve lugar em 1997.
Dos 111 projetos aprovados, 32 contam com participantes espanhóis,
28,8% deles no setor de Engenharia Lingüística.
A participação pode dar-se em três níveis
diferentes: como sócio principal (contractor), como participante
ou sócio (part-ner), ou como par-ticipante associado a outra instituição
(associated partner).
A participação das empresas é superior a das universidades.
En-quanto o 27,5% procedem do meio universitário, o 45% procedem
do mun-do empresarial.
Pesquisa lingüística na Espanha
Num levantamento aproximado, detectaram-se 120 grupos, centros ou empresas
onde se desenvolvem atividades de pesquisa que podem ser consideradas de
Engenharia Lingüística. Embora os dados sejam aproxima-dos,
pode-se dizer que 47 destes grupos se dedicam primordialmente ao processamento
do texto escrito, 44 à fala e 29 a recursos lingüísticos.
Aqui a Engenharia Lingüística está mais presente no
meio universitário. Dos gru-pos identificados, 93 pertencem a departamentos
universitários ou a centros públicos de pesquisa, embora
se possa alegar que os dados neste meio são mais acessíveis
que os da atividade comercial.
Foram identificados 88 grupos de pesquisa, laboratórios, seminários
ou departamentos em universidades públicas ou particulares, cujas
linhas de trabalho se relacionam com alguma das vertentes da Engenharia
Lingüísti-ca, o processamento da linguagem e da fala ou a constituição
ou exploração de recursos lingüísticos.
No contexto acadêmico, 42 grupos, laboratórios ou departamentos
situam-se no campo da Lingüística ou da Filologia, enquanto
23 relacio-nam-se com diversas áreas da Informática (inteligência
artificial, linguagem e sistemas da informática, engenharia do software),
oito enquadram-se em centros de engenharia de telecomunicações,
quatro em outros campos técni-co-científicos (estatística
e eletrônica) e sete em áreas humanas ou de ciên-cias
sociais (psicologia, ciências da comunicação, lógica
ou filosofia).
Desses grupos, 53 informaram seu número de membros, que somam
um total de 474 pesquisadores universitários, dedicados a alguma
das áreas da Engenharia Lingüística. Estes grupos têm
em média oito pesquisadores, oscilando entre dois e 29. As equipes
de pesquisadores mais numerosas encontram-se nos centros relacionados com
a Engenharia das Telecomuni-cações (14 pesquisadores em média).
No campo da Informática o número médio de pesquisadores
por grupo é de 10 e os grupos que trabalham nos departamentos de
Filologia têm uma média de cinco a seis pesquisadores,
Embora seja difícil definir o campo principal de atividades
de um grupo de pesquisa, os resultados mostram que 34 grupos, laboratórios
ou departamentos dedicam-se fundamentalmente às tecnologias do texto
es-crito, 32 às da fala e 22 aos recursos lingüísticos.
Dos grupos dedicados ao texto, 10 trabalham no tratamento do nível
morfológico (desenvolvimento de lematizadores, etiquetadores, geradores
e outras ferramentas correspon-dentes a este nível de análise).
Outros seis grupos dedicam-se ao léxico, devido à sua importância
no desenvolvimento de sistemas de processamento de linguagem natural. Outros
cinco grupos ocupam-se com o papel dos formalismos gramaticais no processamento
do texto; quatro grupos estudam modelos de linguagem, enquanto outros quatro
grupos se dedicam a técni-cas de aprendizagem automática.
Existem muitos outros grupos que se dedicam a aplicações
das tec-nologias do texto, reconhecimento da fala, conversão de
texto em fala, identificação e verificação
do falante, etc.
5. 1 CENTROS PÚBLICOS DE PESQUISA
Nos centros públicos de pesquisa realizam-se projetos de pesquisa
e desenvolvimento e desenvolvem-se linhas de pesquisa relacionadas com
a Engenharia Lingüística. Dos cinco grupos ou departamentos
identificados, quatro enquadram-se no Consejo Superior de Investigaciones
Científicas (CSIC), enquanto a Real Academia Española (ERA)
se integra no Instituto de España.
A principal atividade refere-se à constituição
e exploração dos recur-sos lingüísticos.
5.2 OUTROS PROGRAMAS EUROPEUS
Além dos programas mencionados, há grupos espanhóis
participando em programas de Engenharia Lingüística financiados
por programas como EUREKA, COST, ACTS, TIDE, LIBRARIES ou HCM. Neles há
uns 123 projetos em que participam 13 grupos espanhóis (8 equipes
universitárias, 3 empresas e 2 organismos oficiais). Quatro projetos
referem-se a tecnologias que tratam do texto escrito, como tradução
automática, processamento e recuperação da informação
ou a interfaces em linguagem natural, enquanto seis se dedicam à
conversão do texto em fala e ao reconhecimento ou identi-ficação
e verificação do falante.
Na hora de avaliar os dados, deve-se levar em conta o número
de projetos em que participou cada grupo ou empresa. 70,9% das equipes
dis-põem de fundos para um projeto, embora se deva destacar que
uma quarta parte dos grupos participou ou participa em um número
de projetos que oscila entre dois e cinco; e 7,8% contaram com fundos para
cinco ou mais projetos especialmente em programas como o de Tecnologias
da Informa-ção e das Comunicações ou nos do
setor de Engenharia Lingüística do Pro-grama de Aplicações
Telemáticas.
6. CONCLUSÃO
Pelo que podemos concluir, a Engenharia Lingüística está
despertan-do a atenção não só dos pesquisadores,
mas também do meio empresarial, que leva em conta o que esta atividade
promete para o futuro, tendo em vista o que já se tem conseguido
e a seriedade com que é tratada como tec-nologia de ponta, que muito
promete para um futuro próximo. Vemos o empenho e o investimento
que domina nos países da União Européia. Na ocasião
da leitura deste trabalho, o leitor já poderá ter informações
de que alguma das propostas que constam como futuras realizações,
já seja realida-de, tal a velocidade com que se avança nesta
área de conhecimentos. Os métodos adotados tradicionalmente
para a pesquisa lingüística de há muito estão
superados. O pesquisador das ciências da linguagem (filologia, lin-güística,
línguas estrangeiras, etc.) tem que fazer uso dos meios que a enge-nharia
e as demais ciências relacionadas com a comunicação
põem diaria-mente a seu dispor. Não se sabe o que o futuro
nos reserva. A pesquisa lingüística é atualmente mais
necessária do que nunca e seguirá sendo no futuro, inclusive
para poder colaborar com outras disciplinas, porém os métodos
de pesquisa terão que ser constantemente atualizados.
7. ALGUNS ENDEREÇOS PARA INFORMAÇÃO
Centro Virtual Cervantes
Instituto Cervantes (España), 1998 www. cvc.cervantes.es
Joaquim Llisterri & Juan M. Garrido Almiñana. La ingeniería
lin-guística en España. Ver em cvc. Contém ampla bibliografia.
Anite Systems
151 rue des Muguets
L-2167 Luxembourg
linglink@anite-systems.lu
Groupe Langage et Cognition
LIMSI-CNRS – B. P. 133,
91403 ORSAY Cedex - France
http://www-csli.stanford. edu/publications/ Contém muita bibliografia
recente.