![]() | |
|
|
As ferramentas de pós-processamento de textos em língua portuguesa são recentes, ao contrário das ferramentas para o inglês, que são largamente utilizadas há bastante tempo (p.e. CorrectGrammar, Grammatik, e as embutidas em processadores de textos, como o MS Word). O revisor de textos aqui apresentado está entre as primeiras ferramentas de revisão gramatical do português brasileiro que surgiram no mercado nacional. Trata-se de um sistema que, embutido em um processador de textos no caso, o MS Word ou o Redator (Itautec), promove a revisão ortográfica e gramatical de qualquer texto escrito em português. Enquanto a revisão ortográfica objetiva detectar palavras faltantes do léxico em questão e sugerir alternativas válidas a ela, a revisão gramatical procura detectar desvios gramaticais cometidos pelo usuário, tais como de concordância nominal ou verbal, pontuação, regência nominal ou verbal, uso de pronomes, além de problemas mais simples, porém bastante freqüentes. A parceria com universidades e institutos de pesquisa também é utilizado como forma de terceirizar um trabalho quando ele não é o foco principal da empresa. É o caso da Itautec, conhecida empresa brasileira de computadores e software que tem no mercado corporativo (empresas) seu principal cliente, que necessitou desenvolver, em 1993, um revisor ortográfico para um processador de texto utilizado nos computadores fabricados por ela. "O primeiro passo foi identificar um centro de excelência", conta Elizabeth Costa, gerente de Desenvolvimento de Aplicativos Comerciais da Itautec. A escolha recaiu no Núcleo Interinstitucional de Lingüística Computacional (NILC), formado por pesquisadores dos Institutos de Ciências Matemáticas e de Computação e de Física da USP de São Carlos e da Faculdade de Letras da Universidade Estadual Paulista (Unesp), de Araraquara. "Fomos buscar o know-how onde ele se encontrava", afirma Elizabeth. Era um grupo de alunos e professores do Instituto de Ciências Matemáticas (ICM) da USP, em São Carlos, envolvendo linguistas e profissionais de computação, que pesquisava um software de processamento da língua portuguesa quando a Itautec lhe bateu à porta, em 1993. A Itautec-Philco utilizou, para esse projeto, recursos provenientes da lei 8248 de incentivos fiscais. A empresa que possuía um revisor ortográfico de textos, estava interessada no projeto, pois queria aprimorá-lo incluindo um revisor gramatical, capaz de detectar e corrigir erros de concordância e de regência verbal e nominal entre outros. "Foi até um primeiro contato ingênuo da nossa parte", diz Maria das Graças Volpe Nunes, a pesquisadora-responsável. "Não nos comprometemos, falamos que íamos ver." Mas no ano seguinte o produto estava pronto: o Revisor Gramatical Automático para o Português. "É muito difícil manter um grupo destes", diz Maria das Graças Volpe Nunes, a pesquisadora-responsável. "É um grupo interdisciplinar, que usa pessoas da área da informática e da lingüística ... Inúmeras teses e artigos saíram daqui, além do intercâmbio com outros países. Encontramos novos recursos computacionais. Estamos desenvolvendo aplicativos do revisor, como um sintetizador de fala. E assim vamos nos gabaritando para outros projetos no futuro." O grupo está envolvido desde 1997 no grandioso Universal Network Language, projeto coordenado pela ONU de construção de um tradutor multilingual, ora em avanço. "Sempre buscamos fazer um produto simples de usar e com recursos avançados de revisão de textos em protuguês. O fato do Redator ter esse diferencial é que o permitiu sobreviver num mercado dominado por processadores mundialmente consagrados, particularmente o Microsoft Word", diz Elizabeth Costa. Desde a sua concepção, o produto ganhou vulto. A princípio, o revisor deveria apenas se preocupar com os erros mais comuns das secretárias, devido ao perfil corporativo dos clientes Itautec-Philco, mas o produto acabou mais tarde incorporado ao Word da Microsoft. O projeto foi aprovado no PITE, em 1996, e contou também com a colaboração dos professores Claudio Lucchesi, Tomas Kowaltowski e Jorge Stolfi, do Instituto de Computação da Unicamp. "Em São Carlos, sob a coordenação da professora Maria das Graças Volpe Nunes, foram desenhados os algoritmos e formado o banco de base de palavras e, em Campinas, desenvolveu-se a compactação do sistema e a diminuição do tempo de resposta do programa", explica Elizabeth, ex-aluna dos professores da Unicamp. Em 1997, a empresa começou a vender, no varejo, a primeira versão do revisor gráfico e gramatical, em caixas próprias, como um produto de prateleira. No final desse mesmo ano, a grande surpresa, a Microsoft procurou a empresa para incorporar o revisor no programa Office, o mais vendido no Brasil e em todo o mundo. O antigo revisor criado em Portugal para a língua portuguesa comportava 200 mil palavras, o da Itautec já dispunha de 1,5 milhão de palavras. O revisor foi incorporado ao Office 2000. A empresa brasileira licenciou o produto por um período de três anos pelo valor de US$ 421 mil. Pelo trabalho, o prof. Lucchesi recebeu o prêmio Santista de Informática em 1999. Com as funções de revisão licenciadas, o usuário de qualquer um dos aplicativos que compõem o Microsoft Office poderá ter seus erros gramaticais e ortográficos corrigidos automaticamente, desde erros de concordância verbal, uso de crase, regência, colocação pronominal até a grafia correta das palavras em português. Além de todos estes recursos, o Microsoft Office contará também com um dicionário de sinônimos e antônimos (thesaurus), como recurso extra de consulta. As demais funções do Revisor Word não licenciadas pela Microsoft continuarão a ser comercializadas pela Itautec sob o nome de Revisor Plus. Constarão do Revisor Plus os recursos de conjugação de verbos, consulta à gramática da língua portuguesa, acentuação automática de documentos, consulta a verbetes semelhantes, dicas sobre erros mais freqüentes, consulta a brocardos jurídicos e dicionários português/português, português/inglês e inglês/português. Também farão parte do produto dicionários temáticos nas áreas de Medicina, Direito, Administração e Informática. O Revisor Plus estará disponível para comercialização simultaneamente com o lançamento da próxima versão do Microsoft Office em português. Apesar de as pesquisas em processamento de linguagem natural (PLN) de português terem se iniciado muito antes da década de 1990, praticamente nada havia sido feito que visasse à criação de uma ferramenta robusta e de uso genérico, que requer recursos lingüísticos e computacionais de grande monta. As indefinições e incertezas características de uma inovação tecnológica visando ao desenvolvimento de um sistema complexo como um revisor gramatical fizeram com que os docentes da USP, então convidados para participar da parceria, assumissem o compromisso inicial apenas de um estudo exploratório, sem a responsabilidade de ter que gerar algo que obrigatoriamente levasse a um produto comercial. Desde o princípio os desafios eram enormes face a inexistência de aplicativos nessa linha. Em outras línguas como o inglês, não eram muitas as experiências bem-sucedidas em revisão gramatical "O processamento de linguagem natural ainda é coisa nova", diz Maria das Graças Volpe Nunes, uma das coordenadoras do projeto. O outro coordenador é o professor Osvaldo Novais de Oliveira Júnior. Por linguagem natural entende-se a linguagem utilizada pelos humanos, em oposição as linguagens computacionais, ditas artificiais. O PLN trata do processamento envolvendo análise, interpretação e produção de uma linguagem humana por uma máquina, sendo uma área da inteligência artificial voltada para os estudos e desenvolvimento de sistemas que permitam interpretar e gerar linguagem naturaç "Além das limitações do PLN, tínhamos o limite da falta de experiência em produção de produtos comerciais". O projeto multidisplicinar exigiu a conciliação de profissionais com formações muito distintas, possuindo metodologias e vocabulários bastante diferentes entre si "Ainda temos alguma dificuldade em incluir esse tipo de trabalho em eventos científicos estritamente linguísticos", diz Maria das Graças Nunes. No projeto, a Itautec gastou R$ 78 mil, enquanto a FAPESP investiu R$ 17,9 mil e US$ 9,2 mil, utilizados na compra de máquinas e equipamentos para a USP. "Quando começamos esse trabalho não tínhamos idéia da dimensão que tomaria todo o projeto, principalmente com o contrato com a Microsoft", lembra Elizabeth. Tanto dentro do Office como na prateleira, não coube qualquer valor para a USP, porque o contrato garante o direito de comercialização para a Itautec, ficando a universidade com o direito intelectual para uso em outros projetos que não impliquem produto semelhante. A parceria IPT e Itautec-Philco gerou alguns produtos comercializados pela empresa. O mais conhecido é o Redator Windows, editor de textos instalado nos micros fabricados pela Itautec. A empresa continua vendendo seu produto individual, o Redator, com uma série de outros atrativos, como um módulo sobre literatura brasileira. Chamamos de ReGra o sistema de correção gramatical, não incluindo as rotinas para detecção de erros ortográficos, embora a base lexical que suporta o corretor ortográfico tenha sido compilada para o projeto de correção gramatical. O ReGra é constituído por três módulos principais: i) o módulo estatístico, ii) o mecânico e iii) o módulo gramatical. As rotinas para compactação e acesso aos dados do léxico foram desenvolvidas pela equipe do Prof. Tomasz Kowaltowski, do Instituto de Informática da Unicamp. O módulo de tratamento estatístico realiza uma série de cálculos, fornecendo parâmetros físicos de um texto sob análise, como o número total de parágrafos, sentenças, de palavras, de caracteres, etc. O componente mais importante desse módulo, entretanto, é o que fornece o "índice de legibilidade", uma indicação do grau de dificuldade da leitura do texto. O conceito de índice de legibilidade surgiu a partir do trabalho de Flesch de 1948 para a língua inglesa e busca uma correlação entre tamanhos médios de palavras e sentenças e a facilidade de leitura. Não inclui aspectos de compreensão do texto, que requereriam tratamento de mecanismos complexos de natureza lingüística, cognitiva e pragmática. O índice Flesch, assim como outros similares, tem sido empregado para uma grande variedade de línguas, mas o trabalho do NILC foi o primeiro para a língua portuguesa. Através de um estudo comparativo de textos originais em inglês e traduzidos para o português, verificou-se que a equação que fornece o índice Flesch precisaria ter seus parâmetros adaptados para o português, pois as palavras desta língua são em média mais longas, em termos do número de sílabas, do que em inglês. O segundo módulo do ReGra, o mecânico, detecta erros facilmente identificáveis que não são percebidos por um corretor ortográfico. Exemplos desse tipo de erro são: i) palavras e símbolos de pontuação repetidos; ii) presença de símbolos de pontuação isolados; iii) uso não balanceado de símbolos delimitadores, como parêntesis e aspas; iv) capitalização inadequada, como o início da sentença com letra minúscula; v) ausência de pontuação no final da sentença. O primeiro passo para a elaboração do módulo gramatical foi o levantamento de erros (ou inadequações) mais comuns entre usuários de nível médio, como secretárias e profissionais de escritório em geral, e alunos cursando o ensino médio ou ingressando a universidade. O termo "erro", aqui, refere-se ao que os gramáticos normativos consideram como forma desviante da norma culta. Nas primeiras versões do ReGra, os erros eram detectados através de regras heurísticas implementadas na forma de redes de transição estendidas (augmented transition networks), numa abordagem que se poderia chamar de "error-driven".As primeiras versões do ReGra apresentavam vários benefícios do ponto de vista da implementação computacional: agilidade, especificidade, rapidez, portabilidade, e disponibilidade de memória. Entretanto, seu escopo de atuação era muito limitado: problemas envolvendo itens lexicais não contíguos e estruturas recursivas não podem ser atingidos pelas estratégias heurísticas normalmente desenhadas por abordagens error-driven. Para prover a essas insuficiências, optou-se por analisar sintaticamente as sentenças do usuário, antes de operar arevisão propriamente dita. Isso permite aplicar regras que apontam desvios nas relações entre núcleos e adjuntos, entre núcleos e modificadores, entre regentes e regidos. A realização de análise sintática automática obviamente requer que todos os itens lexicais estejam categorizados apropriadamente. Para tanto, realizou-se em paralelo a construção do léxico, que envolveu a compilação exaustiva das palavras da língua portuguesa e a hierarquização das categorias dos itens lexicais morfologicamente ambíguos. Uma vez que alguns erros em contextos lingüísticos específicos ocorrem independentemente de desvios sintáticos, na versão atual do ReGra convivem as duas abordagens mencionadas acima. Ou seja, além de realizar análise sintática automática, muitas das regras heurísticas da primeira versão foram mantidas, como as de correção de erros de crase. O médulo de correção de erros gramaticais, contendo mais de dez mil regras de correção, realiza inclusive a análise sintática automática das sentenças. As regras foram testadas em textos reais não corrigidos, como cartas comerciais, redações de vestibulares e teses, e em textos editados, como os de livros e revistas. O banco de textos empregado nestes testes contém mais de 37 milhões de palavras. para detectar os erros mais comuns de pessoas com escolaridade de segundo grau, a equipe utilizou todas as redações do vestibular da Fuvest. A última versão conta ainda com uma minigramática eletrônica, disponível ao usuário através de hipertexto, que explica as principais regras gramaticais da língua portuguesa. Possui também um dicionário de sinônimos e antônimos. Além dos módulos, o Revisor conta também com um corretor ortográfico, parcialmente desenvolvido em outra universidade, no Instituto de Computação da Unicamp. O léxico, isto é, a base de palavras foi compilada pelo NILC e contém mais de 1,5 milhão de palavras, incluindo siglas e nomes próprios. Os testes do produto foram feitos por uma equipe da Universidade de Ribeirão Preto. Ems eu estágio atual, o revisor está embutido em um produto chamado Redação da Língua Portuguesa (RLP) composto do Redator e do Revisor Word. Ele altera as funções de revisão já presentes no MS Word e dá a ele a capacidade de realizar não só a revisão ortográfica, mas também a gramatical e a mecânica. As pesquisas dos professores da Unicamp, remontam a década de 80. O prof. Lucchesi comenta: " Na segunda metade da década de 80, o Prof. Tomasz e eu fomos contactados por uma softwarehouse de São Paulo, a TTI Tecnologia, através de seus diretores, Nilo Sérgio Mismetti e Fernando Mismetti. Eles estavam desenvolvendo um formatador de texto em português e queriam um revisor ortográfico. Naqueles tempos, os PCs tinham 640KB de RAM, disquetes de 360KB, 640KB, nem lembro mais. Discos rígidos eram ridiculamente pequenos. Então o problema deles era fazer um verificador ortográfico que fosse bem compacto. Por isso, desenvolvemos, eu e o Prof. Tomasz, um protótipo para eles, em Pascal. Esse protótipo consistia de duas partes: 1 - compactador do vocabulário (cerca de 200.000 palavras, incluindo flexões verbais, etc.), arquivo texto de mais de 1MB, ficava compactado em cerca de 100KB. 2 - navegador na estrutura compactada, extremamente eficiente, mesmo para a época. A navegação era feita na estrutura compactada, carregada em memória, sem descompactação. A TTI continuou a usar o compactador em Pascal, mas refez, em C, o navegador para a integração no aplicativo deles. O compactador era usado somente para a produção de um arquivo de cerca de 100K, que era então distribuído juntamente com o software da TTI e utilizado pelos aplicativos em C. Mais tarde, a Folha de São Paulo comprou uma variante dessa ferramenta e a incorporou no seu manual de redação, que era vendido nas bancas de jornais e livrarias. No início dos anos 90, o Prof. Tomasz coordenou um projeto de pesquisa junto ao CNPq, para continuarmos pesquisa nesta área, entre outras. Por conta desta pesquisa, conseguimos atrair de volta ao Brasil um pesquisador brasileiro, Jorge Stolfi, que então trabalhava no laboratório da Digital em Palo Alto, na Califórnia. O Prof. Stolfi deu uma significativa contribuição ao projeto, refazendo o compactador em linguagem mais moderna, orientada a objetos. Além disso, o time, agora em três, desenvolveu vários outros resultados a técnicas afins. Um verificador ortográfico gratuito (cujo vocabulário era o original, cortesia da TTI) ficou então à disposição dos usuários, via e-mail, e até hoje está disponível. Além disso, existe até hoje uma interface WWW para verificação ortográfica: http://www.ic.unicamp.br/ortho/" O trabalho foi publicado em "Tomasz Kowaltowski e Cláudio Leonardo Lucchesi, Applications of Finite Automata Representing Large Vocabularies, Software: Practice and Experience, 25, 15-30, 1993" Em 1994 viria o contato com a Itautec, o prof. Lucchesi continua: " Em 1994, a Itautec-Philco nos contactou, para colaborarmos num projeto visando o desenvolvimento de um revisor e conselheiro ortográfico e gramatical para o Office 2000 Professional, versão português. Novamente, desenvolvemos compactadores e navegadores para os dados ortográficos e gramaticais, utilizando basicamente as mesmas idéias que haviam sido utilizadas na época da TTI. Os dados foram fornecidos pelo grupo da Profa. Graça, USP São Carlos, e extenuamente depurados pelo Prof. Stolfi, através de ferramentas desenvolvidas durante o nosso projeto de pesquisa junto ao CNPq." Fonte: Cronologia do Desenvolvimento Científico e Tecnológico Brasileiro, 1950-200, MDIC, Brasília, 2002, páginas 227 http://www.fapesp.br/tecnolog582.htm http://www.santista.com.br/fundacao/venc/pagina.htm acesso em março de 2002 http://www.unicamp.br/unicamp/unicamp_hoje/pautas/ju145-7.html http://www.microsoft.com/brasil/pr/revisor.htm http://www.cesar.org.br/analise/n_13/frameanalisen_13.html http://www.technosoftware.com.br/hom-iex/h-redaca.htm http://www.ic.unicamp.br/ic-album/santista-99-p.html acesso em agosto de 2002 http://www.unb.br/acs/acsweb/clipping/sucesso.htm acesso em março de 2003 Tecnologia & Inovação para a indústria, Sebrae, 1999, página 190 Agradeço a colaboração do prof. Claudio Leonardo Lucchesi (lucchesi arroba ic ponto unicamp ponto br) por fornecer informações em maio de 2004 para composição desta página envie seus comentários para otimistarj@gmail.com. |
|||