Software diferencia texto científico de textos sem sentido

quarta-feira 10 de maio de 2006.
 
Novo software, desenvolvido por pesquisadores da Universidade de Indiana, nos Estados Unidos, identifica textos desconexos com 86,7% de garantia. O Inauthentic Paper Detector está disponível na Internet e se propõe a diferenciar textos científicos produzidos por humanos de conjuntos de frases sem sentido gerados em computadores.

Os atuais programas de computador chegaram a uma sofisticação tão grande que há editores de textos com recursos que não se restringem à mera correção ortográfica, mas inclusive produzem textos para o usuário. A variedade é grande: há programas que geram poesia e outros que fazem textos com o formato de artigos científicos. A diferença é que esses textos não fazem sentido algum. Para ajudar a distinção desse tipo de produção textual, quatro pesquisadores da Universidade de Indiana nos Estados Unidos apresentaram um novo software que identifica textos desconexos, o Inauthentic Paper Detector. O programa está disponível na internet e se propõe a diferenciar textos científicos produzidos por humanos de conjuntos de frases sem sentido, gerados por computadores. Os pesquisadores garantem que o programa diferencia automaticamente textos científicos de conjuntos de frases sem sentido com 86,7 % de garantia.

O trabalho foi apresentado no final de abril em uma Conferência da Sociedade de Matemática Industrial Aplicada (SIAM) no estado americano de Maryland. A motivação para o desenvolvimento do software foi uma situação vivida por outros estudantes. Em abril do ano passado, três alunos do Instituto de Tecnologia de Massachusetts (MIT) se inscreveram para participar de uma conferência usando um trabalho produzido por um programa de computador, e para sua própria surpresa, o texto foi aceito. Os estudantes fizeram alarde pela Internet, inclusive com uma campanha para recolher fundos para financiar a viagem ao congresso. Os três só não participaram porque a organização soube a tempo de cancelar seu convite.

Wyatt Clark, James Costello, Mehmet Dalkilic e Predrag Radivojac, da Universidade de Indiana, dizem que o novo software faz a diferenciação das duas formas de redação, mesmo que o programa não entenda o conteúdo do texto. Para chegar ao programa, os pesquisadores coletaram 1.390 artigos autênticos, de diversas revistas científicas, escritos em inglês. “Nosso objetivo era ter uma amostragem ampla de documentos autênticos de acordo com o assunto, estilo de exposição e tamanho”, explicam. Também coletaram 1.000 textos não autênticos escritos em inglês, obtidos do site SCIgen - An Automatic CS Paper Generator.

“Observando coleções de textos não autênticos, nós percebemos que parece existir um fluxo de informação ou coerência semântica nos textos autênticos, ausente nos textos não autênticos”, explicam.

Os programadores de Indiana explicam que um texto autêntico é uma seqüência de centenas ou milhares de frases sintaticamente corretas que, juntas, também fazem sentido. Para eles, um texto não autêntico é um texto gerado por um computador que, apesar de ter frases sintaticamente corretas, juntas elas não fazem sentido algum para o leitor. E eles lembram que, mesmo isoladamente, o fato de a frase estar correta sintaticamente não quer dizer que ela faça sentido.

“No momento, a maioria dos textos disponíveis no ciberespaço é produzida por humanos”, afirmam os pesquisadores. “Entretanto, esse cenário pode mudar nos próximos anos”, avaliam.

Qualquer um pode ter um texto desenvolvido por computador. Um dos programas mais conhecidos está disponível no endereço eletrônico http://www.elsewhere.org/pomo, onde o usuário tem, em poucos segundos, um texto à disposição, gramaticalmente correto, mas que não faz sentido algum. A cada entrada, o internauta dispõe de um texto diferente. “Esses sites geradores de textos científicos são como uma brincadeira, não podem ser levados a sério”, afirma o físico Marcelo Knobel, da Unicamp. Segundo ele, os textos gerados não poderiam passar por textos científicos originais, se analisados por um pesquisador da área.

E talvez nem o novo identificador de textos desconexos possa ser levado a sério. Dos seis textos colocados à prova pela redação da ComCiência, três gerados por computador e três originais, dois foram classificados erroneamente. Um texto gerado pelo site “Communications from Elsewhere” foi classificado como original, e um texto original foi classificado como desconexo. “Naturalmente, podem também existir categorias de textos explicativos, com nenhum sentido, que mesmo assim são parecidos com textos autênticos”, argumentaram os pesquisadores de Indiana numa reportagem à revista alemã Spiegel. “Não é claro para nós como isso pode ser alcançado”, reconhecem.

Enquanto a brincadeira dos alunos do MIT de gerar textos científicos sem valor é vista como sátira, estudantes de informática e pesquisadores de inteligência artificial se vêem frente a um problema: Como se pode, com a ajuda de um computador, diferenciar de fato textos com sentido de textos sem sentido? Isso é possível?

Um grupo da Universidade Federal de São Carlos (Ufscar) trouxe ao Brasil um projeto do MIT que pretende fazer com que os computadores se tornem capazes de entender fatos relacionados ao conhecimento geral que constituem o nosso senso comum. O projeto “Open Mind Common Sense” (OMCS) está criando uma base de informações sobre senso comum a partir da colaboração de internautas. No site do projeto qualquer um pode se cadastrar e colaborar. Hoje a base de conhecimento do OMCS no Brasil possui mais de 102 mil fatos conseguidos a partir dos 1.114 colaboradores registrados no site do projeto.

Segundo Fabiano Pinatti, pesquisador do OMCS, a falta de "senso comum" prejudica os textos gerados por computadores porque pode levar a geração de textos que não sejam entendidos pelo público alvo. Segundo ele, o mesmo cenário acontece quando duas pessoas de hábitos diferentes se comunicam. “Imagine alguém de São Paulo escrevendo para um amigo de Várzea da Roça. Na carta ou e-mail ele coloca ‘cara, comprei um ap da hora’. Será que o amigo dele, nascido e criado em Várzea da Roça, vai saber o que ele comprou?”, questiona o pesquisador.

De acordo com Pinatti, o conhecimento de senso comum pode ajudar em traduções, porque considera semântica e contexto, e ajuda na composição do texto pelo remetente e na interpretação e compreensão do texto pelo destinatário da mensagem. Ou seja, o conhecimento dos fatos cotidianos pode tornar os computadores mais inteligentes e quem sabe, no futuro, mais capazes de diferenciar com certeza um texto sem sentido de um trabalho científico sério.

Responder a esta matéria