27 de novembro de 2013

Ideais de campo, ideias da cidade

Labor omnia vicit / Improbus, et duris urguens in rebus egestas: “tudo venceu o trabalho ímprobo e a necessidade premente em duras condições”. Não é certamente a melhor tradução, mas dá uma ideia dos versos célebres de Virgílio* – que falam do trabalho agrícola em tempos anteriores ao do seu autor, mas que podiam falar da maior parte do trabalho agrícola de todos os tempos.

Nas Bucólicas e nas Geórgicas, Virgílio faz o louvor do trabalho e dos pequenos proprietários e pretende secundar a política de retorno à terra do imperador Augusto. Eça de Queirós, 19 séculos mais tarde, cita algumas vezes Virgílio no conto “Civilização” e na sua versão desenvolvida, o romance A Cidade e as Serras, que fazem, também eles, a apologia do retorno à terra. Se se manteve atual durante dezanove séculos, não era nos 100 anos seguintes que havia de perder atualidade: a ideia de retorno à terra continua, sob várias formas, a ser muito atual. E nós também decidimos que não queríamos viver mais na cidade e viemos viver para o campo. Agora, agricultura não fazemos. Temos um hortazita no quintal – e chega bem.

Retorno à terra, trabalho ímprobo… Duas ou três horas a cavar a terra são suficientes, creio eu, para fazer qualquer pessoa repensar a idealização da vida rural. Ímprobo labor, de facto, nisso Virgílio tinha toda a razão. Estava ali a virar a terra na horta e a tentar imaginar o que será fazer esse trabalho – e outros tão ingratos como ele, por exemplo, mondar – várias horas por dia, durante muitos dias dos anos todos de uma vida. Mas não tenho imaginação que chegue para tal. Está bem que agora no mundo rico já não há trabalho agrícola feito à mão. Mas há noutros lugares do mundo, em muitos lugares do mundo. Em Moçambique, as mulheres começam a trabalhar às 4 da manhã, para poderem parar quando o sol já não se aguenta mesmo, por essas 10 ou 11 da manhã. E era assim a vida de muitos camponeses, também aqui, no tempo de Virgílio e no tempo de Eça de Queirós…

Não deve haver muitos camponeses a quem passe pela ideia considerar invejável a vida que têm e muito menos propô-la como modelo… Das Geórgicas e das Bucólicas a A Cidade e as Serras e aos modernos ideais de retorno à terra, o ideal bucólico sempre foi um ideal de gente da cidade, creio eu. Como os outros ideais todos – foi sempre a gente da cidade a imaginar ideais, não foi? Trabalho menos ímprobo, talvez, mas, bem vistas as coisas, não menos importante, porque é outra forma de cuidar da terra… perdão, da Terra.
 _______________
* Célebres sobretudo sob uma forma adulterada, labor omnia vincit, “o trabalho vence tudo”, uma frase que Virgílio não escreveu.

25 de novembro de 2013

O que rima é o que não está lá…

Um dos recursos utilizados por filólogos e linguistas para reconstruir a pronúncia de fases anteriores de uma língua é a análise de rimas estranhas, que não funcionam na pronúncia atual, mas já funcionaram: blood aparece a rimar com good em inglês antigo, por exemplo…

A maior parte dos dialetos do século XX estão tão pormenorizadamente descritos e documentados com gravações que os linguistas do futuro não precisarão de se dedicar a esse tipo de exercícios. Mas não deixa de ser interessante verificar que a imposição da pronúncia padrão destrói, às vezes, rimas que se adivinham facilmente – mas não estão lá…

Em “Petisca daqui petisca”, do Conjunto António Mafra, o cantor não ousa (ou não o deixam…) cantar com a pronúncia regional a palavra comilão, desfazendo assim uma rima que se adivinha com facilidade:
Petisca daqui, petisca, / Petisca daqui, que é bom
Quem oferece o que petisca / mostra não ser comilão
Em “1921”, uma canção da ópera Tommy dos The Who, proof rima com truth:
You didn't hear it / You didn't see it / You won't say nothing to no one / Never in your life / You never heard it / How absurd it all seems / Without any proof
You didn't hear it / You didn't see it / You never heard it, not a word of it! / You won't say nothing to no one / Never tell a soul / What you know is the truth
E eu, quando ouvi isto ontem (já não ouvia há muito tempo…), lembrei-me logo de um antigo colega, que era de Londres, como os The Who, e que não só pronuciava /f/ o th como também achava anormal que se pronunciasse de outra forma:
You wouldn’ believe i', Victor, you ‘ave these people in England, you know, they say /θink/ instead of /fink/…

O arroz escandinavo [Crónicas de Svendborg #17]

Num pacote de arroz, encontro, como numa grande parte dos produtos que se vendem na Dinamarca, a descrição e as instruções de uso em quatro das línguas oficiais da Escandinávia: dinamarquês, sueco, norueguês bokmål e finlandês. Agora, traduzir de uma língua escandinava para a outra não é um trabalho linguístico em sentido estrito, é um trabalho bem mais complexo de localização linguística. Senão, vejam:

Em dinamarquês, diz-se que o arroz deve cozer 12 minutos e repousar tapado outros 12, antes de ser servido; em sueco e finlandês, o arroz deve cozer 20 minutos e repousar 5; e em norueguês, deve cozer 15 minutos e repousar 5-6…

Enxadas e pás [Crónicas de Svendborg #16]

É impossível encontrar uma enxada na Dinamarca. Não há mesmo em lado nenhum! Por acaso, tenho uma no quintal, que me emprestou um amigo meu, mas comprou-a… em Portugal.

Se cavam a terra à mão, os dinamarqueses usam estes dois instrumentos: a pá de cavar (spade) e o cultivador (kultivator).

Quer dizer, fui buscar um cognato para traduzir kultivator, mas não sei se é assim que se chama em português este pequeno arado manual, não lhe encontro o nome em lado nenhum. E é curioso, a página da Wikipédia em dinamarquês que refere o instrumento, corresponde sempre, em páginas noutras línguas, a motocultivadores. Notem que também não há página da Wikipédia em português que corresponda à de spade em dinamarquês e noutras línguas. Aliás, o português usa a mesma palavra para designar dois conjuntos de ferramentas com funções muitos distintas: esta, que serve para revolver a terra, e outra, que é um contentor e serve para tirar terra, areia, gravilha, lixo, etc. de um lugar para outro.

Uma questão interessante é: porque é que não há enxadas na Dinamarca? É claro, podia perguntar antes porque é que há enxadas em Portugal ou porque se usa tanto a enxada para cavar em Portugal, mas a verdade é que, se já tenho pouca resposta para a primeira pergunta, menos ainda tenho para a segunda, de maneira que, para já, me fico pela primeira.

Quando experimentei usar a enxada para cavar o quintal, e tive de a abandonar logo de seguida e voltar à pá, surgiu-me uma possibilidade de explicação: se calhar, a maioria dos solos é muito argilosa, como este aqui, e, quando assim é, a julgar pelo meu quintal, é muito mais fácil trabalhar com a pá de cavar. Mas eu não percebo nada de solos nem de ferramentas, de maneira que perguntei ao meu amigo Stefaan Dondeyne que é especialista de ciência dos solos, precisamente. E disse-me ele:
Isso dos solos e das enxadas é interessante... Não sei muito sobre os solos da Dinamarca, nem sobre os solos em Portugal, de facto; mas, pelo que vi na Noruega, muitos solos são depósitos relativamente recente de argilas marítimas – na verdade, quase todas as áreas a menos de 100 metros acima do nível do mar. Desde o fim da idade do gelo e do derretimento da calota glaciar, a Noruega – e com certeza também a Dinamarca – tem sofrido um levantamento isostático e muita terra que era submarina está agora ao ar livre. Esse tipo de argilas é de facto difícil de trabalhar. Em Portugal, os solos resultam de decomposição de materiais rochosos mais antigos (e, nos vales, também de depósitos aluviais e coluviais, claro), mas, assim, mesmo quando são argilosos, serão de outro tipo e mais fáceis de trabalhar. Que as enxadas não existam na Dinamarca, sim, pode ser por causa da natureza dos solos.
Pois, pode ser. Ou não, claro. Pode haver milhares de outras razões. A minha mulher, que também é agrónoma, embora não especialista em solos, sugeriu que a quantidade de pedras também pode ter influência na escolha da ferramenta. Talvez – ou talvez não…. Mas, bem veem, para mim, faz sempre sentido procurar no meio físico alguma eventual explicação para os fenómenos culturais.

Chama-se às vezes (neo)deterministas geográficos a pessoas com uma atitude semelhante à minha, mas a expressão desagrada-me, porque se presta a uma interpretação errada: não acredito que o meio físico determine a cultura, apenas que a influencie. Aliás, nem é preciso que tenha influência em toda a cultura em todas as épocas para ter uma grande influência, basta que influencie um pormenor cultural numa determinada época para isso, mais tarde, se traduzir numa grande leque de características culturais – e todo esse desenvolvimento, a cultura já pode fazê-lo sozinha, sem que ele derive diretamente do meio. Neste caso, parece-me plausível que as características do solo levem ao desenvolvimento de ferramentas com formas ligeiramente diferentes. Mas não digo que têm de ser só as características do solo a modelar os instrumentos para o cavar. Nem nego que, em certos casos, a influência do meio possa ser completamente apagada por fatores de outra ordem – culturais, em sentido lato.

22 de novembro de 2013

Verbos demasiado abundantes: os particípios passados duplos e as suas regras

As formas irregulares da língua são uma complicação… E ainda por cima desnecessária: não parecem ter nenhuma função especial, a não ser distinguir (pelo menos algumas delas) quem as usa bem de quem as usa mal… Uma complicação que ainda se torna maior quando coexistem, num mesmo verbo, uma forma regular e outra forma irregular – e quando é o uso da forma irregular que é considerado incorreto em várias situações… É o caso dos particípios passados em português e é disso que falo neste texto. Mas notem que falo apenas do português europeu, que é o que eu conheço melhor.

O que as gramáticas prescrevem é que, quando há dois particípio passados, se use o particípio regular nos tempos compostos e a forma irregular na voz passiva e como adjetivo[1]:
ela tinha [ou havia] prendido o cão à noite e tinha-o soltado de manhã 
e
o cão foi preso à noite e solto de manhã 
ou
o cão não está preso, está solto desde manhã. 
Gostaria, porém, de distinguir estes dois últimos casos: só quando é usada na passiva é que se pode dizer que uma forma é um particípio passado de um verbo[2] e as listas de particípios passados irregulares só deviam incluir as formas que se podem usar verbalmente. Podem eliminar-se imediatamente das listas de irregulares os verbos que nunca podem ocorrer como transitivos: se não há forma passiva, não há evidência de uso verbal do pretenso particípio irregular. Estão neste caso, por exemplo, nascer[3], morrer[4], vagar[5] e incorrer[6].

Além disso, como diz Telmo Móia[7], “certas formas – classificadas como particípios irregulares e apresentadas nas referidas listas de verbos de particípio duplo –, embora estejam historicamente associadas a particípios verbais, são hoje totalmente independentes enquanto adjectivos. A sua associação a verbos [nessas listas] não traz grandes vantagens ao utilizador da língua com dúvidas e pode mesmo induzir no erro de se considerar que estamos perante a mesma unidade lexical verbal (quando, em muitos casos, a diferença semântica é já muito acentuada).” Móia dá o exemplo das formas bento, absolto, afecto, demisso e diluto como produzindo “resultados indesejados”:
*O novo edifício foi bento pelo padre.
*O réu foi absolto.
*As crianças ficaram afectas ao animal.
*O senhor está demisso!
*O pó já vem diluto na água.
*As calças foram tintas de azul. 
Muitas outros pretensos particípios irregulares produzem resultados indesejados. Por exemplo, nenhuma das frases que se seguem pode, na minha opinião, considerar-se aceitável:
* No ano passado, foi distinto com este prémio um escritor nigeriano.
* A manifestação foi dissoluta pelas forças de intervenção.
* Fui convicto pelo João da importância de beber mais água.
* Passado pouco tempo, toda a gordura tinha sido absorta pelo papel.
* O trabalho foi correto pelo professor nessa mesma noite e entregue no dia seguinte
* A batata era já culta em toda a França em meados do séc. XVIII.
* A piada não lhe era direta a ele, mas ele pensou que sim e reagiu mal.
* Nos últimos anos de vida, foi aflito por várias doenças.
Nalguns casos, se não recusamos liminarmente a possibilidade de uso verbal do particípio irregular, ficamos, pelo menos, com muitas dúvidas sobre se alguém de facto o usa ou não – qual é a vossa opinião sobre os seguintes casos, por exemplo?
??? Perto dos dois mil metros, foi descalço por um adversário.
??? O casaco dela foi roto por uma colega de turma, mas sem querer.
??? Tudo leva a crer que essa informação foi propositadamente omissa pelo acusado.
Talvez se possam juntar também estes – e vários outros – ao grupo anterior de verbos que de facto não têm particípios irregulares...

Nos restantes casos, porém, em que o particípio passado tem indubitavelmente uso verbal, nem todos os particípios irregulares se portam da mesma maneira. O que se verifica atualmente, mais uma vez segundo as palavras de Telmo Móia, que não tenho dúvidas em subscrever, é que “para cada um dos dois contextos relevantes [tempos compostos e voz passiva], há uma gradação na tendência para o uso maior ou menor de um dos particípios. E registam-se mesmo tendências contrárias às generalizações das gramáticas: há verbos cujo particípio irregular tende a impor-se em todos os contextos (mesmo com ter) e há verbos cujo particípio regular tende a impor-se em todos os contextos (mesmo com ser). Em suma, as acentuadas diferenças de uso (para um mesmo contexto sintáctico) conduzem-nos necessariamente a tipologias não binárias”. Móia apresenta ele próprio uma tipologia baseada em taxas de ocorrência dos particípios irregulares nos tempos compostos no corpus CETEMPúblico[8]:
• “verbos cujo particípio regular caiu claramente em desuso”, ou seja, em que o uso da forma regular nos tempos compostos é “sentida como desvio” (ter pagado, ter gastado, ter limpado e ter ganhado praticamente não se usam);
• “verbos cujo particípio regular mostra indícios de cair em desuso, mas ainda ocorre com alguma frequência”, embora a norma conservadora seja maioritariamente desrespeitada (diz-se muito mais ter entregue (94%) que ter entregado (6%), ter salvo (92%) que ter salvado (8%), ter morto (89%) que ter matado (11%), ter eleito (80%) que ter elegido (20%), ter aceite (75%) que ter aceitado (25%) e ter expulso (75%) que ter expulsado (25%);
• “verbos cujo particípio irregular ocorre no contexto em causa, mas com relativa raridade”, ou seja, em que a norma prescrita pelas gramáticas se aplica realmente na maior parte dos casos (é muito mais comum ter expressado (72%) que ter expresso (28%), ter extinguido (74%) que ter extinto (26%), ter suspendido (78%) que ter suspenso (22%), ter prendido (80%) que ter preso (20%), ter dispersado (82%) que ter disperso (18%) e ter soltado (90%) que ter solto (10%); e, finalmente,
• “verbos verbos cujo particípio irregular não se usa ou é bastante raro” nos tempos compostos, quer dizer, em que a regra prescrita pelas gramáticas é, a bem dizer, sempre aplicada (praticamente não se vê nem ouve ter envolto, ter aceso, ter desperto, ter oculto, ter manifesto).
Deixo aos meus leitores mais um proposta de reflexão: em que grupo incluiriam os verbos assentar, cegar, emergir, empregar[9], fritar[10], imergir, imprimir, isentar, juntar, libertar, secar e submergir, por exemplo?
***
Agora, o que é que se passa na nossa cabeça quando dizemos estive em vez de *estei, que seria a forma normal? Há várias teorias sobre isso[11]. A teoria que prefiro diz que vamos buscar a forma estive a um armazém na memória que só contem formas irregulares e expressões idiomáticas. Chamemos a esta teoria regra&memória, para facilidade de exposição. Segundo a teoria regra&memória, vai procurar-se uma forma armazenada na memória e, se não se a encontra, aplica-se a regra e produz-se a forma regular. Para dar um exemplo com falar, não encontrando na memória uma forma (irregular) da 1ª pessoa do pretérito perfeito, aplica-se a regra de juntar o sufixo -ei à raiz do verbo (fal-) e temos falei. No caso de estar, a forma estive está armazenada na memória, o que bloqueia a aplicação da regra e, por isso, não se produz *estei.

Mas, e quando um verbo tem ao mesmo tempo uma forma regular e uma forma regular e é necessário usar uma forma ou a outra em contextos diferentes? O caso dos particípios duplos dos verbos portugueses parece constituir um excelente objeto de análise, teste e desenvolvimento das teorias de produção/armazenagem de formas irregulares… Neste caso, há que recuperar a forma irregular em certos contextos e produzir a forma regular noutros, pelo que a regra simples “se não há irregular armazenado, aplicar regular” não pode funcionar sem uma componente adicional: “se não há irregular armazenado no caso X, aplicar regular; no caso Y, bloquear recuperação de irregular”. Não vou aprofundar aqui esta questão, até porque não o sei fazer; mas fica aqui a ideia de projeto de investigação...

É possível que o mecanismo que leve à preferência da forma irregular dos particípios passados seja a hipercorreção que resulta do medo de erro: irregular é mais difícil e, por isso, mais seguro, porque mais difícil é mais correto. (Como se não houvesse cenouras baratas bem mais saborosas que cenouras caras…) Por outro lado, se a teoria regra&memória atrás exposta estiver certa, é normal que o facto de existir um irregular na memória bloqueie a geração de regular – quando é deficiente ou inexistente a interiorização de uma regra suplementar complexa que é seguramente “dispendiosa” em termos de processamento. Como vimos atrás, é, de facto, o que parece estar a acontecer em muitos casos: a forma irregular está a substituir completamente a forma regular – embora o seu uso nos tempos compostos seja criticado pela norma culta conservadora, ela encontra-se também com frequência no discurso das classes educadas.
_______________
[1] As listas de particípios duplos podem ir de duas dúzias de verbos a mais de centena e meia. A maior parte é, porém, muito exagerada, pelas razões apresentadas no texto: incluem adjetivos que não são de facto particípios passados e incluem arcaísmos.
[2] Estou provavelmente a simplificar demasiado. Pode discutir-se se o uso nos chamados estados resultantes de verbos que exprimem ação é ou não verbal: partiu-se > ficou partido, morreu > está morto, etc.
[3] O uso verbal de nado (nato nunca se usa verbalmente) é claramente arcaizante: quem disser ou escrever que foi nado em Coimbra viveu há séculos ou quer soar como alguém de que viveu há séculos. É de notar que nascer tem uso transitivo noutras variantes do português, como o português de Moçambique, com o sentido de “dar à luz, parir”, mas sempre com o particípio regular.
[4] Tinha morto e foi morto são formas de matar (embora a primeira seja criticada), mas nunca de morrer, pelo que não faz sentido considerar que há uso verbal da forma irregular morto do verbo morrer. Sobre a questão do estado resultante, ver nota 2.
[5] É certo que os dicionários registam usos transitivos do verbo, mas são tão raros que nunca os vi em lado nenhum. Duvido que vago seja alguma vez usado como componente de uma forma verbal.
[6] Embora possa efetivamente ocorrer em passivas, o particípio passado incurso ocorre apenas sempre nos mesmos contextos de linguagem jurídica. As ocorrências são tão específicas que proponho que se tratem como cristalizações, isto é, formas antigas que ocorrem em expressões fixas. A característica destas formas é que não estão disponíveis para usar noutros contextos, pelo que não se aprendem e flexionam livremente.
[7] Móia, Telmo, “Algumas áreas problemáticas para a normalização linguística – disparidades entre o uso e os instrumentos de normalização”, in Actas do XX Encontro Nacional da Associação Portuguesa de Linguística. Lisboa: APL, 2004, pp. 109-125, disponível em linha.
[8]O CETEMPúblico (Corpus de Extractos de Textos Electrónicos MCT/Público) é um corpus de aproximadamente 180 milhões de palavras em português europeu, criado pelo projecto Processamento computacional do português (…) após a assinatura de um protocolo entre o Ministério da Ciência e da Tecnologia (MCT) português e o jornal PÚBLICO em Abril de 2000.
[9] A aceitação dos particípios passados empregue e encarregue varia de gramático para gramático. É inegável, porém, que, pelo menos em português europeu, as formas não só existem como são frequentes, com tendência até a tornarem-se dominantes.
[10] Há verbos formados das formas irregulares do particípio, cujos particípios passados irregulares, por isso, pertencem atualmente a dois verbos diferentes, como expresso (de expressar e exprimir) e frito (de frigir e de fritar). Se frigir é claramente um arcaísmo, exprimir coexiste com expressar no português europeu atual.
[11] Além da teoria descrita no corpo do texto, conheço outras duas teorias sobre a produção e memorização de formas flexionais irregulares: uma diz que as formas flexionais irregulares, como todas as outras formas flexionais, são produzidas pela nossa mente a partir de regras computacionais – as formas irregulares a partir de regras menores; a outra diz que todas as formas são memorizadas a partir de um sistema complexo de relações entre traços das diversas formas. Para quem queira mais informação sobre a questão, sugiro o texto (em inglês) de Steven Pinker “Words and rules” in Lingua 106, 1998, pp. 219-242, disponível em linha (a informação sobre as três teorias não é neutra, Pinker defende uma delas).

18 de novembro de 2013

Uma injustiça… ou O que se diz, quem o diz e quando…

É difícil fazer previsões, especialmente sobre o futuro. 
A frase é conhecida em múltiplas traduções e atribuída a muita gente, mas parece provável que tenha origem escandinava. O autor, não se sabe ao certo quem tenha sido…

A frase dinamarquesa é Det er svært at spå, især om fremtiden e o verbo spå descreve, na origem, o que fazem bruxos, adivinhos e videntes: “adivinhar o futuro” (atualmente, significa também fazer profetizar sem auxílio de artes mágicas de tipo nenhum…). Uma tradução mais literal da frase seria “É difícil profetizar, sobretudo o futuro.”

Muitas vezes, a frase é atribuída ao físico Niels Bohr ou ao humorista Storm P. (Robert Storm Petersen), mas eles parecem não ter feito mais que repetir o brincalhão aforismo, que era já conhecido na altura. O político K. K. Steincke refere a expressão num livro de memórias de 1948, dizendo que ela tinha aparecido no parlamento dinamarquês entre 1935 e 1939. Há, porém, um registo mais antigo de uma frase semelhante, que poderia estar na origem da piada dinamarquesa: o norueguês Fredrik Paasche teria escrito em 1918, num artigo no jornal Samtiden, “Det er en vanskelig sak å spå om fremtiden”, “É coisa difícil profetizar o futuro”. Talvez a tradução portuguesa soe apenas a redundância, mas, a julgar pela maneira como a frase é referida na discussão da origem da expressão, parece que, em “escandinavo”, soa claramente a dito espirituoso e não a erro.

Nem imaginam o que se tem escrito sobre a origem desta frase*… Agora, o que eu quero com esta conversa toda é dar conta de uma injustiça: se for Niels Bohr ou Storm P. a dizer uma coisa assim, acham todos muita graça à boutade (pois, pois, boutade, para ser mais fino); se for o João Pinto a dizer que só faz prognósticos no fim do jogo, a reação é logo outra… Já viram como vocês são?
______________
* Para não vos mandar para páginas em dinamarquês ou norueguês, eis um resumo da discussão em inglês (com uma incorreção pelo meio, felizmente notada nos comentários). Este texto tem um bónus no fim, um delicioso excerto de um discurso de Michael Berry sobre a atribuição de ideias científicas.

14 de novembro de 2013

Big data

Houve, de 1978 a 1992, um grande projeto europeu chamado EUROTRA, que visava criar um programa de tradução automática para as línguas da União Europeia. A ideia era criar um programa que desconstruísse as frase da língua de partida de modo a transformá-las em estruturas abstratas que depois se voltavam a materializar com o léxico e a estrutura sintática da língua de chegada. O projeto nunca foi concluído: era demasiado difícil. Uma amiga minha trabalhou nesse projeto durante alguns anos, com as regras de colocação dos pronomes em português e italiano, sem grandes resultados. Era muito difícil criar as regras para o programa e as estruturas abstratas entre a língua de partida e a língua de chegada eram muito pesadas. Agora, Google Translate melhora de dia para dia. A principal diferença é que Google Translate não tem regras para transformar as frases de uma língua em frases da outra. Usa algoritmos que procuram associações em quantidades muitos grandes de dados. Basicamente, a metodologia de Google Translate é “quantidades enormes de dados”.

No sua palestra O que significam grandes quantidades de dados para as ciências sociais (What big data means for social science), num encontro organizado pelo site Edge, Sendhil Mullainathan refere precisamente esse problema do processamento de línguas naturais e como grandes quantidades de dados o vieram resolver (traduzo eu):
Quero analisar, neste grande mundo do processamento das línguas naturais, um pequeno problema chamado “desambiguação do sentido de uma palavra”. O que é isto de desambiguação do sentido de uma palavra? Vejamos a palavra “banco”. Numa determinada frase, a palavra banco refere-se a banco de areia? Ou refere-se a instituições financeiras que parecem ter constantemente problemas? Ou será que se refere a um banco de jardim? Pode significar muitas coisas. Como é que, com um algoritmo, a análise de uma frase vai determinar o que significa? As pessoas que trabalham com inteligência artificial tentaram fazer o que eu e vocês naturalmente também tentaríamos, nesta situação: disseram: “Vamos descobrir que regras podem ajudar a disambiguizar”. Então, as pessoas começaram a escrever as regras, a reflectir, a pensar no que poderia funcionar. Houve pessoas muito inteligentes a tentar resolver o problema e o progresso que fizeram foi (acho que não é um número preciso, mas aproximadamente…) zero. Era um problema. E aplica-se a todo o processamento de línguas naturais. Grosso modo, quando deixei as ciências informáticas, parecia uma tarefa impossível, que talvez um dia, daí a 200 anos, alguém com alguma ideia brilhante conseguisse realizar. Agora, tenho aqui a Siri no meu telefone. O que é que aconteceu?
Fazendo uma análise retrospetiva, o que aconteceu não foi nenhuma ideia brilhante que tenha sido posta lá dentro do meu telefone, o que aconteceu foi que se usaram grandes quantidades de dados. O que quero dizer com isto é o seguinte: dá-se um algoritmo; fornecem-se milhões, biliões de ocorrências da palavra banco, de que se diz: “Neste caso, significa “acumulação de sedimentos num rio”, neste caso, significa tal…” Apenas se fornecem toneladas de dados para aprendizagem. Não se pensa em que regras se vai usar ao certo. Apenas se codificam muitos elementos, todos os elementos que de possa imaginar. Atira-se com eles lá para dentro. Simplesmente, atiram-se lá para dentro. Depois, põe-se esse algoritmo a aprender as associações que preveem quando é “banco de areia” e, quanto mais dados fornecer, mais amplo é o conjunto de dados e melhor se torna em termos do rigor das previsões.
Para os cientistas, é a coisa mais irritante que se possa imaginar. É do estilo: “Como é que isto funciona?” “Não sei, mas funciona. Não é formidável?”
O que significam então grandes quantidades de dados para as ciências sociais – e para as ciências em geral? Em muitos casos, uma maneira nova de pensar o trabalho de investigação. Não é que o cientista deixe de ser necessário, tem sempre de haver alguém a analisar e a dar sentido ao que sai das máquinas*. Mas o trabalho com grandes quantidades de dados, da mesma forma que analisa sentido de uma palavra sem usar regras, apenas a informação de todos os contextos em as frase ou palavra ocorre, pode dar respostas completamente ao lado das hispóteses que o cientista quer, à partida, confirmar ou infirmar. Sendhil Mullainathan chama a isso matar a hipótese e dá um exemplo tão claro como significativo:

Na área de estudo chamada Finanças Comportamentais, existe há cerca de três décadas o conceito de efeito disposição, que descreve um comportamento à primeira vista ilógico: as pessoas tendem a vender bens cujo preço aumentou e a conservar aqueles que baixaram de preço. Usando uma grande base de dados (com dados acerca de 100.000 negociantes) e “pedindo” a um algoritmo que encontre as variáveis que melhor preveem a disposição para vender (com base nas vendas efetivamente realizadas), o algoritmo ignora o efeito disposição e sugere duas outras variáveis que preveem muito melhor a disposição para vender: o facto de o preço atual ficar no quartil superior das distribuição de preços nos últimos seis meses; e a tendência constante dos últimos três preços, seja ela de aumento de preço ou de baixa de preço. Estas duas variáveis são independentes do preço de compra, pelo que a hipótese anterior, o que se observava como efeito disposição parece ser antes um reflexo de variáveis de outra natureza.

O que é interessante aqui é que o trabalho exploratório da máquina com uma grande quantidade de dados não invalida apenas a hipótese inicial, mas, ao contrário do que acontece no trabalho dedutivo tradicional, mostra-nos o que matou a hipótese e não tinha sido proposto por ninguém, e isso, claro, constitui por si só, se não uma hipótese alternativa, pelo menos uma pista para trabalho futuro.
_______________
* Se virem no vídeo a discussão da palestra de Sendhil Mullainathan ou lerem a sua transcrição, verão que há quem pareça temer a possibilidade de o cientista deixar de ter o papel principal na pesquisa, mas é um temor que me parece perfeitamente infundado…

Sobre preconceito e rotinas

Preconceito é uma palavra com conotações negativas, mas não é forçosamente mau ter pré-conceitos sobre as coisas. Depende de que pré-conceitos e sobre o quê. Já aqui o disse uma vez: é-nos muitas vezes apresentado como ideal o despir-se de preconceitos e ver ou pensar constantemente as coisas como se as víssemos ou pensássemos pela primeira vez, mas, da realização desse ideal resultaria, muito provavelmente, mais confusão e cansaço que iluminação ou deslumbramento. É muito útil ir armazenando ideias sobre as coisas, os seres e as categorias de coisas e seres que vamos encontrando – para não termos, precisamente!, de os reanalisar de novo a partir do zero quando os voltamos a encontrar. Os indispensáveis mecanismos que produzem os preconceitos são, em última análise, os que nos permitem, ainda em bebés, aprender a nossa língua materna, por exemplo: fazemos estatísticas sofisticadas de toda a informação que os sentidos recolhem e chegamos a conclusões importantes sobre quais são os sons relevantes para a nossa língua – ou sobre qual o comportamento típicos dos gatos ou das pessoas com quem lidamos, nesta ou naquela situação.

É claro que estes cálculos inconscientes, por úteis que sejam, estão muito longe de ser sempre corretos. Por um lado, a nossa experiência direta do mundo engana-nos amiúde e a verdade é muitas vezes contraintuitiva – sabiam que não é o sol que se desloca no firmamento por cima de nós? Por outro lado, os conceitos prévios nem sempre resultam da nossa experiência, já que na computação da ideia que temos dos outros entram também as ideias e imagens que nos foram transmitidas e que não correspondem ao resultado de nenhuma análise estatística dos seus comportamentos. De maneira que é mesmo necessário ponderar com cuidado o que se aproveita e o que se deita fora dos pré-conceitos. Mas primeiro, e isso é provavelmente ainda mais difícil, é preciso ganhar consciência deles...

Alvo do mesmo tipo de críticas que os preconceitos costumam ser as rotinas: Idealiza-se muitas vezes uma vida em que se faça apenas o que os apetites nos vão pedindo, descartando tudo o que é impensado, mecânico. É certo que deixamos, às vezes, que uma parte demasiado grande da nossa vista seja gasta em atividades automáticas; mas também as rotinas não merecem críticas apenas: às vezes são, como os preconceitos, mecanismos úteis de poupança de tempo e recursos. E podem também facilitar, acho eu, a vida em comum, não só de casais ou de famílias, mas de qualquer grupo de pessoas. Tem sido dito muitas vezes e é bem verdade: deixar que uma relação assente apenas em rotinas é matar essa relação. Passa a ser uma relação aparente, uma coabitação. Por outro lado, uma relação sem rotinas nenhumas pode ser extenuante, pondo demasiadas vezes em confronto vontades diferentes. É bom deixar que se instalem – ou criar – as suas rotinas...

Não me entendam mal: a moral da história não é que o preconceito e a rotina são coisas boas e que se deve por isso cultivá-los – apenas que se pode compreender que utilidades podem ter. Mas não podemos deixar que os pré-conceitos nos ceguem para conceitos novos, que nos impeçam de ver as coisas como são mas não pensávamos que elas fossem. E o mesmo as rotinas: nenhum músico pode improvisar bem se não tiver os dedos rotinados em escalas e fraseados vários, mas será sempre um improvisador desinteressante se se limitar a repetir esses automatismos. Mesmo nas rotinas que fomos nós a decidir para nós próprios, há que deixar espaço para, de repente, as ignorarmos completamente.

4 de novembro de 2013

A língua de Camões, de Cervantes e de Shakespeare

Uma vez, na faculdade, apresentei, numa aula de literatura portuguesa, um trabalho sobre uma cantiga d’amigo e li o poema com a pronúncia da época. Tive de praticar muito, porque não é muito fácil, mas não vi o meu esforço muito recompensado – acho que as pessoas não acreditaram que era assim que se falava português na altura; e acharam, muitas delas, que era um gesto pretensioso.

Fiz o mesmo numa aula de literatura francesa medieval e foi diferente: a professora, que não sabia ela própria pronunciar provençal antigo, lembrava-se de que tinha ouvido os mestres dela, em França, lerem poemas provençais medievais. “De facto, não sei avaliar se pronunciou bem ou não”, disse ela quando eu terminei, “mas soa muito como aquilo que me lembro das minhas aulas em França.” Também na universidade, tive um professor (francês) de língua francesa que trabalhou com literatura medieval e lia sempre com a pronúncia de época.

Já ouvi várias vezes Chaucer (c. 1343-1400) dito com pronúncia do seu tempo[1]. Mas, tirando na tal aula de Literatura Portuguesa de que falo atrás, nunca na minha vida ouvi um poema português antigo lido com pronúncia da época, não sei por quê… De facto, estou convencido de que muitos portugueses de hoje pensam que D. Dinis (1261-1325) ou Camões (1524-1580) falavam como eles falam[2]. Mas não. Falavam de uma maneira muito diferente da nossa (e muito diferente um do outro…) e foi com a sonoridade da língua que falavam – e para essa sonoridade – que os seus poemas foram escritos, não com/para a sonoridade do português que hoje falamos.

Atualmente, já se representam Shakespeare (1564-1616) e Molière (1622-1673) em pronúncia da época, como se pode ver nos vídeos abaixo, mas não tenho informação de que alguma vez Gil Vicente ou António Ferreira, por exemplo, tenham sido representados com pronúncia do seu tempo. É certo que Gil Vicente (c.1465-c.1536) é mais distante de nós que Shakespeare ou Molière, mas creio que, com a ajuda do texto escrito em grafia moderna, um pouco como se acompanha uma ópera com o libreto, as peças seriam compreensíveis para a maior parte dos espetadores. Digam-me lá: devo ter esperança de algum dia ver uma peça de Gil Vicente com a pronúncia da época?

É curioso: neste aspeto, o cinema parece ser menos inovador que o teatro, apesar de o eventual uso de legendas poder resolver todos os problemas de compreensão de pronúncias antigas e as técnicas cinematográficas, com dobragens, repetições, etc., permitirem uma maior afinação dessas pronúncias. É uma coisa em que penso sempre quando vejo filmes históricos: para quando o primeiro filme falado com pronúncia da época? Há filmes falados em línguas da época antiga que descrevem (como latim em Sebastiane e latim, hebraico e aramaico n’A Paixão de Cristo[3]),. O facto é que, por muito cuidado que se tenha na reconstrução de cenários, roupa, etc., só se pode dar uma ideia de um determinado ambiente da Inglaterra do séc. XIII ou da Espanha do séc. XVI, por exemplo, se se reconstruir também a maneira como as pessoas falavam.


Neste vídeo (em inglês, sem legendas, infelizmente) David Crystal e Ben Crystal falam-nos das produções de Romeu e Julieta em pronúncia original no Globe Theater e explicam como essa pronúncia permite ressuscitar rimas e jogos de palavras doutra forma perdidos. O vídeo responde também àquela pergunta inevitável quando se fala destas coisas: “Mas como se sabe como falavam antigamente? Não havia gravadores…” De facto, a resposta podia ser mais completa, mas isso implicaria entrar em explicações muito técnicas.



Excerto de Le Bourgeois Gentilhomme, de Molière, pela companhia Poème Harmonique, dirigida por Vincent Dumestre e Benjamin Lazar, responsável pelo trabalho de pronúncia restaurada. Esta peça de Molière é, precisamente, um documento que nos dá informação sobre a pronúncia do francês no séc. XVII – pelo que faz ainda mais sentido que seja representada com a pronúncia da época. Além de traços como a pronúncia dos ss finais, alguns notarão a semelhança com muito do francês canadiano. De facto, é um lugar comum dizer que o francês canadiano parece francês antigo e é, em grande medida, certo: como aconteceu com as outras línguas europeias transplantadas para a América, o francês manteve no Canadá muito traços antigos da pronúncia – talvez mais que as outras línguas por uma grande parte dos seus falantes viver em grande isolamento, provavelmente...
_______________
[1] Podem ouvir o prólogo d’Os Contos de Cantuária em pronúncia da época, mas, mesmo que tenham muito bom domínio do inglês, é melhor acompanhar com o texto, senão são capazes de não compreender grande coisa. E mesmo com o texto…
[2] Creio que alguns portugueses não gostariam de ouvir Camões com a pronúncia do seu tempo – havia de lhes soar demasiado abrasileirado ou espanholado, por causa das vogais abertas. Mas isso é outra conversa…
[3] Nestes dois filmes, a pronúncia do latim não é trabalhada com rigor. N’A paixão de Cristo, nem se usa pronúncia restaurada, mas sim a clássica pronúncia italianizada.

2 de novembro de 2013

Nascer onde nasce o sol

Há cerca de dois anos, disse-me a minha filha mais nova:
Sou meio dinamarquesa meio portuguesa, mas nasci na Dinamarca. Quando for velha, quero ir para Portugal e morrer lá – como o sol, que nasce a leste e se põe a oeste.
***
Não sei se é comum associar o nascer do sol ao lugar onde se nasce, mas dá, às vezes, bom resultados:

The Divine Comedy (Neil Hannon), "Sunrise" (1998), ao vivo no Palladium, Londres, 2004