logo ASPA

Avaliação Sonora do Português Atual

ASPA

Exemplo de cadastro

As 200 mil palavras de maior freqüência de ocorrência no Corpus do LAEL foram transcritas seguindo a metodologia do Projeto ASPA. A transcrição foi realizada em duas etapas: a primeira automática, e a segunda manual.

Na etapa de transcrição automática utilizou-se o software de transcrição LETRASON. O LETRASON foi desenvolvido por Leonardo Almeida em parceria com Thaïs Cristófaro-Silva. O software é capaz de converter símbolos ortográficos do português brasileiro em seus correlatos sonoros.

Os dados ortográficos obtidos através do Corpus do LAEL foram transcritos com símbolos fonéticos. Esta transcrição foi realizada a partir de um software desenvolvido por Leonardo Almeida em parceria com Thaïs Cristófaro-Silva. O software converte símbolos ortográficos do português em seus correlatos sonoros, que são representados graficamente por símbolos do Alfabeto Internacional de Fonética e alguns símbolos gráficos definidos pelos autores. Denominamos o aplicativo responsável pela transcrição ortográfica-sonora de LETRASON.

O LETRASON é capaz de transcrever de forma definitiva (e correta) uma grande quantidade de palavras do português brasileiro. No entanto, algumas palavras são impossíveis de serem transcritas automaticamente pela incapacidade de se formular uma regra via software. Um exemplo bem claro dessa situação, é a questão da letra "x" entre duas vogais. Essa letra pode apresentar quatro sons diferentes, como nas palavras próximo, caixa, táxi e exemplo. Para tais situações, a transcrição ortográfico-sonora foi concluída manualmente pelos colaboradores do projeto.

Ao cadastrar uma palavra, cada coloraborador era responsável por adicionar informações de categoria gramatical, morfologia, origem e tonicidade, além de concluir a transcrição. Para facilitar o trabalho dos colaboradoes, foi desenvolvida uma página de cadastro do Projeto ASPA (veja um exemplo desta etapa). Para acessar a página, o colaborador entrava com um login e uma senha, que lhe possibilitavam acesso ao seu lote de palavras. Cada lote era composto por 6000 palavras, mostradas na tela do navegador em blocos de 10. Ao terminar o cadastro de um bloco, o colaborador enviava o cadastro ao servidor do projeto. Em caso de dúvida de categorização, discordância com a transcrição, ou palavras que se encaixam na lista de exclusão (veja na Metodologia), o colaborador poderia marcar um botão do tipo "tick mark" para a palavra, que seria, então, enviada para análise futura. É importante ressaltar que todos os colaboradores passaram por uma etapa de treinamento, onde eram acompanhados pelos coordenadores do projeto. Esta etapa de treinamento foi importante por garantir a maior uniformidade possível no cadastro de palavras.

Exemplo de cadastro