Produtividade morfológica e tecnologia do texto: aspectos da construção de um transdutor lexical do português capaz de analisar neologismos
Resumen
Neste artigo, apresentamos o LEXPOR, protótipo de um componente morfológico do português capaz de segmentar e classificar os constituintes de derivados por meio da sufixação de -ismo, -iano, -ês e -mente bem como de derivados desses por prefixação com elementos de origem grega ou latina do tipo de neo-, pseudo-, anti- ou ultra-. Partimos do pressuposto de que uma representação das palavras complexas em termos de morfemas e categorias morfossintáticas não é só relevante na linguística de corpus, mas também em outras subáreas da tecnologia do texto, como a extração e a recuperação de informações. Este protótipo consiste de um transdutor lexical que modela o conjunto de palavras que se podem potencialmente construir usando esses afixos derivacionais. Esse transdutor foi compilado a partir de uma descrição da morfotática e das regras de alternância morfofonológicas e ortográficas desse fragmento do léxico, formalizada nas linguagens de programação de estados finitos xfst e lexc. A principal característica desse transdutor é a capacidade de realizar análises de neologismos construídos a partir de bases não lexicalizadas, tomadas de empréstimo de outras línguas. Como a utilização de antropônimos estrangeiros é uma das causas principais da extrema produtividade dos afixos derivacionais que focamos, o LEXPOR oferece uma arquitetura adequada para o desenvolvimento de um anotador automático de corpora do português capaz de preencher as lacunas de corpora como o CETENFolha e do analisador automático do projeto VISL. Em um como outro caso, as análises morfológicas de palavras complexas com os afixos derivacionais referidos frequentemente são insuficientemente detalhadas ou simplesmente incorretas.
Palavras-chave: derivação, sufixação, prefixação, autômatos, transdutores lexicais, morfologia de estados finitos, anotação automática de corpora, linguística computacional, linguística de corpus.Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Concedo à Calidoscópio o direito de primeira publicação da versão revisada do meu artigo, licenciado sob a Licença Creative Commons Attribution (que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista).
Afirmo ainda que meu artigo não está sendo submetido a outra publicação e não foi publicado na íntegra em outro periódico e assumo total responsabilidade por sua originalidade, podendo incidir sobre mim eventuais encargos decorrentes de reivindicação, por parte de terceiros, em relação à autoria do mesmo.
Também aceito submeter o trabalho às normas de publicação da Calidoscópio acima explicitadas.