Um mundo novo na Floresta Sintá(c)tica – o treebank do Português
Resumo
A Floresta Sintá(c)tica tem como objetivo criar e disponibilizar um corpus sintaticamente anotado. Neste artigo, são apresentados dois novos materiais do projeto: Selva (300 mil palavras e parcialmente revisto) e Amazônia (3.8 milhões de palavras, não revisto). Para lidar com um material tão grande e variado foi construída a interface Milhafre. O artigo mostra, ainda, como vem sendo enfrentado o desafio de compatibilizar, de uma lado, o usuário lingüista, que pode ter um perfil muito heterogêneo e, em geral, pouca familiaridade determinadas formalizações mais utilizadas em informática e, de outro, um único modelo de anotação sintática, freqüentemente pouco conhecido do lado “lingüístico não-computacional” e uma interface de acesso e manipulação de corpora capaz de lidar com um objeto tão complexo como a língua.
Palavras-chave: árvores sintáticas, corpus anotado, corpus revisto, busca em corpora.Downloads
Publicado
Como Citar
Edição
Seção
Licença
Concedo à Calidoscópio o direito de primeira publicação da versão revisada do meu artigo, licenciado sob a Licença Creative Commons Attribution (que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista).
Afirmo ainda que meu artigo não está sendo submetido a outra publicação e não foi publicado na íntegra em outro periódico e assumo total responsabilidade por sua originalidade, podendo incidir sobre mim eventuais encargos decorrentes de reivindicação, por parte de terceiros, em relação à autoria do mesmo.
Também aceito submeter o trabalho às normas de publicação da Calidoscópio acima explicitadas.