| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 384.97 KB | Adobe PDF |
Orientador(es)
Resumo(s)
Este trabalho apresenta o processo de construção de um corpus de material oral e escrito do forro (santome), um crioulo de base lexical portuguesa falado na ilha de São Tomé. O corpus compreende dados da segunda metade do século XIX até ao presente. Abordamos as dificuldades típicas de línguas não oficiais que são predominantemente orais, tais como a normalização ortográfica e um conjunto de dados mais restrito. Para a compilação do corpus seguimos padrões linguísticos de corpora e para codificar os metadados utilizámos a codificação de carateres UTF-8 e XML. Definimos um conjunto de metadados e apresentamos as etiquetas desenvolvido para a anotação dos dados com informação linguística.
Descrição
Palavras-chave
São Tomé Crioulo Forro (santome) Corpus linguístico Normalização Anotação
Contexto Educativo
Citação
Tiny, Abigail; Amaro, Haldane; Hendrickx, Iris; Hagemeijer, Tjerk. 2012. O forro: A construção de um corpus. In Ana Cristina Roque, Gerhard Seibert e Vítor Rosado Marques (coord.). Livro de Atas - Colóquio Internacional: São Tomé e Príncipe numa perspectiva interdisciplinar, diacrónica e sincrónica. Lisboa: ISCTE-IUL; IICT, 597-609
