Tiny, AbigailAmaro, HaldaneHendrickx, IrisHagemeijer, Tjerk2018-01-262018-01-262012Tiny, Abigail; Amaro, Haldane; Hendrickx, Iris; Hagemeijer, Tjerk. 2012. O forro: A construção de um corpus. In Ana Cristina Roque, Gerhard Seibert e Vítor Rosado Marques (coord.). Livro de Atas - Colóquio Internacional: São Tomé e Príncipe numa perspectiva interdisciplinar, diacrónica e sincrónica. Lisboa: ISCTE-IUL; IICT, 597-609http://hdl.handle.net/10451/31022Este trabalho apresenta o processo de construção de um corpus de material oral e escrito do forro (santome), um crioulo de base lexical portuguesa falado na ilha de São Tomé. O corpus compreende dados da segunda metade do século XIX até ao presente. Abordamos as dificuldades típicas de línguas não oficiais que são predominantemente orais, tais como a normalização ortográfica e um conjunto de dados mais restrito. Para a compilação do corpus seguimos padrões linguísticos de corpora e para codificar os metadados utilizámos a codificação de carateres UTF-8 e XML. Definimos um conjunto de metadados e apresentamos as etiquetas desenvolvido para a anotação dos dados com informação linguística.porSão ToméCriouloForro (santome)Corpus linguísticoNormalizaçãoAnotaçãoO forro: a construção de um corpusjournal article