Loading...
Research Project
Quality Translation by Deep Language Engineering Approaches
Funder
Authors
Publications
CINTIL DependencyBank PREMIUM. A corpus of grammatical dependencies for Portuguese
Publication . Carvalho, Rita de; Querido, Andreia; Campos, Marisa; Valadas, Rita; Silva, João; Branco, António
This paper presents a new linguistic resource for the study and computational processing of Portuguese. CINTIL DependencyBank PREMIUM is a corpus of Portuguese news text, accurately manually annotated with a wide range of linguistic information (morpho-syntax, named-entities, syntactic function and semantic roles), making it an invaluable resource specially for the development and evaluation of data-driven natural language processing tools. The corpus is under active development, reaching 4,000 sentences in its current version. The paper also reports on the training and evaluation of a dependency parser over this corpus. CINTIL DependencyBank PREMIUM is freely-available for research purposes through META-SHARE.
CINTIL DependencyBank PREMIUM Handbook: Design options for the representation of grammatical dependencies
Publication . Branco, António; Silva, João; Querido, Andreia; Carvalho, Rita
Lexical semantics annotation for enriched Portuguese corpora
Publication . Neale, Steven; Valadas, Rita; Silva, João; Branco, António
The semantic annotation of corpora has an important role to play in ensuring that sentences occurring in natural language texts are correctly understood based on their intended context. Two examples of lexical semantic units that contribute to this knowledge are word senses – which allow words with multiple meanings to be understood based on the context in which they are used – and named entities – which can be disambiguated and linked back to the specific encyclopedic resources that describe them. In this paper, we describe the construction of lexical semanticallyannotated corpora for Portuguese, annotated with both word senses linked to senses in a Portuguese wordnet and named entities linked to Portuguese Wikipedia entries using DBpedia. The result is a goldstandard lexical semantically-annotated resource that is useful in supporting the training and evaluation of tools for the disambiguation of these lexical units in Portuguese.
Modelling semantic relations with distributitional semantics and deep learning : question answering, entailment recognition and paraphrase detection
Publication . Maraev, Vladislav; Branco, António; Lourenço, Carlos
Nesta dissertação apresenta-se uma abordagem à tarefa de modelar relações semânticas
entre dois textos com base em modelos de semântica distribucional e em aprendizagem
profunda. O presente trabalho tira partido de várias disciplinas da ciência
cognitiva, com especial relevo para a computação, a linguística e a inteligência artificial,
e com fortes influência da neurociência e da psicologia cognitiva.
Os modelos de semântica distribucional (também conhecidos como ”word embeddings”)
são usados para representar o significado das palavras. As representações
semânticas das palavras podem ainda ser combinadas para obter o significado de
um excerto de um texto recorrendo ao uso da aprendizagem profunda, isto é, com o
apoio das redes neurais de convolução.
Esta abordagen é utilizada para replicar a experiência realizada por Bogdanova
et al. (2015) na tarefa de deteção de perguntas que podem ser respondidas as mesmas
respostas tal como estas foram respondidas em fóruns on-line. Os resultados do
desempenho obtidos pelas experiências apresentadas nesta dissertação são equivalentes
ou melhores que os resultados obtidos no trabalho de referência mencionado
acima.
Apresentao também um estudo sobre o impacto do pré-processamento apropriado
do texto, tendo em conta os resultados que podem ser obtidos pelas abordagens
adotadas no trabalho de referência supramencionado. Este estudo é levado a cabo
removendo-se certas pistas que podem levar o sistema, indevidamente, a detetar
perguntas equivalentes. Essa remoção das pistas leva a uma diminuição significativa
no desempenho do sistema desenvolvido no trabalho de referência.
Nesta dissertação é ainda apresentado um estudo sobre o impacto que os word
embeddings treinados previamente têm na tarefa de detetar perguntas semanticamente
equivalentes. Substituindo-se, aleatoriamente, word embeddings previamente
treinados por outros melhora-se o desempenho do sistema.
Além disso, o modelo foi utilizado na tarefa de reconhecimento de implicações
para Português, onde mostrou uma taxa de acerto similar à da baseline. Este trabalho também reporta os resultados da aplicação da abordagem adotada
numa competição para a deteção de paráfrases em Russo. A configuração final apresenta
duas melhorias: usa character embeddings em vez de word embeddings e usa
vários filtros de convolução. Esta configuração foi testado na execução padrão da
Tarefa 2 da competição relevante, e mostrou resultados competitivos.
Named Entities in the QTLeap Corpus of Online Helpdesk Interactions
Publication . Querido, Andreia; Carvalho, Rita de; Rodrigues, João; Silva, João; Neale, Steven; Pereira, Rita; Gomes, Patrícia; Correia, Catarina; Amaral, Diana; Branco, António
In this paper we present the annotation of a corpus with named entities that are classified into semantic types and disambiguated by linking them to their corresponding entry in the Portuguese DBpedia. This corpus, QTLeap Corpus, is a multilingual collection of question and answer pairs from a chat-based helpdesk service for Information and Communication Technologies. The resulting annotated corpus is a gold-standard named entity annotated lexical resource that is useful in supporting the training and evaluation of named entity annotation and disambiguation tools for Portuguese.
Organizational Units
Description
Keywords
Contributors
Funders
Funding agency
European Commission
Funding programme
FP7
Funding Award Number
610516