Validation of manual brain lesion tracing methods in clinical neuroscience

Fonseca, Catarina Maria Inácio

http://hdl.handle.net/10451/59180

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
TM_Catarina_Fonseca.pdf		2.13 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Fonseca, Catarina Maria Inácio

Orientador(es)

Andrade, Alexandre da Rocha Freire de

Corrêa, João Bernardo Barahona

Resumo(s)

Historicamente, os estudos de lesão têm vindo a contribuir substancialmente para o avanço da neurociência cognitiva e comportamental. De facto, os estudos de lesão permitiram que se se esclarecessem e compreendessem associações entre funções cognitivas e estruturas ou circuitos neuronais, no sentido de se elaborarem modelos de arquitetura e funcionamento do cérebro. Uma das abordagens mais comumente utilizada nestes estudos é a seleção de artigos, a partir dos casos clínicos disponíveis na literatura, que contenham imagens de lesões, lesões estas que estejam associadas a determinado diagnóstico ou síndrome do tópico em estudo. Estando finalizada a seleção de artigos, procede-se para a extração da informação contida em cada caso clínico. Acontece que, particularmente os scans de imagem médica, não são de livre acesso, limitando assim, a sua utilização direta. Face a este obstáculo, a estratégia que normalmente o soluciona é a da transformação de lesões – que inicialmente se encontram nas figuras publicadas nos artigos científicos – para um espaço cerebral padrão. Esta transformação, no referido contexto, é chamada de segmentação de lesão, para a qual um protocolo padronizado não foi, até então, estabelecido. Além disso, por si só, esta técnica de passagem de lesões para um espaço padrão pode ser falível e acarretar erros, não tendo sido estes, até à data, devidamente explorados. De facto, no processo em que os investigadores computam a ‘normalização’ de uma lesão para um espaço padrão, baseados na perceção que têm da lesão relativa a referências anatómicas na imagem do artigo, variadas fontes de erro poderão influenciar e impactuar a qualidade e a precisão das segmentações resultantes. Destas fontes de variabilidade, realçamos (i) a escolha da slice num espaço tridimensional, que acarreta o ajuste e a conjugação de três planos no espaço padrão de modo a replicar a angulação observada do scan do paciente, (ii) e a consequente delineação das fronteiras das lesões no novo espaço, tal como percecionadas pelo investigador que realiza a segmentação. Adicionalmente, dada a complexidade e a unicidade de cada cérebro, este processo torna-se particularmente exigente. De modo a minimizar erros inerentes à avaliação subjetiva por parte do observador, a literatura considera a segmentação manual executada por um experiente neurorradiologista ou um especialista em neuroanatomia como o gold-standard para a técnica de segmentação de imagens, apesar de ser um processo consideravelmente demoroso. No entanto, esta garantia de qualidade nem sempre é incorporada nos estudos de lesão, o que revela um constrangimento metodológico. Na realidade, alguns artigos não referem a pessoa (ou grupo) responsável pela segmentação, em outras situações é um dos autores (não necessariamente um especialista em neuroanatomia) responsável por esta tarefa e, noutros casos, o responsável pela segmentação das lesões é então uma pessoa (ou grupo) com um aprofundado conhecimento em neuroanatomia. Pelo facto de um número considerável de estudos de lesão continuar a adotar este método para obter lesões num espaço padronizado, torna-se relevante perceber se diferenças metodológicas nestes estudos influenciam significativamente a precisão da segmentação e, em último caso, comprometem futuras análises e conclusões médicas. Tomou-se assim, como principal objetivo, clarificar se diferentes métodos (como a presença ou não de um especialista responsável pelo processo de segmentação) provocam resultados satisfatoriamente semelhantes. Adicionalmente, foram também exploradas características, ora próprias da lesão ora da contextualização da aquisição da imagem nos artigos de publicação, que pudessem, de certo modo, influenciar a qualidade das segmentações resultantes. Para aceder à precisão de diferentes métodos de segmentação de lesões, dois tipos de avaliadores (raters) segmentaram quarenta lesões (uma lesão por paciente) apresentadas em artigos (em formato de esquema (n=1), MRI (n=29) ou CT (n=10)) para o espaço padrão (o sistema de coordenadas do MNI). O primeiro grupo de avaliadores (apelidado de rater 1) foi constituído por um estudante (CF) e um neurorradiologista (JR), o qual se considerou o gold-standard, enquanto o segundo avaliador (apelidado de rater 2) era um investigador não especialista em neuroanatomia (JSQ). O desempenho de cada rater foi comparado de modo a analisar a concordância entre os referidos métodos. A segmentação de cada lesão foi realizada uma segunda vez por cada conjunto de avaliadores, permitindo assim avaliar a consistência dentro de cada um dos raters. Deste modo, estudámostrês diferentes pares de segmentação: um par que avaliasse a concordância entre avaliadores (testando os dois avaliadores na sua primeira ronda de segmentação: raters 1 and 2 in the first round) e dois outros pares que avaliassem a consistência dentro de cada avaliador (rater 1 across rounds e rater 2 across rounds). Para este projeto, quatro métricas foram estudadas. Primeiro, análises volumétricas foram computorizadas, de modo a analisar a variabilidade de volumes ao longo dos diferentes avaliadores e em diferentes momentos no tempo. Foram também obtidas correlações de Spearman e coeficientes de correlação intraclasse (ICCs) entre pares de segmentações, tal como gráficos de Bland-Altman, amplamente utilizados na investigação médica, que verificam o grau de concordância entre dois métodos. Adicionalmente, utilizando mapas anatómicos, cada lesão segmentada foi também repartida e estudada de acordo com as regiões anatómicas nas quais se localizava. Em segundo lugar, foi abordada uma métrica de similaridade entre amostras, o coeficiente de Dice (DSC), o qual quantifica a sobreposição entre duas imagens. Sendo que as imagens presentes neste projeto se encontravam a 2D (dado que a segmentação foi baseada nas slices que os artigos apresentavam por cada lesão), poderia acontecer que duas segmentações, mesmo espacialmente próximas entre si, apresentassem um coeficiente de Dice nulo. De modo a ultrapassar esta limitação, cada segmentação foi dilatada 10 mm, permitindo assim, que imagens relativamente próximas, mas numa slice distinta, apresentassem um coeficiente de sobreposição diferente de zero. A literatura referencia que DSC>0.70 é indicador de uma alta concordância enquanto DSC>0.80 de uma excelente concordância entre avaliadores. Em terceiro lugar, de modo a calcular a distância espacial entre duas segmentações, a métrica de Hausdorff foi utilizada. Sendo esta métrica sensível a outliers e dado que imagens médicas são particularmente suscetíveis a ruído e outliers, foi aplicada uma modificação à métrica calculando-se o 95º quantil da distância de Hausdorff. Finalmente, de modo a estudar o grau de complexidade da delineação das fronteiras das segmentações, foram estimadas medidas de complexidade para cada segmentação e, posteriormente, cada estimativa foi relacionada com uma segunda, dentro de cada par de segmentação. Esta quantificação de complexidade entre pares foi, neste projeto, uma abordagem pioneira, não encontrada, até à data, em outros estudos de comparação entre métodos de segmentação. Para as referidas métricas, sempre que aplicáveis, testes de Wilcoxon foram utilizados, de modo a comprovar se se verificavam diferenças significativas entre pares de segmentação. Testes de Friedman e testes de Kruskal-Wallis para amostras emparelhadas e não emparelhadas, respetivamente, foram aplicados sempre que se pretendiam estudar diferenças entre os três pares de segmentação. Caso se encontrassem diferenças significativas, aplicar-se-iam testes post-hoc para clarificar onde as diferenças residiam. Os resultados comprovaram que ambos os avaliadores são consistentes ao longo do tempo, e verificaram, igualmente, uma concordância entre segmentações de diferentes avaliadores, não havendo diferenças significativas entre pares de segmentações. Em termos de comparações volumétricas, os pares de segmentação mostraram estar substancialmente correlacionados (𝜌≥0.960; ICCs≥0.968). Análises regionais a partir de mapas anatómicos revelaram que determinadas regiões são particularmente suscetíveis a erros por parte do avaliador: devido à dificuldade em encontrar referências anatómicas e ao facto de pequenos tratos de substância branca serem facilmente atravessados por outras fibras, lesões que integrem regiões no córtex e tronco encefálico, respetivamente, podendo comprometer o desempenho do observador, devem ser tratadas com especial cuidado. Os resultados relativos à sobreposição de segmentações mostraram uma elevada concordância entre avaliadores (DSC=0.725 ± 0.234), enquanto cada avaliador revelou uma excelente consistência entre segmentações (DSC>0.81 ± 0.173). Lesões apresentadas em artigos através de imagens de ressonância magnética resultaram em segmentações com uma melhor sobreposição entre si, em comparação a imagens de tomografia axial computorizada. Um ano mais recente de publicação e uma melhor qualidade de detalhe da imagem (e.g. tamanho da imagem no artigo, resolução da imagem inerente à própria publicação do artigo, obtenção do artigo através de uma digitalização ou não, entre outros) foram igualmente relacionadas a coeficientes de Dice mais elevados. Relativamente às distâncias de Hausdorff obtidas, o rater 2 mostrou uma consistência razoável (HD95=4.949 ± 4.993), na medida em que não se verificaram diferenças significativas face à consistência do gold-standard (rater 1 across rounds: HD95=4.416 ± 3.715). Foi igualmente observada uma concordância satisfatória entre avaliadores (HD95=4.881 ± 4.336). As distâncias de Hausdorff mostraram ser sensíveis à variação de volume das lesões e ao número de slices fornecidas no artigo relativas a uma mesma lesão. Finalmente, comparações entre a complexidade das delineações das segmentações mostraram que fronteiras segmentadas pelo rater 1 foram mais elaboradas, contrastivamente ao rater 2. No entanto, não se verificaram diferenças significativas relativas ao grau de complexidade entre pares de segmentação. Comprova-se assim, que um avaliador não especialista apresenta uma satisfatória consistência ao longo do tempo e uma elevada concordância com o gold-standard, validando assim, este método de segmentação manual de lesões. A inclusão de um terceiro avaliador, não especialista, poderia testar se, eventualmente, o desempenho do rater 2 pode ser generalizável.

Brain lesions studies have made major historical contributions to behavioral and cognitive neuropsychiatry. In fact, brain lesions have contributed to clarify associations between cognitive functions and brain structures or circuits, towards defining current models of brain architecture and function[1]. One of the most common approaches is to conduct a pooled analysis of brain lesions associated to a specific syndrome or diagnosis, after collecting clinical cases available in the published literature. However, this technique may have errors and remains to be fully explored and defined to date. One of the criticisms relies on the transformation of lesions reported in the article’s images to a standard brain space, i.e. lesion tracing, for which a standardized protocol has not been defined. The aim of this study was to determine the intra- and inter-rater accuracy of manual lesion tracing methods. Additionally, lesion and image acquisition characteristics that could induce variability in the segmentation process were also explored. To assess the accuracy of different lesion tracing methods, two groups of raters segmented 40 lesion images (from 40 patients) into the MNI space. The first group of raters was constituted by a researcher supervised by a neuroradiologist (rater 1, considered as the gold-standard) while the second was constituted by another researcher who is not a neuroradiologist (rater 2). Tracing was performed twice by both groups of tracers to further assess the consistency within each group. We have evaluated the resulting segmentations using volumetric, spatial overlap, distance- and complexity-based measures. Results indicate that rater 2 performed remarkably well, compared to the gold-standard (rater 1), since no statistical differences between them were found and a very high similarity emerged across all four metrics. Both raters also showed an excellent consistency across rounds of segmentation. This is an outstanding outcome, which validates different approaches used in manual lesion segmentation.

Descrição

Tese de Mestrado Integrado, Engenharia Biomédica e Biofísica (Engenharia Clínica e Instrumentação Médica), 2022, Universidade de Lisboa, Faculdade de Ciências

Palavras-chave

Estudos de lesão Segmentação manual Métricas de avaliação Teses de mestrado - 2023

URI

http://hdl.handle.net/10451/59180

Coleções

FC - Dissertações de Mestrado

Ver registo completo