| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 2.13 MB | Adobe PDF |
Autores
Resumo(s)
Historicamente, os estudos de lesão têm vindo a contribuir substancialmente para o avanço
da neurociência cognitiva e comportamental. De facto, os estudos de lesão permitiram que se se
esclarecessem e compreendessem associações entre funções cognitivas e estruturas ou circuitos
neuronais, no sentido de se elaborarem modelos de arquitetura e funcionamento do cérebro. Uma
das abordagens mais comumente utilizada nestes estudos é a seleção de artigos, a partir dos casos
clínicos disponíveis na literatura, que contenham imagens de lesões, lesões estas que estejam
associadas a determinado diagnóstico ou síndrome do tópico em estudo. Estando finalizada a
seleção de artigos, procede-se para a extração da informação contida em cada caso clínico.
Acontece que, particularmente os scans de imagem médica, não são de livre acesso, limitando
assim, a sua utilização direta. Face a este obstáculo, a estratégia que normalmente o soluciona é
a da transformação de lesões – que inicialmente se encontram nas figuras publicadas nos artigos
científicos – para um espaço cerebral padrão. Esta transformação, no referido contexto, é chamada
de segmentação de lesão, para a qual um protocolo padronizado não foi, até então, estabelecido.
Além disso, por si só, esta técnica de passagem de lesões para um espaço padrão pode ser falível
e acarretar erros, não tendo sido estes, até à data, devidamente explorados. De facto, no processo
em que os investigadores computam a ‘normalização’ de uma lesão para um espaço padrão,
baseados na perceção que têm da lesão relativa a referências anatómicas na imagem do artigo,
variadas fontes de erro poderão influenciar e impactuar a qualidade e a precisão das segmentações
resultantes. Destas fontes de variabilidade, realçamos (i) a escolha da slice num espaço
tridimensional, que acarreta o ajuste e a conjugação de três planos no espaço padrão de modo a
replicar a angulação observada do scan do paciente, (ii) e a consequente delineação das fronteiras
das lesões no novo espaço, tal como percecionadas pelo investigador que realiza a segmentação.
Adicionalmente, dada a complexidade e a unicidade de cada cérebro, este processo torna-se
particularmente exigente. De modo a minimizar erros inerentes à avaliação subjetiva por parte do
observador, a literatura considera a segmentação manual executada por um experiente
neurorradiologista ou um especialista em neuroanatomia como o gold-standard para a técnica de
segmentação de imagens, apesar de ser um processo consideravelmente demoroso. No entanto,
esta garantia de qualidade nem sempre é incorporada nos estudos de lesão, o que revela um
constrangimento metodológico. Na realidade, alguns artigos não referem a pessoa (ou grupo)
responsável pela segmentação, em outras situações é um dos autores (não necessariamente um
especialista em neuroanatomia) responsável por esta tarefa e, noutros casos, o responsável pela
segmentação das lesões é então uma pessoa (ou grupo) com um aprofundado conhecimento em
neuroanatomia. Pelo facto de um número considerável de estudos de lesão continuar a adotar este
método para obter lesões num espaço padronizado, torna-se relevante perceber se diferenças
metodológicas nestes estudos influenciam significativamente a precisão da segmentação e, em
último caso, comprometem futuras análises e conclusões médicas. Tomou-se assim, como
principal objetivo, clarificar se diferentes métodos (como a presença ou não de um especialista
responsável pelo processo de segmentação) provocam resultados satisfatoriamente semelhantes.
Adicionalmente, foram também exploradas características, ora próprias da lesão ora da
contextualização da aquisição da imagem nos artigos de publicação, que pudessem, de certo
modo, influenciar a qualidade das segmentações resultantes.
Para aceder à precisão de diferentes métodos de segmentação de lesões, dois tipos de
avaliadores (raters) segmentaram quarenta lesões (uma lesão por paciente) apresentadas em
artigos (em formato de esquema (n=1), MRI (n=29) ou CT (n=10)) para o espaço padrão (o
sistema de coordenadas do MNI). O primeiro grupo de avaliadores (apelidado de rater 1) foi constituído por um estudante (CF) e um neurorradiologista (JR), o qual se considerou o
gold-standard, enquanto o segundo avaliador (apelidado de rater 2) era um investigador não
especialista em neuroanatomia (JSQ). O desempenho de cada rater foi comparado de modo a
analisar a concordância entre os referidos métodos. A segmentação de cada lesão foi realizada
uma segunda vez por cada conjunto de avaliadores, permitindo assim avaliar a consistência dentro
de cada um dos raters. Deste modo, estudámostrês diferentes pares de segmentação: um par que
avaliasse a concordância entre avaliadores (testando os dois avaliadores na sua primeira ronda de
segmentação: raters 1 and 2 in the first round) e dois outros pares que avaliassem a consistência
dentro de cada avaliador (rater 1 across rounds e rater 2 across rounds).
Para este projeto, quatro métricas foram estudadas. Primeiro, análises volumétricas foram
computorizadas, de modo a analisar a variabilidade de volumes ao longo dos diferentes
avaliadores e em diferentes momentos no tempo. Foram também obtidas correlações de Spearman
e coeficientes de correlação intraclasse (ICCs) entre pares de segmentações, tal como gráficos de
Bland-Altman, amplamente utilizados na investigação médica, que verificam o grau de
concordância entre dois métodos. Adicionalmente, utilizando mapas anatómicos, cada lesão
segmentada foi também repartida e estudada de acordo com as regiões anatómicas nas quais se
localizava. Em segundo lugar, foi abordada uma métrica de similaridade entre amostras, o
coeficiente de Dice (DSC), o qual quantifica a sobreposição entre duas imagens. Sendo que as
imagens presentes neste projeto se encontravam a 2D (dado que a segmentação foi baseada nas
slices que os artigos apresentavam por cada lesão), poderia acontecer que duas segmentações,
mesmo espacialmente próximas entre si, apresentassem um coeficiente de Dice nulo. De modo a
ultrapassar esta limitação, cada segmentação foi dilatada 10 mm, permitindo assim, que imagens
relativamente próximas, mas numa slice distinta, apresentassem um coeficiente de sobreposição
diferente de zero. A literatura referencia que DSC>0.70 é indicador de uma alta concordância
enquanto DSC>0.80 de uma excelente concordância entre avaliadores. Em terceiro lugar, de
modo a calcular a distância espacial entre duas segmentações, a métrica de Hausdorff foi utilizada.
Sendo esta métrica sensível a outliers e dado que imagens médicas são particularmente suscetíveis
a ruído e outliers, foi aplicada uma modificação à métrica calculando-se o 95º quantil da distância
de Hausdorff. Finalmente, de modo a estudar o grau de complexidade da delineação das fronteiras
das segmentações, foram estimadas medidas de complexidade para cada segmentação e,
posteriormente, cada estimativa foi relacionada com uma segunda, dentro de cada par de
segmentação. Esta quantificação de complexidade entre pares foi, neste projeto, uma abordagem
pioneira, não encontrada, até à data, em outros estudos de comparação entre métodos de
segmentação. Para as referidas métricas, sempre que aplicáveis, testes de Wilcoxon foram
utilizados, de modo a comprovar se se verificavam diferenças significativas entre pares de
segmentação. Testes de Friedman e testes de Kruskal-Wallis para amostras emparelhadas e não
emparelhadas, respetivamente, foram aplicados sempre que se pretendiam estudar diferenças
entre os três pares de segmentação. Caso se encontrassem diferenças significativas,
aplicar-se-iam testes post-hoc para clarificar onde as diferenças residiam.
Os resultados comprovaram que ambos os avaliadores são consistentes ao longo do tempo, e
verificaram, igualmente, uma concordância entre segmentações de diferentes avaliadores, não
havendo diferenças significativas entre pares de segmentações. Em termos de comparações
volumétricas, os pares de segmentação mostraram estar substancialmente correlacionados
(𝜌≥0.960; ICCs≥0.968). Análises regionais a partir de mapas anatómicos revelaram que
determinadas regiões são particularmente suscetíveis a erros por parte do avaliador: devido à
dificuldade em encontrar referências anatómicas e ao facto de pequenos tratos de substância
branca serem facilmente atravessados por outras fibras, lesões que integrem regiões no córtex e tronco encefálico, respetivamente, podendo comprometer o desempenho do observador, devem
ser tratadas com especial cuidado. Os resultados relativos à sobreposição de segmentações
mostraram uma elevada concordância entre avaliadores (DSC=0.725 ± 0.234), enquanto cada
avaliador revelou uma excelente consistência entre segmentações (DSC>0.81 ± 0.173). Lesões
apresentadas em artigos através de imagens de ressonância magnética resultaram em
segmentações com uma melhor sobreposição entre si, em comparação a imagens de tomografia
axial computorizada. Um ano mais recente de publicação e uma melhor qualidade de detalhe da
imagem (e.g. tamanho da imagem no artigo, resolução da imagem inerente à própria publicação
do artigo, obtenção do artigo através de uma digitalização ou não, entre outros) foram igualmente
relacionadas a coeficientes de Dice mais elevados. Relativamente às distâncias de Hausdorff
obtidas, o rater 2 mostrou uma consistência razoável (HD95=4.949 ± 4.993), na medida em que
não se verificaram diferenças significativas face à consistência do gold-standard (rater 1 across
rounds: HD95=4.416 ± 3.715). Foi igualmente observada uma concordância satisfatória entre
avaliadores (HD95=4.881 ± 4.336). As distâncias de Hausdorff mostraram ser sensíveis à variação
de volume das lesões e ao número de slices fornecidas no artigo relativas a uma mesma lesão.
Finalmente, comparações entre a complexidade das delineações das segmentações mostraram que
fronteiras segmentadas pelo rater 1 foram mais elaboradas, contrastivamente ao rater 2. No
entanto, não se verificaram diferenças significativas relativas ao grau de complexidade entre pares
de segmentação.
Comprova-se assim, que um avaliador não especialista apresenta uma satisfatória
consistência ao longo do tempo e uma elevada concordância com o gold-standard, validando
assim, este método de segmentação manual de lesões. A inclusão de um terceiro avaliador, não
especialista, poderia testar se, eventualmente, o desempenho do rater 2 pode ser generalizável.
Brain lesions studies have made major historical contributions to behavioral and cognitive neuropsychiatry. In fact, brain lesions have contributed to clarify associations between cognitive functions and brain structures or circuits, towards defining current models of brain architecture and function[1]. One of the most common approaches is to conduct a pooled analysis of brain lesions associated to a specific syndrome or diagnosis, after collecting clinical cases available in the published literature. However, this technique may have errors and remains to be fully explored and defined to date. One of the criticisms relies on the transformation of lesions reported in the article’s images to a standard brain space, i.e. lesion tracing, for which a standardized protocol has not been defined. The aim of this study was to determine the intra- and inter-rater accuracy of manual lesion tracing methods. Additionally, lesion and image acquisition characteristics that could induce variability in the segmentation process were also explored. To assess the accuracy of different lesion tracing methods, two groups of raters segmented 40 lesion images (from 40 patients) into the MNI space. The first group of raters was constituted by a researcher supervised by a neuroradiologist (rater 1, considered as the gold-standard) while the second was constituted by another researcher who is not a neuroradiologist (rater 2). Tracing was performed twice by both groups of tracers to further assess the consistency within each group. We have evaluated the resulting segmentations using volumetric, spatial overlap, distance- and complexity-based measures. Results indicate that rater 2 performed remarkably well, compared to the gold-standard (rater 1), since no statistical differences between them were found and a very high similarity emerged across all four metrics. Both raters also showed an excellent consistency across rounds of segmentation. This is an outstanding outcome, which validates different approaches used in manual lesion segmentation.
Brain lesions studies have made major historical contributions to behavioral and cognitive neuropsychiatry. In fact, brain lesions have contributed to clarify associations between cognitive functions and brain structures or circuits, towards defining current models of brain architecture and function[1]. One of the most common approaches is to conduct a pooled analysis of brain lesions associated to a specific syndrome or diagnosis, after collecting clinical cases available in the published literature. However, this technique may have errors and remains to be fully explored and defined to date. One of the criticisms relies on the transformation of lesions reported in the article’s images to a standard brain space, i.e. lesion tracing, for which a standardized protocol has not been defined. The aim of this study was to determine the intra- and inter-rater accuracy of manual lesion tracing methods. Additionally, lesion and image acquisition characteristics that could induce variability in the segmentation process were also explored. To assess the accuracy of different lesion tracing methods, two groups of raters segmented 40 lesion images (from 40 patients) into the MNI space. The first group of raters was constituted by a researcher supervised by a neuroradiologist (rater 1, considered as the gold-standard) while the second was constituted by another researcher who is not a neuroradiologist (rater 2). Tracing was performed twice by both groups of tracers to further assess the consistency within each group. We have evaluated the resulting segmentations using volumetric, spatial overlap, distance- and complexity-based measures. Results indicate that rater 2 performed remarkably well, compared to the gold-standard (rater 1), since no statistical differences between them were found and a very high similarity emerged across all four metrics. Both raters also showed an excellent consistency across rounds of segmentation. This is an outstanding outcome, which validates different approaches used in manual lesion segmentation.
Descrição
Tese de Mestrado Integrado, Engenharia Biomédica e Biofísica (Engenharia Clínica e Instrumentação Médica), 2022, Universidade de Lisboa, Faculdade de Ciências
Palavras-chave
Estudos de lesão Segmentação manual Métricas de avaliação Teses de mestrado - 2023
