Effect of pretraining on ‘explanations’ of deep learning models in the medical domain

Oliveira, Marta Sofia Rodrigues

http://hdl.handle.net/10451/58970

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
TM_Marta_Oliveira.pdf		11.23 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Oliveira, Marta Sofia Rodrigues

Orientador(es)

Haufe, Stefan

Andrade, Alexandre da Rocha Freire de

Resumo(s)

As Redes Neuronais Convolucionais (CNNs) são frequentemente utilizadas em medicina para executar diferentes tarefas. Um exemplo desta utilização é a classificação de imagens médicas. Assim, essa classificação pode ser designada de multi-classe ou binária. No primeiro caso, as CNNs conseguem prever, com elevada precisão, se um indivíduo apresenta ou não alguma das doenças pertencente ao conjunto para as quais o modelo foi treinado para reconhecer. No segundo caso, estes modelos permitem verificar e analisar se uma determinada imagem pertence a um indivíduo saudável ou se, por seu lado, são reveladoras de alguma patologia. Outra tarefa para a qual CNNs são frequentemente utilizadas é a segmentação de órgãos em imagens médicas. Estes modelos têm a capacidade de retirar informações complexas de dados pertencentes a milhões de pacientes, e utilizar esse conhecimento para tornar a medicina mais personalizada a cada indivíduo. No entanto, apesar do seu sucesso, estes modelos são caixas negras, extremamente complexos e difíceis de entender. Além disso, também não fornecem explicações ou justificações para as suas decisões. Isto é considerado um problema, especialmente em áreas de elevado risco como é o caso da medicina, principalmente se os modelos tiverem algum defeito inesperado, como por exemplo bias derivadas dos datasets utilizados para treinar os modelos. Numa tentativa de minimizar estes problemas, surgiu a área de estudo da inteligência artificial ‘explicável’ (XAI). Existem vários métodos de XAI os quais permitem obter explicações sobre as previsões realizadas por modelos de inteligência artificial. As ‘explicações’ fornecidas pelos métodos de XAI baseiam-se em características conhecidas dos modelos de inteligência artificial, tais como a propagação pelas diversas camadas do erro entre o esperado e o previsto. Existem vários estudos nesta área, no entanto, estes nem sempre se focam na análise quantitativa das explicações obtidas por métodos de XAI. A falta de investigação neste aspeto deve-se sobretudo à inexistência de uma ground truth que possa ser utilizada para comparar o obtido nas explicações com o que se espera obter por uma explicação ‘correta’. O objetivo deste trabalho passa, assim, por criar uma framework para quantificar a qualidade das explicações obtidas por métodos de XAI e utilizar esta framework para investigar como a transferência de conhecimento (TL) influencia as explicações. A TL consiste em treinar, inicialmente, um modelo numa tarefa para a qual existe uma grande quantidade de dados de treino etiquetados e após o treino utilizar os pesos aprendidos neste treino para classificar um novo problema (para o qual tipicamente se tem menos dados com etiquetas). A vantagem desta técnica é que, após o treino inicial, apenas é necessário ajustar os pesos do modelo para a nova tarefa (fine-tuning do modelo), sendo necessário uma menor quantidade de dados e potencialmente treinar apenas algumas das suas camadas. Por este motivo, a TL é muito utilizada em medicina, área onde as bases de dados existentes têm tendência a ser de reduzida dimensão e a obtenção de novos dados etiquetados difícil, demorada e dispendiosa. O treino inicial destes modelos é tipicamente feito recorrendo a imagens naturais para as quais existem enormes bases de dados, como a ImageNet. No entanto, existe na literatura a discussão sobre se o treino inicial deve ser feito com imagens naturais ou com imagens mais próximas do problema para o qual este modelo será utilizado, ou seja, imagens médicas. O principal argumento desta discussão sugere que o segundo caso é mais benéfico, uma vez que as formas existentes em imagens médicas são muito diferentes das formas que existem nas imagens naturais. Devido a esta diferença, a informação aprendida na primeira tarefa, pode não ser muito relevante para a segunda. A framework criada neste estudo permite gerar uma base de dados de imagens médicas sintéticas para as quais se conhece a ground truth, possibilitando, desta forma, a avaliação quantitativa das explicações que se obtêm com os métodos de XAI. Esta base de dados é composta por diversas imagens axiais de ressonância magnética (MRI) do cérebro às quais se adicionam lesões sintéticas hiperintensas. A quantidade de imagens criadas é variável e, a cada imagem, um número aleatório de lesões (entre 3 e 5) é adicionado em locais aleatórios. As lesões adicionadas à MRI são também criadas com formas aleatórias. O contraste entre as lesões e o cérebro pode também ser ajustada. As imagens do cérebro são obtidas do Human Connectome Program (HCP) e pertencem a indivíduos saudáveis entre os 22 e os 37 anos. A ground truth corresponde às lesões que são adicionadas à imagem de MRI do cérebro. Estas lesões são de dois tipos (regulares ou irregulares) e a tarefa para a qual os modelos em estudo são treinados consiste em distinguir entre estes dois tipos de lesão. As imagens do cérebro da base de dados criadas foram utilizadas para ajustar camada a camada CNNs previamente treinadas para outros problemas. Um destes modelos iniciais foi treinado com várias imagens naturais de 1000 categorias diferentes, pertencentes à base de dados ImageNet. O outro modelo foi treinado com MRIs axiais de cérebros sem lesões com o objetivo de as distinguir entre género feminino e masculino. Ambos os modelos utilizados neste trabalho têm a arquitetura VGG-16, sendo compostos por 16 camadas treináveis, 13 das quais convolucionais e as restantes fully connected. Destas CNNs pré-treinadas foram obtidos diversos modelos com vários graus de fine-tuning (de apenas 1 conjunto de camadas até à totalidade da arquitetura). Cada grau de fine-tuning corresponde às camadas existentes entre duas camadas de max-pooling consecutivas. As explicações foram obtidas por oito métodos de XAI. Após a obtenção das explicações, a ground truth foi utilizada para se calcular a qualidade da explicação, ou seja, qual a percentagem de pixeis mais relevantes da explicação que se encontram na ground truth. Os resultados experimentais deste trabalho, demonstram que existe uma grande dispersão de valores relativos à qualidade das explicações, havendo algumas com uma qualidade muito elevada e outras com uma qualidade mínima. Este comportamento observa-se para todos os métodos de XAI avaliados. Isto acontece mesmo quando apenas se consideram os exemplos corretamente classificados por todos os modelos de inteligência artificial em estudo. Este é o melhor cenário, uma vez que no mundo real, nunca se sabe se o modelo utilizado classificou o exemplo corretamente ou não, pelo que esta dispersão apenas pode aumentar. Destes resultados, observa-se também que a qualidade do modelo e a qualidade da explicação estão correlacionadas. Isto faz sentido uma vez que quanto mais exemplos o modelo conseguir classificar corretamente, mais significativas se espera que sejam as informações aprendidas por este. No entanto, quando apenas se avaliam modelos com precisão semelhante, verifica-se que as explicações dos modelos treinados inicialmente com imagens no mesmo domínio do problema (MRI do cérebro) têm uma melhor qualidade. Verifica-se, ainda assim que, em geral, a qualidade das explicações tende a aumentar com o aumento do grau de fine-tuning do modelo. Este comportamento é mais facilmente verificado para certos métodos de XAI como é o caso de Deconvolution e Guided Backpropagation. Também é possível verificar nos resultados obtidos que modelos inicialmente treinados com MRI de cérebros têm uma qualidade de explicação mais constante dos que os treinados inicialmente com imagens da base de dados ImageNet. No segundo caso, a qualidade das explicações diminui rapidamente com pequenas reduções da qualidade do modelo, o que não é tão visível no primeiro caso. Os resultados obtidos neste trabalho vão de encontro à linha de pensamento de que é mais benéfico utilizar modelos pré-treinados em problemas semelhantes àquele a que o modelo será aplicado. Este é o caso pelo menos para imagens médicas, em particular MRIs do cérebro, que foram o foco deste trabalho. Isto parece ser verdade mesmo quando os modelos obtidos apresentam menor precisão, já que as explicações parecem fornecer informação mais significativa do que quando as imagens utilizadas para treinar inicialmente o modelo pertencem a áreas mais distantes como, neste caso, imagens naturais. Além deste aspeto, os resultados sugerem que é importante continuar a investigar objetivamente e avaliar quantitativamente os métodos de XAI existentes e futuramente criados. Novos estudos que considerem esta avaliação recorrendo a ground truths parecem assim ser cruciais para que seja possível criar métodos melhores e mais robustos. Além disso, estes estudos permitirão ainda avaliar as implicações que a utilização dos métodos de XAI atualmente existentes tem em áreas de alto risco, como é o caso da medicina.

Convolutional Neural Networks (CNNs) are frequently and successfully used in the medical field. However, these are highly complex models that do not provide any explanation or justification for their predictions. ‘Explainable’ Artificial Intelligence (XAI) methods aim to address this issue by attributing scores of ‘importance’ to each input feature, as a form of explanation. Nevertheless, previous studies rarely evaluated quantitatively the ‘explanation performance’ of those explanations against ground-truth data. Transfer learning (TL) is often an integral part of medical image classification pipelines. This technique is used to improve the performance of a model when the training data is scarce. However, the influence of TL on objective measures of explanation performance has not been investigated. Here we create a framework to quantify explanation performance in a realistic magnetic resonance imaging (MRI) use case and use this framework to understand the influence of TL on the quality of explanations. Experimental results show that popular XAI methods applied to the same underlying model differ vastly in performance, even when considering only correctly classified examples. We further observe that explanation performance strongly depends on the prediction task used for pre-training and the degree of fine-tuning. An interesting result is that when two models perform similarly, better explanations are obtained for the model pre-trained with data in the problem’s domain. It is also noticeable that the explanation performance obtained from models that have been pre-trained with out-of-domain data, decreases quickly with small decreases in classification performance, which is less obvious for models that have been pre-trained with in-domain data. This study implies that it is better to use models that have been pre-trained in a similar problem domain, at least for medical images, which were the focus of the study. Besides this, the findings of this study highlight the importance of further objective evaluation of modern XAI methods to create better and more robust XAI methods.

Descrição

Tese de Mestrado, Engenharia Biomédica e Biofísica, 2023, Universidade de Lisboa, Faculdade de Ciências

Palavras-chave

Aprendizagem Automática Inteligência Artificial Explicável XAI Redes Neuronais Convolucionais Transferência de Conhecimento Teses de mestrado - 2023

URI

http://hdl.handle.net/10451/58970

Coleções

FC - Dissertações de Mestrado

Ver registo completo