Repository logo
 
No Thumbnail Available
Publication

Automatic detection of beaked whale echolocation clicks via convolutional neural networks

Use this identifier to reference this record.
Name:Description:Size:Format: 
TM_Tomás_Gueifão.pdf9.55 MBAdobe PDF Download

Abstract(s)

In ecological studies, over recent decades, biological datasets have increased rapidly, both in size and complexity. This emphasises the necessity for ecologists to have practical tools to analyse this abundance of data and an understanding of modern techniques. Here, machine learning plays an important role since it automates and streamlines the process, enhancing efficiency in analysing and understanding the large amount of data available. Using data collected primarily from digital acoustic tags (DTAGs) attached to Blainville’s beaked whales (Mesoplodon densirostris), supplemented by additional information from Cuvier’s beaked whales (Ziphius cavirostris), the goal of this thesis was to develop a modern machine learning model capable of automatically identifying the distinct echolocation clicks emitted by these species using deep learning techniques via convolutional neural networks (CNNs). Two distinct experiments were conducted. Firstly, to evaluate the models’ classification capabilities. Secondly, an existing echolocation click detector tool was compared to the CNN models developed in this study. Each experiment included multiple scenarios, consisting of different dataset configurations and objectives, that were assessed using accuracy, recall, precision, and F1-score. The CNN developed in this study, designed as a binary classifier for detecting the presence or absence of Cuvier’s beaked whales, achieved an F1-score of 93.28% when applied to 15.8 hours of data, which corresponded to 27568 correctly classified audio segments and 802 incorrectly classified. While the CNN model developed for Blainville’s beaked whales achieved an F1-score of 84.12% when applied to 3.4 hours of data, which corresponded to 5544 correctly classified audio segments and 521 incorrectly classified. The difference in performance between Cuvier’s and Blainville’s beaked whale models could be attributed to data scarcity. By developing these CNN models, the aim was to identify echolocation clicks and, furthermore, to provide a steppingstone for accurately estimating population densities, which can be done by resorting to methodologies such as cue counting.
A última parte do século XX marcou uma mudança sem precedentes, na qual se transitou de tecnologias mecânicas e analógicas para tecnologias eletrónicas digitais, permitindo maior acessibilidade a equipamentos digitais a preços mais acessíveis. Esta revolução do mecânico e analógico para o digital transformou a capacidade de armazenamento dos equipamentos e a partilha de dados. Consequentemente, em campos de estudo como a ecologia, os conjuntos de dados biológicos têm crescido tanto em tamanho quanto em complexidade nas últimas décadas. Isto enfatiza a necessidade de os ecologistas terem acesso a novas ferramentas práticas capazes de analisar esta abundância de dados e de uma compreensão abrangente das técnicas modernas empregadas. No contexto da proteção da vida selvagem, torna-se essencial desenvolver uma compreensão profunda das populações atuais de várias espécies e das tendências nos seus números ao longo do tempo. Avaliar eficazmente a abundância de animais num determinado local e determinar se as suas populações estão a aumentar ou a diminuir representa um desafio considerável para os cientistas. Aqui, o machine learning desempenha um papel crucial, pois automatiza e agiliza o processo, aumentando a eficiência na análise e compreensão da grande quantidade de dados disponíveis. Os mamíferos marinhos, especialmente golfinhos e baleias, dependem fortemente do som, utilizando a emissão de sinais acústicos e a interpretação dos seus ecos, um processo designado por ecolocalização, para aspetos essenciais das suas vidas, como a alimentação, a comunicação e a navegação no ambiente. No entanto, devido à crescente poluição sonora marítima resultante de diversas atividades humanas, muitas dessas espécies têm sido seriamente afetadas nas suas atividades essenciais, levando, em alguns casos, a consequências fatais. Para avaliar a extensão destes impactos e criar medidas de conservação eficazes, a aplicação de técnicas de monitorização acústica passiva torna-se imperativa. A monitorização acústica passiva envolve a utilização de dispositivos de gravação subaquáticos para captar os sons produzidos pelos animais, permitindo aos cientistas monitorizar as suas atividades sem os perturbar. Consequentemente, existe uma procura constante por metodologias capazes de monitorizar as tendências populacionais destes animais. Uma metodologia que se tem destacado é a estimativa da densidade de monitorização acústica passiva (PAMDE). Um método dentro do PAMDE é a contagem de indícios (cue counting), através do qual os cientistas aproveitam os sons emitidos pelos animais para estimar com precisão a sua densidade. Tendo em conta a aplicação crescente de métodos como o PAMDE, o objetivo desta tese centrou-se em desenvolver um modelo moderno de machine learning focado na identificação automática dos cliques de ecolocalização distintos emitidos por duas espécies de baleias-de-bico, nomeadamente baleias-de-bico de Blainville (Mesoplodon densirostris) e baleias-de-bico de Cuvier (Ziphius cavirostris), utilizando técnicas de deep learning através de redes neurais convolucionais (CNNs). Numa fase posterior, os cliques identificados poderão ser utilizados para aplicar métodos de PAMDE, permitindo assim uma estimativa mais precisa das populações dessas espécies. A recolha de dados para estas espécies foi feita através da fixação de tags acústicas digitais (DTAGs). Os dispositivos DTAG foram fixados em animais com ventosas. Este procedimento envolveu a utilização de uma vara especializada equipada com a DTAG na sua extremidade, que, quando uma baleia emergia para respirar, era aderida à região dorsal da baleia. A duração da gravação de dados pelo dispositivo dependia da sua capacidade de memória e da frequência com que recolhia áudio. Uma vez separada do animal, a DTAG flutuava à superfície da água e, para auxiliar na sua recuperação, emitia um sinal de rádio de frequência muito elevada (VHF), possibilitando a localização e recuperação das tags. O som recolhido pelas DTAGs foi analisado e transformado em espectrogramas, os quais correspondem a representações visuais das frequências de um sinal ao longo do tempo, mostrando a intensidade das diversas frequências como diferentes cores ou níveis de brilho. Esta transformação é crucial para a análise de sinais acústicos complexos, permitindo a visualização e identificação de padrões, como os cliques de ecolocalização emitidos pelas baleias. A recolha de dados para as baleias-debico de Blainville abrangeu o período de 2003 a 2017, enquanto para as baleias-de-bico de Cuvier os dados foram recolhidos de 2003 a 2013. As baleias-de-bico de Blainville foram etiquetadas em locais distintos, nomeadamente nas Bahamas e em El Hierro, nas Canárias. Da mesma forma, as baleias-de-bico de Cuvier foram etiquetadas em duas regiões geográficas distintas: Ligúria, em Itália, e sul da Califórnia. Os dados referentes a estas espécies na tese foram disponibilizados pelo projeto ACCURATE, inicialmente começando a trabalhar apenas com baleias-de-bico de Blainville e depois suplementando esses dados com informações adicionais das baleias-de-bico de Cuvier. A principal razão para a escolha destas espécies residiu no facto de serem as que continham a maior quantidade de dados recolhidos. Para treinar as CNNs, os espectrogramas dos cliques de ecolocalização foram utilizados como dados de entrada. Uma vez que estas redes neurais são especialmente eficazes para o processamento de dados visuais, o objetivo era que, durante o treino, as CNNs aprendessem a reconhecer padrões específicos nos espectrogramas que correspondiam aos cliques de ecolocalização das baleias-de-bico de Blainville e de Cuvier. O intuito era que as redes neurais demonstrassem a capacidade de identificar as vocalizações produzidas por estas baleias de uma forma automática e precisa. Este processo de treino envolveu a exposição das redes a milhares de exemplos de espectrogramas manualmente classificados, permitindo que a rede ajustasse os seus parametros para minimizar a diferença entre as suas previsões e os dados reais. No decorrer da tese, foram realizadas duas experiências distintas para avaliar a eficácia dos modelos desenvolvidos. Primeiramente, foi conduzida uma avaliação das capacidades de classificação dos modelos de CNN. Esta fase foi crucial para determinar se as CNNs podiam identificar corretamente os cliques de ecolocalização em condições distintas. Em segundo lugar, foi feita uma comparação entre uma ferramenta existente de deteção de cliques de ecolocalização e os modelos de CNN desenvolvidos neste estudo. Este passo foi essencial para validar a eficácia dos novos modelos em relação às soluções previamente disponíveis. A comparação envolveu o uso dos mesmos conjuntos de dados para garantir uma avaliação justa e objetiva das capacidades dos modelos de CNN em identificar os cliques de ecolocalização. Cada uma das experiências incluiu múltiplos cenários, consistindo em diferentes configurações de conjuntos de dados e objetivos específicos. Estas configurações variaram em termos de complexidade e características dos dados, permitindo uma análise abrangente da performance dos modelos em diversas situações. Para avaliar os resultados, foram utilizados vários critérios de desempenho, incluindo a exatidão (accuracy), a sensibilidade (recall), a precisão e uma métrica combinada conhecida como F1-score. O F1-score, em particular, é uma métrica importante que considera a precisão e o recall, fornecendo uma visão equilibrada da eficácia dos modelos. A CNN desenvolvida neste estudo, projetada como um classificador binário para detetar a presença ou ausência de baleias-de-bico de Cuvier, alcançou um F1-score de 93,28% quando aplicada a 15,8 horas de dados, o que correspondeu a 27.568 segmentos de áudio corretamente classificados e 802 incorretamente classificados. Enquanto que o modelo de CNN desenvolvido para as baleias-de-bico de Blainville alcançou um F1-score de 84,12% quando aplicado a 3,4 horas de dados, o que correspondeu a 5.544 segmentos de áudio corretamente classificados e 521 incorretamente classificados. A diferença no desempenho entre os modelos das baleias-de-bico de Cuvier e das baleias-de-bico de Blainville pode ser atribuída à escassez de dados. Através do desenvolvimento destes modelos de CNN, o objetivo foi não só identificar cliques de ecolocalização de maneira automática, mas também fornecer uma base sólida para futuras aplicações de métodos de PAMDE. A identificação precisa dos cliques é um passo crucial para a estimativa de densidades populacionais, permitindo que os cientistas apliquem metodologias como a contagem de indícios em conjuntos de dados vastos mais rapidamente e com um grau de eficácia igual ou superior.

Description

Trabalho de projeto de mestrado, Bioestatística, 2024, Universidade de Lisboa, Faculdade de Ciências

Keywords

Bioacústica Redes Neurais Convolucionais Machine Learning Deep Learning Baleia de bico Trabalhos de projeto de mestrado - 2024

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue

Publisher

CC License