Publicação
Automatic detection of anomalous user access patterns to sensitive data
| datacite.subject.fos | Departamento de Informática | pt_PT |
| dc.contributor.advisor | Ferreira, Pedro Miguel Frazão Fernandes | |
| dc.contributor.advisor | Alegria, José | |
| dc.contributor.author | Pina, Mariana | |
| dc.date.accessioned | 2019-12-16T16:16:51Z | |
| dc.date.available | 2019-12-16T16:16:51Z | |
| dc.date.issued | 2019 | |
| dc.date.submitted | 2019 | |
| dc.description | Tese de mestrado, Informática, Universidade de Lisboa, Faculdade de Ciências, 2019 | pt_PT |
| dc.description.abstract | Esta dissertação foi realizada por uma aluna da Faculdade de Ciências da Universidade de Lisboa, com licenciatura em Matemática Aplicada e atualmente a frequentar o mestrado em Informática. A proposta desta dissertação veio do departamento de Cibersegurança (DCY) da Altice Portugal (MEO) e a área de especialização é aprendizagem máquina (machine learning). Nos últimos anos, especialmente em grandes organizações, o roubo de informação confidencial tem vindo a ser uma problemática cada vez maior. Este tipo de ataque tem, normalmente, duas origens distintas: colaboradores maliciosos ou malware instalado, possivelmente proveniente de um ataque de phishing. No entanto, atividade anónima sem intenção maliciosa também pode ser relevante, pois pode ser um indicador de um uso incorreto de recursos da rede ou de uma violação de política. Este trabalho aborda este problema de segurança através da aplicação de técnicas de aprendizagem máquina com o objetivo de detetar anomalias, correspondentes a atividades ilícitas, no registo de acessos a dados de informações de clientes e/ou meta-dados feitos por utilizadores de backoffice,. Um dos objetivos é a distinção dessas anomalias, mais concretamente, a classificação dessas situações de roubo de informação confidencial em diferentes tipos, para que as pessoas responsáveis pela parte posterior da investigação interna saibam o que devem procurar. Para além disso, procuramos reduzir ao máximo o número de falsos positivos, mantendo um grau de deteção elevado. Anteriormente, a empresa realizou um projeto com o mesmo objetivo final, no entanto, com uma metodologia completamente distinta. Nesse projeto foram aplicados métodos de estatística descritiva e heurísticas simples para a deteção de anomalias, tendo sido intitulou de Cuscos. O projeto Cuscos detetou um número bastante elevado de anomalias (1800), contudo identificou-se um número muito alto de possíveis falsos positivos, tendo sido uma problemática. Adicionalmente, a impossibilidade de distinguir os diferentes tipos de atividade ilícita, constituiu um obstáculo, tendo, assim, cada anomalia que ser estudada individualmente para que se descobrisse a sua causa. Como se pode ver pelos objetivos acima descritos, este projeto procura solucionar estas dificuldades. Primeiro, fez-se uma caracterização estatística dos dados, onde se decidiu que características (features) dos dados originais deviam ser criadas ou extraídas para a construção de conjuntos de dados (datasets) e, posteriormente, para a aplicação dos algoritmos de aprendizagem máquina (machine learning) escolhidos. Nesta, foram consideradas duas abordagens: uma em ordem aos utilizadores e outra direcionada aos números de telefone. Como tal, foram criados dois conjuntos de dados, um para cada abordagem. De seguida, executaram-se os procedimentos necessários de pré-processamento e normalização dos dados. Finalmente, foram aplicados algoritmos de agrupamento de dados e deteção de anomalias aos conjuntos de dados criados. Os algoritmos de agrupamento de dados considerados foram: k-means, DBSCAN e affinity propagation; e os algoritmos de deteção de anomalias escolhidos foram: elliptic envelope e isolation forest. Para determinar os parâmetros adequados de cada um desses algoritmos, foram definidos intervalos de parâmetros e criadas tabelas de pontuação com os resultados obtidos a partir da aplicação desses algoritmos com as diferentes combinações de parâmetros. Para obter resultados específicos para diferentes perspetivas analíticas, além de serem aplicados em todo o conjunto de dados construído, os algoritmos também foram aplicados a diferentes combinações de algumas de suas características. Tendo em conta que as anomalias finais são referentes a utilizadores, os resultados da abordagem dos números de telefone tiveram de ser convertidos, isto é, os utilizadores que acederam aos números de telefone considerados como anomalias pela aplicação dos algoritmos substituíram os números de telefone, sendo, assim, os utilizadores as anomalias consideradas. Em cada abordagem, foi escolhido um método de ensemble para decidir quais dos utilizadores detetados seriam considerados anomalias finais. Finalmente, obtiveram-se os resultados finais através de um ensemble por união do conjunto de resultados de ambas as abordagens e, posteriormente, criaram-se regras de decisão para classificar as anomalias em diferentes categorias. Os resultados finais cumpriram todos os objetivos: detetaram-se anomalias relevantes de situações correspondentes a acessos ilícitos, reduziu-se o número de falsos positivos e cada anomalia detetada está classificada consoante o tipo de comportamento que representa. | pt_PT |
| dc.description.abstract | In recent years, especially in large organizations, the theft of valuable information has increasingly become a major problem. This project focuses on users access to information related to customer telephone numbers inside a telecom company. The objective is to, through machine learning techniques, detect illicit accesses to this information, focusing on those likely to match information theft actions. First, we made a statistical characterization of the data. Decided which features should be created or extracted from data to build the necessary datasets (two different approaches) to apply the algorithms, and then the required pre-processing and normalization procedures were executed. Finally, we applied clustering and anomaly detection algorithms to detect anomalies in the datasets. The algorithms considered were: k-means, DBSCAN, affinity propagation clustering methods, elliptic envelope and isolation forest anomaly detection methods. To determine optimal parameters for the algorithms on this data, parameter ranges were defined and score tables were created with the results obtained from different combinations of parameters. To obtain specific results for different analytic perspectives, besides being applied on the entire datasets built, the algorithms were also applied to different combinations of some of their features. Finally, after the algorithms application, ensemble methods were chosen and decision rules were created to classify the anomalies in different categories. The final results met all objectives. Relevant anomalies were detected in situations corresponding to illicit accesses, the number of false positives was reduced and each detected anomaly is classified according to the type of behavior it represents. | pt_PT |
| dc.identifier.tid | 202388263 | pt_PT |
| dc.identifier.uri | http://hdl.handle.net/10451/40586 | |
| dc.language.iso | eng | pt_PT |
| dc.subject | Aprendizagem automática | pt_PT |
| dc.subject | Cibersegurança | pt_PT |
| dc.subject | Roubo de informação | pt_PT |
| dc.subject | Deteção de anomalias | pt_PT |
| dc.subject | Teses de mestrado - 2019 | pt_PT |
| dc.title | Automatic detection of anomalous user access patterns to sensitive data | pt_PT |
| dc.type | master thesis | |
| dspace.entity.type | Publication | |
| rcaap.rights | openAccess | pt_PT |
| rcaap.type | masterThesis | pt_PT |
| thesis.degree.name | Tese de mestrado em Informática | pt_PT |
