Reinforcement Learning aplicado ao trading

Pires, Diogo Miguel Teixeira Estevinho

http://hdl.handle.net/10451/48146

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
ulfc126321_tm_Diogo_Pires.pdf		624.26 KB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Pires, Diogo Miguel Teixeira Estevinho

Orientador(es)

Mendes, Diana E. Aldea

Resumo(s)

Neste trabalho desenvolve-se um algoritmo de trading aplicado ao mercado cambial. O algoritmo é obtido através de Reinforcement Learning. Propõe-se um processo de decisão de Markov para modelar o problema do trading de um ativo e usa-se o algoritmo model-free chamado Q-Learning com uma rede neuronal com 2 camadas ocultas de 40 células cada como função aproximação para resolvê-lo. Optou-se por uma função recompensa que calcula a variação percentual do valor da carteira e por um espaço de ações discreto onde as únicas opções são abrir uma posição longa/curta ou não abrir nenhuma posição. O algoritmo é testado em quatro pares de moedas, EUR/USD, GBP/USD, USD/JYP, USD/CHF, entre abril de 2015 e março de 2020. Além disso, o algoritmo é corrido várias vezes para cada par com o objetivo de testar a consistência do mesmo. Dois valores para o spread são utilizados. Os resultados são, em média, consistentes e positivos. Observa-se também um declínio da performance com o aumento do spread.

In this work, a trading algorithm applied to the foreign exchange market is developed. The algorithm is obtained through Reinforcement Learning. A Markov decision process is proposed to model the problem of trading an asset and a model-free algorithm called Q-Learning is used with a neuronal network with 2 hidden layers of 40 cells each, as an approximation function, to solve it. We opted for a reward function that calculates the percentage variation of the portfolio's value and for a discrete action space where the only options are to open a long/short position or to open no position at all. The algorithm is tested on four currency pairs, EUR/USD, GBP/USD, USD/JYP, USD/CHF, between April 2015 and March 2020. Besides that, the algorithm is run several times for each pair to test its consistency. Two values for the spread are used. The results are, on average, consistent and positive. There is also a decline in the performance with the increase of the spread.

Descrição

Tese de mestrado, Matemática Financeira, Universidade de Lisboa, Faculdade de Ciências, 2020

Palavras-chave

Reinforcement Learning Q-Learning Redes neuronais Mercado cambial Teses de mestrado - 2020

URI

http://hdl.handle.net/10451/48146

Coleções

FC - Dissertações de Mestrado

Ver registo completo