當前位置:首頁 » 操作系統 » ddpg演算法

ddpg演算法

發布時間: 2023-03-09 20:58:16

1. 如何建立自己的演算法交易

在股票市場中交易過兩、三年的人,幾乎都有一套自己的交易方法。
雖然你有方法但如果還沒有形成交易系統,那也先別著急去勉強建立,因交易系統是自然形成的.並不可人為刻意能建起來的。就好比計劃經濟與市場經濟不斷的適應市場的變化,時間長了,如果你還能在市場中生存.交易系統自然形成。而如果過早的固定自己的交易行為使之系統化,固定不變,在沒有充分的了解市場的前提下,面臨的只能是品嘗失敗。
一套自己的交易系統,不是一勞永益的蓋世絕招,而是你對市場每一個細微之處都能深入了解---達到很細微.並且很全面。要總結經驗,形成框架,這個框架就是你對市場的初步認識,它決定著你的行為,也就是你的交易。隨著研究的深入,逐漸系統化,而這個框架至關重要,決定你今後的發展方向,不要去計劃什麼,在你眼前只有一個目標,深入分析市場,不斷實踐總結,周而復始,直到有一天你的交易系統就會自然成型。
曾有一個用波浪理論的高手和我交流,他說其經常能夠預測到價格波動的高低點,並且因此而獲利。但總體上的交易成績並不是很理想。
在我的大多數朋友開始向我學習的時候,幾乎都有一些實戰經驗,事實上,很多人的成績相當不錯。但是在交易的系統性方面,卻有明顯的欠缺。
如果你想長期穩定的獲利,那麼整體的交易應該是一個過程,而絕不是簡簡單單的一次預測或者一次全倉買入。其間至少包括:
另一方面,大多數投機者相信有一個通向市場的魔術:一個指標,一個形態,或者一個機械的交易系統,他們還肯定一小部分人正在使用著-------我在網上還見過售價24萬元的一個公式,據說可百戰百勝--------他們努力的想揭開這個魔術的秘密,從此而獲利。
正確答案是:有,且答案就在你自己身上。
我可明確的告訴你:成功交易的一個秘密就是找到一套適合你的交易系統。這交易系統是非機械的,適合你自己個性的,有完善的交易思想、細致的市場分析和整體操作方案的。
交易系統,或說系統的交易方法,才是你長期穩定獲利的正確方法。

2. 如何建立自己的演算法交易

一、傳統方法

在某些假設下的顯式最優策略

  • 【Bertsimas, Dimitris, and Andrew W. Lo. "Optimal control of execution costs."Journal of Financial Markets1.1 (1998): 1-50.】這里假設了不同的價格沖擊函數,然後求解得到最優的交易執行方案。根據參數的不同,最優的策略要麼是全部開頭賣掉、均勻減倉、或者全部最後賣掉。https://stuff.mit.e/afs/athena.mit.e/user/d/b/dbertsim/www/papers/Finance/Optimal%20control%20of%20execution%20costs.pdf

  • 【Almgren, Robert, and Neil Chriss. "Optimal execution of portfolio transactions." Journal of Risk 3 (2001): 5-40. 】這篇文章我們專欄前面有講過,很著名的 Almgren-Chriss 模型。https://www.smallake.kr/wp-content/uploads/2016/03/optliq.pdf張楚珩:【交易執行】Almgren-Chriss Model

  • 【Guéant O, Lehalle C A, Fernandez-Tapia J. Optimal portfolio liquidation with limit orders[J]. SIAM Journal on Financial Mathematics, 2012, 3(1):740-764.】這篇文章我們專欄前面也有講過;前面的 Almgren-Chriss 其實考慮的是使用市價單,而這里考慮使用限價單進行交易。https://arxiv.org/pdf/1106.3279.pdf張楚珩:【交易執行】限價單交易執行

  • 【Guéant, Olivier, and Charles‐Albert Lehalle. "General intensity shapes in optimal liquidation." Mathematical Finance 25.3 (2015): 457-495.】這里也是考慮限價單進行交易,但是與前面不同的是:前一個假設限價單考慮的成交概率隨著價格指數衰減,而這里考慮了一個更加一般的形式。https://arxiv.org/pdf/1204.0148.pdf

  • 【Cartea A, Jaimungal S. Optimal execution with limit and market orders[J]. Quantitative Finance, 2015, 15(8): 1279-1291.】這里考慮同時使用限價單和市價單進行交易,從而能夠完成 Almgren-Chriss 模型所規定的方案,或者找到一個更有的交易方案。https://sci-hub.se//https://www.tandfonline.com/doi/abs/10.1080/14697688.2015.1032543

  • 【Bulthuis, Brian, et al. "Optimal execution of limit and market orders with trade director, speed limiter, and fill uncertainty." International Journal of Financial Engineering 4.02n03 (2017): 1750020.】也是考慮使用限價單和市價單一起交易。https://arxiv.org/pdf/1604.04963.pdf張楚珩:【交易執行】市價單+限價單 最優執行

  • 【Cartea A, Jaimungal S. Incorporating order-flow into optimal execution[J]. Mathematics and Financial Economics, 2016, 10(3): 339-364.】這里考慮市場所有交易者的訂單都會產生線性的短期/長期市場沖擊,因此可以估計未來一段時間的訂單流向(買單總量和賣單總量的差),從而能夠在 Almgren-Chriss 模型的基礎上進行一定的調整,使得策略更優。https://sci-hub.se//https://link.springer.com/content/pdf/10.1007/s11579-016-0162-z.pdf

  • 圖書

  • 【Cartea Á, Jaimungal S, Penalva J. Algorithmic and high-frequency trading[M]. Cambridge University Press, 2015.】講交易執行的基礎上,更側重講了一些數學工具。

  • 【Guéant O. The Financial Mathematics of Market Liquidity: From optimal execution to market making[M]. CRC Press, 2016.】從 Almgren-Chriss 模型開始講,一直到相應的拓展和實際的問題,十分推薦。

  • 融合對於市場環境隱變數的估計

  • 【Casgrain P, Jaimungal S. Trading algorithms with learning in latent alpha models[J]. Mathematical Finance, 2019, 29(3): 735-772.】市場交易者會根據不同的市場掛單和價格走勢而採取不同的反映,因此我們也可以根據歷史數據學習到各種情況下的價格後驗分布,從而更好地幫助我們進行交易執行或者套利。最後的結果可以看做在 Almgren-Chriss 模型的基礎上外加了一個調控項,反映我們對於未來的預期。https://arxiv.org/pdf/1806.04472.pdf

  • 如何實現以按量加權平均價格(VWAP)交易

  • 【Kakade, Sham M., et al. "Competitive algorithms for VWAP and limit order trading." Proceedings of the 5th ACM conference on Electronic commerce. 2004.】從在線學習的角度提出了幾個用於使得我們交易到 VWAP 價格的模型。為什麼會關注 VWAP 的交易執行?當大的流通股股東需要減持的時候,為了避免直接出售引起的價格波動,一般是把需要減持的股票賣給券商,然後由券商來拆單出售,而交易價格一般為未來一段時間的 VWAP,因此券商需要盡量以 VWAP 來交易執行。https://sci-hub.se//https://dl.acm.org/doi/abs/10.1145/988772.988801

  • 【Białkowski, Jędrzej, Serge Darolles, and Gaëlle Le Fol. "Improving VWAP strategies: A dynamic volume approach." Journal of Banking & Finance 32.9 (2008): 1709-1722.】改進對於交易量的建模,從而得到更好的 VWAP 交易演算法。把交易量拆分為兩個部分,一部分是市場整體的交易量變動,另一部分是特定股票上的交易量模式。https://sci-hub.se//https://www.sciencedirect.com/science/article/pii/S0378426607003226

  • 以按時間加權平均價格(TWAP)交易

  • 為了對稱,可以介紹一下另一種加權平均的情形 TWAP,這種情形實現起來相對比較簡單;如果不考慮市場沖擊,就拆分到每個時間步上均勻出售即可實現。

  • 可以證明 TWAP 交易在以下兩種情形下最優:市場價格為布朗運動並且價格沖擊為常數;對於晚交易沒有懲罰(其實更晚交易意味著面臨更大的風險),但是對於最後未完成交易的懲罰較大。

  • 二、強化學習方法

    基於傳統模型的強化學習方法

  • 【Hendricks D, Wilcox D. A reinforcement learning extension to the Almgren-Chriss framework for optimal trade execution[C]//2014 IEEE Conference on Computational Intelligence for Financial Engineering & Economics (CIFEr). IEEE, 2014: 457-464.】本專欄有講。https://arxiv.org/pdf/1403.2229.pdf

  • 強化學習 + 交易執行(Paper/Article)

  • 【Nevmyvaka Y, Feng Y, Kearns M. Reinforcement learning for optimized trade execution[C]//Proceedings of the 23rd international conference on Machine learning. 2006: 673-680.】比較經典的一篇,發在 ICML 上,本專欄前面有講。使用 DQN 方法,實現形式接近 DP。http://smallake.kr/wp-content/uploads/2019/01/rlexec.pdf

  • 【Dabérius K, Granat E, Karlsson P. Deep Execution-Value and Policy Based Reinforcement Learning for Trading and Beating Market Benchmarks[J]. Available at SSRN 3374766, 2019.】使用了 DDQN 和 PPO 方法,基於生成的價格序列來進行實驗,使用特定的模型考慮短期和長期市場沖擊。https://sci-hub.se//https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3374766

  • 【Ning B, Lin F H T, Jaimungal S. Double deep q-learning for optimal execution[J]. arXiv preprint arXiv:1812.06600, 2018.】DDQN 的強化學習解法,在美股上實驗。https://arxiv.org/pdf/1812.06600.pdf

  • 【Lin S, Beling P A. An End-to-End Optimal Trade Execution Framework based on Proximal Policy Optimization[C]//IJCAI. 2020: 4548-4554.】使用 PPO 的解法,比較有意思的是這裡面的實驗結果顯示,使用 LSTM 和把歷史數據全部堆疊起來用 MLP 效果差距不大。也是在美股上實驗。https://www.ijcai.org/Proceedings/2020/0627.pdf

  • 【Fang Y, Ren K, Liu W, et al. Universal Trading for Order Execution with Oracle Policy Distillation[J]. arXiv preprint arXiv:2103.10860, 2021.】在使用強化學習的基礎上,引入了一個教師網路,教師網路學習一個基於未來數據的策略,並且用於訓練學生網路。本專欄前面有講。https://www.aaai.org/AAAI21Papers/AAAI-3650.FangY.pdf

  • 【Vyetrenko S, Xu S. Risk-sensitive compact decision trees for autonomous execution in presence of simulated market response[J]. arXiv preprint arXiv:1906.02312, 2019.】ICML-19 的文章。構造了一個可以反映市價單市場沖擊的模擬器;使用 tabular Q-learning 來學習基於決策樹的模型;使用特徵選擇的方法來篩選特徵。通過以上方式,能夠學習到一個模型幫助決策什麼時候應該下市價單、什麼時候應該下限價單。https://arxiv.org/pdf/1906.02312.pdf

  • 【Akbarzadeh N, Tekin C, van der Schaar M. Online learning in limit order book trade execution[J]. IEEE Transactions on Signal Processing, 2018, 66(17): 4626-4641.】從 online learning 的視角來解決這個問題,使用 DP 類的方法,分析 regret 。http://repository.bilkent.e.tr/bitstream/handle/11693/50289/Bilkent-research-paper.pdf?sequence=1

  • 【Wei H, Wang Y, Mangu L, et al. Model-based reinforcement learning for predictions and control for limit order books[J]. arXiv preprint arXiv:1910.03743, 2019.】專欄剛剛講了的一篇文章,使用 model-based 類的強化學習演算法,直接學習一個世界模型,然後讓強化學習策略通過和世界模型的交互進行學習。https://arxiv.org/pdf/1910.03743.pdf

  • 【Karpe M, Fang J, Ma Z, et al. Multi-agent reinforcement learning in a realistic limit order book market simulation[J]. arXiv preprint arXiv:2006.05574, 2020.】這里的多智能體似乎適用於結合歷史數據生成其他市場參與者的動作,而最優策略的學習仍然是使用單智能體 DDQN 方法來做。他們開源了一個考慮多智能體的模擬環境 ABIDES。https://arxiv.org/pdf/2006.05574.pdf

  • 【Schnaubelt M. Deep reinforcement learning for the optimal placement of cryptocurrency limit orders[J]. European Journal of Operational Research, 2022, 296(3): 993-1006.】研究數字貨幣上如何下限價單。對比了 PPO 和 DDQN,發現 PPO 更好。探索出了一些重要的因子,比如 current liquidity cost,queue imbalance 等。https://www.econstor.eu/bitstream/10419/216206/1/1696077540.pdf

  • 強化學習 + 交易執行 (Thesis)

  • 【Hu R. Optimal Order Execution using Stochastic Control and Reinforcement Learning[J]. 2016.】KTH (瑞典)工程學院碩士論文。演算法直接是基於價值函數的動態規劃。不過提供了比較詳細的模擬環境和演算法偽代碼。https://www.diva-portal.org/smash/get/diva2:963057/FULLTEXT01.pdf

  • 【Rockwell B. Optimal Order Execution with Deep Reinforcement Learning[J]. 2019.】加拿大蒙特利爾高等商學院碩士論文。使用 TD3 和 DDPG 演算法,不過實驗是基於人工生成的數據的(skew-normal Brownian motion)。https://biblos.hec.ca/biblio/memoires/m2019a628776.pdf

  • 【Reiter M B. An Application of Deep Reinforcement Learning for Order Execution[D]. School of Engineering Science, Osaka University, 2020.】多倫多大學本科畢業論文。在使用 A3C 演算法的基礎上,考慮了使用教師學生網路的方式進行遷移學習,並且考慮了短期市場沖擊。https://mbreiter.github.io/doc/thesis.pdf

  • 強化學習 + 風險偏好

  • Robust Risk-Sensitive Reinforcement Learning Agents for Trading Markets

  • Deep equal risk pricing of financial derivatives with non-translation invariant risk measures

  • 強化學習 + 做市策略

  • Optimal Market Making by Reinforcement Learning

  • Optimizing Market Making using Multi-Agent Reinforcement Learning

  • Deep Reinforcement Learning for Market Making

  • Deep Recurrent Q-Networks for Market Making

  • Robust Market Making via Adversarial Reinforcement Learning

  • Market making via reinforcement learning

  • 強化學習 + 資產組合

  • Deep Stock Trading: A Hierarchical Reinforcement Learning Framework for Portfolio Optimization and Order Execution

  • Robo-Advising: Enhancing Investment with Inverse Optimization and Deep Reinforcement Learning

  • Large Scale Continuous-Time Mean-Variance Portfolio Allocation via Reinforcement Learning

熱點內容
java崗位職責 發布:2025-08-22 04:31:19 瀏覽:339
易語言取ip源碼 發布:2025-08-22 04:23:05 瀏覽:769
伺服器主板故障聲音怎麼設置消除 發布:2025-08-22 04:19:25 瀏覽:984
包名androidstudio 發布:2025-08-22 04:19:25 瀏覽:37
從哪裡給微信加密碼 發布:2025-08-22 04:12:44 瀏覽:276
個人雲存儲哪個好 發布:2025-08-22 04:12:36 瀏覽:181
劉老根4下載ftp 發布:2025-08-22 04:12:29 瀏覽:580
加密方式代碼 發布:2025-08-22 04:11:22 瀏覽:216
互聯網根伺服器什麼時候移交中國 發布:2025-08-22 04:06:40 瀏覽:501
安卓喇叭哪個牌子好 發布:2025-08-22 03:49:09 瀏覽:832