ippg演算法
1. 什麼是區塊鏈技術區塊鏈技術的核心構成是什麼
從技術的角度,架構的角度,用通俗的語言來跟大家講講,我對區塊鏈的一些理解。
究竟啥是區塊鏈?Block chain,一句話來說,區塊鏈是一個存儲系統,存儲系統更細一點,區塊鏈是一個沒有管理員,每個節點都擁有全部數據的分布式存儲系統。
那常見的存儲系統,是什麼樣子的呢?
首先看一下如何保證高可用?
普通的存儲系統通常是用「冗餘」的方式來解決高可用問題的。圖上圖所示如果能夠把數據復製成幾份,冗餘到多個地方,就能夠保證高可用。一個地方的數據掛了,另外的地方還存有數據,例如MySQL的主從集群就是這個原理,磁碟的RAID也是這個原理。
這個地方需要強調的兩點是:數據冗餘,往往會引發一致性的問題
1、例如MySQL的主從集群中中其實讀寫會有延時的,它其實就是有一個短的時間內讀寫不一致。這個是數據冗餘,帶來的一個副作用。
2、第二個點是數據冗餘往往會降低寫入的效率,因為數據同步也是需要消耗資源的。你看單點寫入,如果加了兩個從庫之後,其實寫入的效率會受影響。普通的存儲系統,就是採用冗餘的方式,保證數據的高可用的。
那麼第二個問題,普通的存儲系統,能否多點寫入呢?
答案是可以的,比如說以這個圖為例:
其實MySQL的話可以做一個雙主的主從同步,雙主的主從同步,兩個節點,同時可以寫入。如果要做多機房多活的數據中心,其實多機房多活也是進行數據同步的。這里要強調的是多點寫入,往往會引發寫寫沖突的一致性問題,以MySQl為例,假設有一個表的屬性是自增ID,那麼現在資料庫中的數據是1234,那麼其中一個節點寫入,插入了一條數據,那它可能變成5了,然後這5條數據,向另外一個主節點進行數據同步,同步完成之前,如果另外一個寫入節點,也插入了一條數據,也生成了一條這個自增id為5的數據。那麼,生成之後,往另外一個節點同步,然後同步數據到達之後會與本地的這兩條5沖突,就會同步失敗,會引發寫寫的一致性沖突問題。這個多點寫入的話都會出現這個問題。
多點寫入,如何保證一致?
維新「天鵝大咖課」給你更多的技術幹活
2. 用TCP/IP協議組態工業乙太網,到底用哪一種CP343-1(共有三種)好呢
1.6GK7343-1CX00-0XE0CP343-1LEAN固定MAC地址,支持S5(最大8個連接)、S7(最大4個連接)、TCP/IP、UDP、PG(最大4個連接)通訊,總共最大12個連接。2.6GK7343-1EX11-0XE0CP343-1可變MAC地址,支持ISO、S5(最大16個連接)、S7(最大16個連接)、TCP/IP、UDP、PG(最大16個連接)通訊,總共最大32個連接。3.6GK7343-1EX20-0XE0CP343-1固定MAC地址,支持S5(最大16個連接)、S7(最大16個連接)、TCP/IP、UDP、PG(最大16個連接)通訊,總共最大48個連接。
3. 淺談策略梯度(PG)演算法
Policy Optimization(策略優化)是強化學習中的一大類演算法,其基本思路區別於Value-based的演算法。因此,很多教科書都將model-free RL分成兩大類,Policy Optimization和Value-based。本系列博客將會參考OpenAI發布的入門教程 Spinning Up [1] ,Spinning Up系列是入門Policy Optimization的非常好的教材,特別適合初學者。Policy Gradient(策略梯度,簡稱PG)演算法是策略優化中的核心概念,本章我們就將從最簡單的PG推導開始,一步步揭開策略優化演算法的神秘面紗。
如果用一句話來表達 策略梯度 的直觀解釋,那就是「如果動作使得最終回報變大,那麼增加這個動作出現的概率,反之,減少這個動作出現的概率」。這句話表達了兩個含義:
本節我們將一步步推導出策略梯度的基礎公式,這一小節非常重要,理解了推導過程,就基本上理解了策略梯度的核心思想。所以,一定要耐心的把這一小節的內容全部看懂,最好能夠達到自行推導的地步。
我們用參數化的神經網路表示我們的策略 ,那我們的目標,就可以表示為調整 ,使得 期望回報 最大,用公式表示:
在公式(1)中, 表示從開始到結束的一條完整路徑。通常,對於最大化問題,我們可以使用梯度上升演算法來找到最大值。
為了能夠一步步得到最優參數,我們需要得到 ,然後利用梯度上升演算法即可,核心思想就是這么簡單。
關鍵是求取最終的 回報函數 關於 的梯度,這個就是 策略梯度 (policy gradient),通過優化策略梯度來求解RL問題的演算法就叫做 策略梯度演算法 ,我們常見的PPO,TRPO都是屬於策略梯度演算法。下面我們的目標就是把公式(2)逐步展開,公式(2)中最核心的部分就是 ,這也是這篇博客最核心的地方。
在以上的推導中,用到了log求導技巧: 關於 的導數是 。因此,我們可以得到以下的公式:
所以,才有公式(5)到公式(6),接下來我們把公式(7)進一步展開,主要是把 展開。先來看看
加入log,化乘法為加法:
計算log函數的梯度,並且約去一些常量:
因此,結合公式(7)和公式(9),我們得到了最終的表達式
公式(10)就是PG演算法的核心表達式了,從這個公式中可以看出,我們要求取的策略梯度其實是一個期望,具體工程實現可以採用蒙特卡羅的思想來求取期望,也就是采樣求均值來近似表示期望。我們收集一系列的 ,其中每一條軌跡都是由agent採用策略 與環境交互采樣得到的,那策略梯度可以表示為:
其中, 表示采樣的軌跡的數量。現在,我們完成了詳細的策略梯度的推導過程,長舒一口氣,接下來的工作就比較輕鬆了,就是在公式(10)的基礎上修修改改了。
再進行簡單修改之前,我們再總結一下公式(10),畢竟這個公式是PG演算法最核心的公式:
我們繼續觀察公式(10),對於公式中的 ,表示整個軌跡的回報,其實並不合理。對於一條軌跡中的所有動作,均採用相同的回報,就相當於對於軌跡中的每一個動作都賦予相同的權重。顯然,動作序列中的動作有好有壞,都採取相同的回報,無法達到獎懲的目的,那我們該怎麼表示 「某個狀態下,執行某個動作」 的回報呢?
一種比較直觀思路是,當前的動作將會影響後續的狀態,並且獲得即時獎勵(reward),那麼我們只需要使用 折扣累計回報 來表示當前動作的回報就行了,用公式表示為:
這在spinning up中叫做reward to go,所以,公式(10)可以表示為:
當然,使用reward to go的權重分配還是相當初級,我們可以使用更加高級的權重分配方式,進一步減少回報分配的方差,限於篇幅原因,我們後續再聊。
本章我們花了大量的篇幅推導了策略梯度(PG)的核心公式,得到了關鍵表達式(10),理解該公式對於我們後續理解整個PG演算法族非常有幫助,希望大家能夠認真的理解這一公式推導過程。
我們是行者AI,我們在「AI+游戲」中不斷前行。
如果你也對游戲感興趣,對AI充滿好奇,就快來加入我們吧~
4. 西門子PLC如何通過網線設置IP
1、首先打開電腦上的網路共享中心。
5. 西門子200的PLC的乙太網模塊如何給它設定地址。可以直接通過網線進行設定么
在硬體組態界面里就可以設置其地址。
或者啟動在線查找,然後看找到的物理地址跟你要設定的那個模塊地址是否一致。
如果一致,就可以把你想要的IP地址賦給該模塊。主意:該IP地址必須跟PG的IP地址在同一網段。
6. pgp以及gnupg中使用了哪些加密演算法,以及此加密軟體的特點
這個我不清楚。
加密軟體,我使用的是文件夾加密超級大師。
文件夾加密超級大師支持所有windows系統,可以加密文件夾,加密文件,保護磁碟和數據粉碎,使用起來非常方便。
7. PgDip是什麼
PgDip:Postgraate Diploma。
研究生學習階段叫做Postgraate,它包括碩士階段和 博士階段兩個階段,與之相對應是Undergraate(本科階段),PgDip可以等同於國內的碩士研究生畢業(但沒有碩士學位),您也可以理解為碩士預科。
注意:
研究生主要分為碩士研究生及博士研究生,按學位類型分為學術型研究生及專業型研究生兩種。普通高等教育統招研究生包含全日制研究生和非全日制研究生,是通過全國碩士研究生和博士研究生統一招生考試或推免、申請考核來進行招生。
在職人員讀研在2017年以前主要是指在職研究生,主要通過十月聯考、同等學力申碩等方式進行招生。
從2017年起,傳統在職研究生取消,在全日制研究生教育基礎上設立非全日制研究生 ,非全日制研究生與全日制研究生一同參加12月底的全國碩士研究生統一招生考試(全國統考),劃定相同錄取分數線。
實行相同培養畢業標准,畢業時同樣獲得普通高等教育學歷證書及學位證書雙證,兩者僅學習形式不同,學歷類型均為普通高等教育(統招學歷),兩者學歷證及學位證證書具有同等法律地位和相同效力。