ai演算法的安全性
❶ 人工智慧軟體的分析與驗證(1) - AI軟體的可靠性
隨著深度學習革命的不斷發展,AI演算法驅動的軟體產品越來越影響我們的生活。比如人臉識別、機器翻譯等應用越來越廣泛,技術也在像縱深方向發展,比如像自動駕駛從L2向L5不斷迭代。
但是,一個硬幣往往是有兩面的,隨著AI軟體復雜性的提升,可靠性問題、安全問題的重要性也成為躲不過的關口。
演算法工程師的技術棧也是有限的,對於傳統的軟體工程、軟體分析、軟體驗證等方向上加的技術點容易不足。所以指望演算法工程師同學靠自測來避免可靠性問題可能並不是銀彈,我們需要一個跨學科的方法論來征服這片新大陸。
按照中國計算機學會軟體工程專業委員會2020年發布的《智能軟體可靠性的研究進展與趨勢》的分類,AI軟體可靠性的分類如下圖所示:
其中上面的部分,也就是數據可靠性的部分,是演算法同學們比較熟悉的,不僅受過專業的訓練,而且在實戰中也積累了比較豐富的經驗。所以我們後面遇到就具體問題具體分析,直接討論細節。
下面的部分,也就是軟體和硬體平台的可靠性,是工程同學比較熟悉的,可能深度學習框架和AI加速晶元等新因素帶來的一些新挑戰,但是跟傳統的軟體還是一脈相承的。
相對復雜一些的是中間的部分,也就是模型可靠性部分,比如可解釋性就是一個一直以來演算法的難題。對於AI軟體的正確性分析,也是一個較新的課題。
這一部分的困難在於,需要對於軟體工程、程序分析等傳統軟體技術要有一定深度的了解,同時還要對深度學習演算法等有精深的理解。
上面講的三類可靠性,大家應該是都認可的,但是只有這些理論還太虛,我們需要討論如何落地。
如果要保障AI軟體的可靠性的話,辦法無非兩種:一種是測試,一種是正確性驗證的方法。
我們先看下知識體系的大圖:
測試的話其實挑戰相對更小一些,只是相對。
首先,我們有生成對抗網路這樣的利器,這是AI軟體獨有的方便。
其次,在傳統測試中發揮重要作用的模糊測試和符號執行,在AI軟體中還是可以使用。
第三,寫測試腳本時,需要指定驗證所期望的結果,這方面有蛻變測試等方法可用。
第四,參照普通軟體的coverage測試,我們可以對AI軟體也進行神經元級、網路層次級的覆蓋率測試,也可能進行MC/DC分支情況覆蓋率測試。
驗證方面,也有傳統技術和深度學習結合的方法,比如基於SAT/SMT求解器的約束求解方法,基於抽象解釋的方法。
針對AI模型,也有其個性化的屬性,比如局部魯棒性屬性、區間屬性等,其基礎是利普希茨屬性。
利普希茨屬性是一個連續性屬性,有點類似於我們學習微積分時的連續性概念,它主要限制的是函數變化的速度。我們在神經網路中,主要限制的是向量之間的變化速度,也就是范數的變化值。在不同的函數中,變化最大值是個常數,叫做利普希茨常數,這個值在實踐中我們需要做一些估計。
這一節就先說這么多,後面我們針對測式和驗證兩個方向依次展開。
❷ 樂駕能源AI演算法安全嗎
樂駕能源擁有基於AI演算法的四級安全預測,包括「月級預測」、「周級預測」、「小時級預測」和「分鍾級預測」:「月級預測」主要通過演算法監控儲能設備電池電芯的充放電一致性情況進行偏差分析,判斷電池的衰減特性。「周級預測」則圍繞儲能系統內部和電池內部圖譜特性,分析電池低效或失效特點,並引導管理系統進行運維和管控。「小時級預測」和「分鍾級預測」主要針對電池熱失控進行提前預測,並會聯動儲能系統中的消防裝置進行處置,以減少電池起火的概率和其帶來的危害,相關信息網路就能查到哦。
❸ 人工智慧有什麼缺陷
第一脆弱性。人工智慧系統還無法超出場景或語境理解行為,雖然在下棋或游戲等有固定規則的范圍內不會暴露出這一弱點,但是一旦場景發生變化或這種變化超出一定范圍,人工智慧可能就立刻無法「思考」。
第二、不可預測性。用戶無法預測人工智慧會做出何種決策,這既是一種優勢,也會帶來風險,因為系統可能會做出不符合設計者初衷的決策。
第三、安全問題和漏洞。機器會重結果而輕過程,它只會通過找到系統漏洞,實現字面意義上的目標,但其採用的方法不一定是設計者的初衷。例如,網站會推薦一些極端主義視頻,因為刺激性內容可以增加瀏覽時間。再如,網路安全系統會判斷人是導致破壞性軟體植入的主要原因,於是索性不允許人進入系統。
第四、人機交互失敗。盡管讓機器提供建議,由人類做最後決策,是解決人工智慧某些弱點的常用方法,但由於決策者對系統局限性或系統反饋的認知能力不同,這一問題並不能得到根本解決。
(3)ai演算法的安全性擴展閱讀:
當計算機出現後,人類開始真正有了一個可以模擬人類思維的工具,在以後的歲月中,無數科學家為這個目標努力著。如今人工智慧已經不再是幾個科學家的專利了,全世界幾乎所有大學的計算機系都有人在研究這門學科,學習計算機的大學生也必須學習這樣一門課程,在大家不懈的努力下,如今計算機似乎已經變得十分聰明了。
例如,1997年5月,IBM公司研製的深藍(DEEP BLUE)計算機戰勝了國際象棋大師卡斯帕洛夫(KASPAROV)。大家或許不會注意到,在一些地方計算機幫助人進行其它原來只屬於人類的工作,計算機以它的高速和准確為人類發揮著它的作用。
人工智慧始終是計算機科學的前沿學科,計算機編程語言和其它計算機軟體都因為有了人工智慧的進展而得以存在。
❹ 可解釋AI,如何打開演算法的黑箱
隨著以機器學習為代表的新一代人工智慧技術不斷朝著更加先進、復雜、自主的方向發展,我們的經濟和 社會 發展都紛紛迎來了變革性的機遇。但與此同時,AI演算法的透明度、可解釋性問題也為公眾信任、公共安全等諸多領域帶來了前所未有的挑戰。
1月11日 14日,「騰訊 科技 向善創新周」在線上舉辦。「透明可解釋AI——打開黑箱的理念與實踐」專題論壇即聚焦於此。論壇發布了《可解釋AI發展報告2022》,隨後由專家學者(見文末)共同參與了圓桌討論。以下為整理文章:
可解釋AI的概念共識
姚新:
大家在討論AI演算法的透明性和可解釋性的時候,首先應該考慮三個W的問題——Who,What和Why的問題。
首先,到底是對誰講透明和可解釋?因為從科學研究來說,任何一個研究都必須透明,都必須可解釋,否則這個論文是發不出來的。所以我猜過去講透明性和可解釋性,可能不是對科學家來說的可解釋性或者透明性,因為對科學家的透明性和可解釋性,不一定對大眾透明和可解釋。第二是解釋什麼?解釋模型做出來的結果還是解釋這個模型的工作原理。第三,解釋總是有一個目的,目的是要追責還是理解這個模型的科學原理。
根據對這三個W不同的答案,會得出非常不一樣的透明性和可解釋性,相應的解決辦法可能也完全不一樣。不管怎樣,考慮透明性和可解釋性的時候,首先大家要有一個概念上的共識,使得我們知道我們是講同樣一件事情,而不是用了同樣一個名詞,大家在不同的抽象層次講不同的問題。
吳保元:
可解釋是可信AI的重要組成部分,是可信的前提條件之一,但是相比於魯棒性、公平性等可信特性,我覺得可解釋不是獨立存在的概念。就是姚老師剛才提到的,我們到底在解釋什麼?其他的特性都是有自己明確的數學定義,比如魯棒性、公平性等,但是可解釋性是沒有的,因為我們單獨提到它的時候,背後默認的更可能是對模型准確度的可解釋性。或許這也可以解釋為什麼當前的可解釋研究思路這么多,但是好像沒有一個明確的框架,我覺得最主要的原因是它的解釋對象不一樣,沒有辦法統一到一起。
基於這種理解,我個人有一點小的想法,不應該把它稱為可解釋性,把它稱為可解釋力或許更准確。可解釋性,大家可能誤認為它是一種獨立存在的性質;可解釋力是一種可解釋的能力,就像我們說的理解力、領導力等等,它是一種手段,一種行為,一種操作存在,需要跟別的綁在一起。我覺得以後提到它的時候,應該准確地描述它是針對什麼特性的可解釋力,而不是籠統地說可解釋性如何。
可解釋AI的價值何在?
朱菁:
人們對於人工智慧系統可解釋性、透明性的要求,大致有四個層次:
第一個針對的是直接用戶,用戶需要了解人工智慧產品、服務背後的原理是什麼,這是建立可信任AI的重要基礎。可解釋AI,實際上支撐了可信任AI。
第二個層次,對於政策和監管部門,他們希望通過解釋原理來了解人工智慧產品的公平性、可問責性,歸因的過程是我們進一步問責、追究責任的基礎。所以,可解釋AI也與負責任的AI、可問責的AI是聯系在一起的。
第三個層次就是技術工程與科學層次,我們希望了解為什麼某些演算法能夠成功,它成功背後的奧秘是什麼,它的應用范圍是什麼,它能否在更大的范圍內使用這樣一些演算法或者是一些技術。
第四個是公眾理解AI,如果 社會 大眾大多數關心的話,他也能夠在這方面了解相應的技術、系統大體的工作原理方式是什麼。
何鳳翔:
在現在的AI系統中,其實很多演算法背後運作機制是未知的,是不清楚的,這種未知帶來了未知的、難以管理的風險,包括安全性、魯棒性、隱私保護、公平性等等。
這些點關繫到了 社會 運轉中非常關鍵、人命關天的領域,比如醫療、自動駕駛。這會帶來很大的應用方面的困難,以及 社會 對AI的不信任。因為當AI演算法運作機制是未知的時候,它的風險機制、風險大小、風險尺度就是未知的,我們就難以去管理風險,進而去控制風險。
可解釋AI的挑戰何在?
姚新:
原來我一個學生跟我做了一點關於公平性的工作,跟其他的文獻發現的點非常一致,就是說模型的准確性和公平性之間是相互矛盾的。性能最好的模型從公平性的角度來說,按指標來測量不見得最好,你要把模型做得都是最公平,用指標來衡量的話,它的性能就會受到損失。實際上可解釋性非常類似現在有各版的可解釋性指標,但是要真正考慮這些指標的話,模型的性能總是會掉下來,要考慮在實際過程中怎麼來找一個折中的方案。
吳保元:
針對可解釋性本身的不可行、不可取,這也是值得我們思考的問題。比如說我們在研究犯罪率或者說疾病的傳播率、發病率等,如果我們就拿現成的統計數據,比如在不同種族、不同地域採集的數據,很有可能會得出來某些種族或者某些地域犯罪率很高,這是因為數據採集的時候就是這樣的。這樣一來,如果可解釋給出的類似結論被公開,可能會造成種族或者地域歧視。但實際上數據背後是我們在採集的時候沒有採集其他特性,比如說為什麼這個地域的傳播率很高呢?很有可能是政府投入不足,或者說其他的因素。
所以這也啟發我們可解釋性本身它的可信性是什麼,它的准確性,它的公平性,它是否忽略了某些特徵,或者誇大了某些特徵,它的魯棒性,是不是把樣本變化一點,它的可解釋性截然相反,這些需要我們進一步思考。
另外,我跟很多研究可解釋的專家聊過,他們的困惑在於現在的可解釋性方法是不可印證的,甚至是矛盾的,這就引出了可解釋性方法本身的可信度的問題。
何鳳翔:
在我看來,理解深度學習演算法的運作機制,大致有理論和實踐兩條路徑。在理論方面,當前的研究無法完全解釋理論上泛化性較差的深度模型為何能在多領域取得如此的成功。這種理論與實踐的矛盾,就像曾經物理學中的烏雲一樣,反映出來了人們對於機器學習理解的缺失,而這是現在在理論上提升演算法可解釋性的一個難點。
而在實驗角度上,很多實驗學科中的做法可以作為對於機器學習研究的啟發,比如說物理學、化學,以及剛才提到的醫療。比如說葯物研發流程中的合格檢驗,要做雙盲實驗;在物理學、化學的研究中,對控制變數實驗有嚴格要求。類似的機制是否能在AI研究中嚴格執行呢?我覺得這可能是另外一條路徑。在我看來,現有的很多對於AI演算法的解釋是啟發式的,而在關鍵領域中我們需要的是證據,這需要在理論和實驗兩方面做很多工作。
可解釋AI如何實現?
朱菁:
前面很多專家都指出對於解釋有不同的目標,不同的對象,不同的要求,所以實際上關於人工智慧的可解釋性問題可能是屬於多元性的,就是要允許有多種不同層次不同方式的解釋在這裡面起作用,針對不同的領域、不同的對象,使用不同解釋的方式。
當可解釋性有它的局限或者和其他的目標、要求,需要做出權衡取捨的時候,我們想也可以從多個層面來進行替代性的,或者說是補償性、補充性的策略。比方說針對監管部門,它對於可解釋性的要求,和面向公眾或者專家層面的,會有所不同,所以這個可以通過若干個層次,比如說監管部門的,行業的,市場的,以及傳播普及層面的,對於安全性、魯棒性要求更高一些,或者在專家層面上有更好的溝通理解,而對於 社會 公眾而言,這裡面就需要有一些轉換,同時有需要一些權威部門,有公信力的部門,向 社會 做一些說明和認定。
姚新:
深度神經網路可以解決特別復雜的問題,我覺得現在大家用深度網路有一個原因,即所針對的問題本身可能就比較復雜。這是一個假設。假如這個假設是對的話,那麼相應的可解釋性不會特別好理解。因為需要對付這些復雜性,相應的模型就必然是要復雜。
所以我總覺得透明性、可解釋性和性能之間是有一個固有的矛盾,如果現在把從技術上討論的方向,是怎麼找一個折中方案,根據不同的場景、可解釋的目的,找不同折中方案,這樣導致有可能會出來一些比較具體的技術,或者可以促進這些技術往落地的方向走。
吳保元:
我們嘗試過一些從技術上可行的方案去量化各種可信特性,但是,要實現統一量化很困難,比如說公平性和魯棒性都有不同的量化准則和指標。當把不同的特性簡單組合到一起的時候很難優化,因為它們的准則是高度不對齊的,差異非常大,這就涉及怎麼去對齊這些特性坐標。我認為想要找到一個全局坐標系是非常困難的。我們可以從局部出發,針對某種場景,比如醫療場景,首先把隱私性當做前提,在金融或者自動駕駛,我們把魯棒性當做前提,然後再去研究其他特性,或許一步一步能夠找到這種坐標系。
可解釋AI的技術現狀?
鄭冶楓:
總體來說,因為我們現在還缺乏非常好的理論框架,所以可能針對問題,我們創造性地想一些演算法,試圖提高本身這個系統的可解釋性,給大家舉兩個例子來說明一下我們天衍實驗室在這方面的 探索 。
深度學習可能有千億、萬億的參數,這對於醫生來說太復雜了,他很難理解這個演算法的底層原理,演算法本身可能缺乏一個全局的可解釋性。但是深度學習框架准確率非常高,所以我們不可能不用。而可解釋性非常好的模型就是回歸模型,這類模型主要的問題就是准確率太低。所以我們做了一個 探索 ,我們希望把這兩個模型結合起來,它具有非常高的准確率,還有一定的可解釋性,不是完全可解釋性。
我們把這個混合模型用於疾病風險預測,就是根據病人歷次的就診記錄,我們預測病人在未來6個月之內得某個重大疾病的概率,比如他得卒中的概率。病人每一次的就診記錄包含大量信息,這裡面我們需要提取一些跟預測目標相關的重要信息,我們知道生物學習網路最擅長的就是自動特徵學習。所以我們利用深度學習網路把一次就診記錄壓縮成一個特徵的向量,接著我們利用回歸模型,把病人多次就診記錄綜合起來預測未來6個月之內這個病人得腦卒中的風險。
楊強:
我們在審視各個演算法和它對應的可解釋性的關聯問題上,發現一個有趣的現象,比方說在機器學習裡面,深度學習就是屬於效率非常高的,但是它卻對應的可解釋性很差。同樣,線性模型沒有那麼高,但是它的可解釋性相對強一些,樹狀模型也是,因果模型更是這樣。所以往往我們確實得做一個取捨,就是我們在可解釋這個維度和高效率這個維度,在這個空間裡面選擇哪一個點,現在並沒有在兩個維度都高的這樣一個演算法。
可解釋AI的行業實踐
鄭冶楓:
各行業對可解釋性和透明性的要求不同,我結合醫療AI這個場景給大家分享一下我的體會和理解。大家知道醫療在全世界范圍內都是被強監管的領域,一款醫療產品要上市必須拿到醫療器械注冊證,輔助診斷演算法AI產品屬於三類醫療醫療,也就是監管最嚴格的級別,所以我們要披露的信息很多,大致包括數據集和臨床演算法驗證兩方面。前者主要強調數據集的公平多樣性和廣泛覆蓋性,後者則重視披露我們的演算法真正在臨床試驗中、真正臨床應用的時候它的性能。
此外,我們的測試樣本也需要有很好的多樣性,覆蓋不同醫院,不同區域,不同病人群體、廠商、掃描參數等等。臨床實驗更加嚴格,首先我們要固化演算法的代碼,在臨床試驗期間是不能改代碼的,因為你不能一邊做實驗一邊改代碼,這就失去了臨床試驗的意義。
所以醫療AI的監管是非常強的,葯監局需要我們披露很多信息,提高醫療AI產品的透明性,它有非常嚴格甚至苛刻的書面要求。因為我們知道智能學習網路天然不具有很好的解釋性,雖然你可以做一些中間增強,可以一定程度上改善這些事情,監管也可以理解這個解釋性差一點,正因為解釋性差,要求的透明性就越高。
何鳳翔:
我覺得提供AI系統的說明書有兩個路徑:第一個路徑從生成AI系統的過程出發。這一點現在有一些實踐,比如開源代碼,說明使用了什麼數據,數據是如何使用的、如何預處理的。這會提升人們對AI的信任和理解,這也像剛才鄭老師提到,申請醫療相關的資質的時候,我們需要把生產細節匯報給相關機構。
第二種方式就是從生成的AI系統所做出的預測以及決策的指標來入手做演算法的說明書。比方對AI系統做一些測評。對於剛才我們提到的指標,包括可解釋性、魯棒性、准確性、隱私保護、公平性,找到一些比較好的量化指標、找到一些評測演算法,把這些指標作為AI系統的使用說明書。
可解釋AI的未來發展
楊強:我期待在未來人工智慧的治理,在人工智慧,人和機器這種和諧共存,共同解決我們要解決問題的前提下,會越來越成熟。我是非常看好這個領域的。
朱菁:我期待這個領域進一步的探討,不同領域的學者都能夠參與進來。比如說像我自己做的主要是哲學, 科技 哲學。在 科技 哲學,實際上對於解釋有將近一百年的積累和 探索 ,這裡面應該有很多可以發掘借鑒的資源,參與到目前這樣一個很有意思很有挑戰性的話題裡面。
何鳳翔:AI本身是一個跨學科領域,它可能會用到很多數學、統計、物理、計算機等各個知識的領域,今天提到的很多點,包括隱私保護、公平性,很多也是來源於人文學科、法律、 社會 學這些方面。所以這就意味著研究可信AI以及可解釋性等等方面會需要各個學科領域的人合作起來一起去做的一件事情,會非常需要大家的通力合作,共同推進這個領域的發展。
姚新:對於做研究來說,我希望將來可以有一點聚焦的討論。我剛才講的3W,到底我們要解決透明性、可解釋性的哪一部分,對誰而言。假如對醫療而言,是對法規的制定者來說還是對醫生來說,還是對病人來說,還是對這個系統的開發者來說?我覺得在這裡面有非常多可以發揮自己的想像力和能力的地方。
鄭冶楓:對演算法人員來說,當然我們希望將來科學家們找到非常好的,具有良好可解釋性,同時准確性非常高的演算法,真正做到魚和熊掌兼得。
❺ AI安防火熱戰況下 演算法到場景還有多遠
【 安防展覽網 焦點新聞 】在人工智慧賦能安防過程中,演算法是重要一環。不僅雲從、依圖、曠視、商湯等CV企業和海大宇等傳統安防企業開始布局人工智慧演算法,業內傳聞稱華為也即將在2019上半年推自研AI演算法。隨著投入不斷加大,安防監控視頻識別演算法准確率大幅提升。例如,人臉識別演算法早在2015年就已超越人類,近年來小數點後的數字仍在不斷攀升;在圖像分類、物體檢測等演算法也已經遠遠超越人類平均水平。
「演算法為王」還是「場景落地」優先 ?海康威視高級副總裁徐習明說:「基於深度學習的演算法精度會無限逼近100%,隨著『准確率』提升,最後競爭的更多是場景落地能力。」
將前沿演算法應用到實際場景中才能凸顯價值,但二者結合卻是一項艱巨的任務。那麼,演算法到場景應用還有多遠?
在場景化應用之路上,泛化能力是演算法長期面臨的問題,也是現階段主要瓶頸。由於實驗室中訓練好的模型在情況千變萬化的現實應用場景中性能往往會明顯下降。
在全國公安視頻監控畫面中,事故、打架、摔倒、聚集等場景多如牛毛,盡管可以通過通用演算法構建模型,但我國幅員遼闊,光南北氣候差異下,人們的穿著、妝扮就千差萬別,海南的深冬還可著短袖,黑龍江10月就已經換上棉衣棉帽。在3米及以上高度假設的人臉攝像頭,要面向30米及以上距離的高視角、大范圍進行攝錄,識別准確能力無疑將會大幅下降。
因此,在實際應用中需要對演算法的場景進行嚴格定義,例如智能交通中過車及違章抓拍、機場車站的人證對比等,都需要制定具體的工程安裝方案。這種做法在技術不夠成熟的條件下有效實現了商業價值。不過,對已有設備改造的成本也減緩了演算法對安防傳統應用的滲透速度,這同時限制了有效素材獲取的效率,不利於演算法的進一步提升。
目前,國內安防廠商針對這一問題搭建了合作平台,傳統廠商開放平台圖像數據資源庫,演算法企業將AI演算法技術打包成模塊,嵌入硬體產品或系統台中,這將成為當前AI在視頻監控領域落地快捷的一條路徑。目前國內已經有多家平台商在不同場合表達了合作態度。
結語: 未來安防解決方案不僅要直擊用戶痛點,更需要通過演算法挖掘大數據,為民眾提供更可靠的安全環境。可以說,演算法是人工智慧的生產工具,演算法的底層邏輯推理也驅動著AI安防的落地,安防落地場景的復雜性又推動演算法進一步優化。正如加州大學伯克利分校 UCB 電氣工程與計算機科學系、統計系教授Michael I.Jordan所言:AI 時代變革,源於應用場景中的優化演算法。