機器學習最強敵人

在本篇文章中,我們采訪到了加州大學伯克利分校人工智能學院院長Alberto Todeschini,就「對抗性機器學習」的話題進行了討論, 了解了脆弱的模型是如何被愚弄的以及我們需要注意什麼。

Alberto Todeschini, 加州大學伯克利分校人工智能學院院長2019-04-26

用通俗的話來說,對抗機器學習是如何工作的?

機器學習的工作方式如下:我們在培訓階段構建模型,然後將其部署在新數據上。例如,我向模型展示了可食用和不可食用的野生蘑菇照片,接著創建了一個應用程序,可以告訴我在森林中發現的蘑菇是否可食用。

而對抗機器學習指的是,攻擊者創造了一種輸入方法,會導致這些模型的行為失常。

從技術角度來看,目前存在哪些類型的攻擊?

有一些不同的技術,該領域已經存在了一段時間。就個人而言,我痴迷於神經網絡的現代攻擊性。有趣的是,我們可以通過研究這些攻擊來學習很多關於神經網絡的局限性。

目前存在三種類型的攻擊:

  • 無目標的,只會導致模型出錯或降低性能。
  • 有針對性的,會導致特定的錯誤分類。(比方說,我想要一個安全攝像頭將我歸類為個人,並且知道我擁有安全許可,可以進入某建築物)。
  • 重編程攻擊更難解釋,但簡單來說,它們可以用來竊取計算資源。例如,機器學習模型被劫持以執行某種其他類型的計算。這是一種「寄生計算」。

可以舉一些例子嗎?

圖片來源: https://arxiv.org/pdf/1707.08945.pdf

我發現最令人著迷的一個例子是「對抗性補丁」。假設我有一輛自動駕駛汽車。有針對性的攻擊可能會使「停止」標志被視為「速度限制」標志。這是通過在標志上貼上一個小貼片來完成的(字面上只是一個小貼紙,會留下大部分標志)。

面對這些對手,機器學習模型有多脆弱?

很脆弱。事實證明,許多機器學習模型家族以及我個人專注的深度學習模型都是非常脆弱的。此外,許多攻擊是可轉移的,這意味著如果我對特定模型進行攻擊,其他模型也可能是脆弱的。想想家庭安全系統等硬件在銷售後幾乎沒有軟件更新。攻擊者可以購買其中一種,並花費數年時間尋找漏洞。

從金融角度來看,涉及到對抗性機器學習攻擊時,機構應該關注什麼?

隨著機器學習變得越來越普遍,我毫不懷疑我們將在金融領域看到十分廣泛的攻擊。這意味著對敵對攻擊的擔憂將成為良好安全實踐的一部分,我期待來自攻擊者的很多創造力。

金融業的哪些方面可能會受到影響?

它可以影響整個譜系。金融業是一個非常龐大和多樣化的行業,所以我們稱之為「攻擊面」是巨大的。將會出現新的身份盜用類型,因為可以快速輕松地克隆聲音以及臉部圖像進行識別。類似的技術也可用於強大的網絡釣魚攻擊。如果有人克隆我的聲音並打電話給你,你可能會透露一些信息,認為你在跟我說話,但你實際上是在和攻擊者說話。

將會有比我們目前所見更大規模的錯誤信息活動(假新聞等),因為我們可以生成無限量的新文去污染社交網絡,這可以用來影響政治和消費者決策,並影響個別公司或整個經濟體的表現。

對於交易來說,決策自然取決於大量數據輸入,而它們每一個都是攻擊的潛在目標。這些決定還取決於預測,因此這將成為下一級攻擊區域。為了大大簡化,我們可以制造一種攻擊,使模型將表現差的股票錯誤分類為優質股票。所有這一切仍然處於早期階段,但考慮到這個行業的規模,有無數的高利潤目標可以追逐。

有沒有辦法檢測數據是否已被中毒/攻擊?

不好說。這些技術正在不斷發展並迅速變得越來越復雜,所以即使我們強化系統來抵御今天的中毒和其他攻擊,防御也可能無法對明天的新攻擊起作用。重要的是,專家和組織要注意並認真對待安全問題。但不幸的是,許多組織在安全方面存在滯後,因為安全隔離通常十分昂貴並且高度復雜。我們已經看到了這種情況,所有數據洩露都會定期並會越來越大規模的發生。

通過對這些攻擊訓練模型,我們可以了解並學習抵御對抗性攻擊嗎?

這是通常的貓捉老鼠游戲。每當一些研究人員發布一種技術來使模型對抗攻擊時,不久之後,其他人就找到了一種能夠抵御防御的新技術。因此我預測,這種情況會持續一段時間。

使用對抗模型的訓練算法是否會使其更加「健壯」?

是的,已經顯示出來了。它目前尚未被廣泛采用,但已經有很好的統計理由,來說明為什麼會出現這種情況。

你在對抗性機器學習中看到最有趣的案例研究是什麼?

麻省理工學院的同事能夠利用3D打印出來的物品欺騙計算機視覺分類器。具體地說,任何人類都可以識別出來的塑料玩具龜被機器學習分類器歸類為步槍。現在,這可能只是處於好奇心,但如果想象一下,如果安全系統歸類將步槍歸類為烏龜,將會發生什麼?

如果你是一名專注對抗機器學習攻擊的罪犯,你目前可以采取什麼樣的大規模行動?

讓我們回到基於某些計算機視覺神經網絡的家庭安全系統的例子。這些小工具賣了幾百萬台。從歷史上看,許多公司在安全更新方面表現不佳。那麼現在,有幾百萬個家庭會很容易地遭受同樣的攻擊。