記住一些東西并能回憶起來,對于人類來說司空見慣。而有了記憶,可以讓我們對過往之事做出理智判斷,并基于此,對未來做出決策。能否讓AI智能體也做到這點呢。近日,DeepMind提出一種方法,讓智能體使用特定的記憶,來信任過去的行為,并對未來做出正確的決策。相關成果發表于最新的《自然·通訊》上。
那么,目前我們所說的讓AI產生回憶和人類的回憶是一回事嗎;究竟人工智能可以用什么方法產生回憶,文中涉及判斷和對過去行為的價值評估等問題,有哪些技術解決途徑;與以往相比,此次DeepMind提出的新方法有何不同,讓人工智能怎樣學會回憶,達到怎樣的效果;讓人工智能會回憶,基于目前的辦法,我們尚需做哪些努力?
AI產生的“回憶”與人類的是一回事嗎
在現實中,多數讓我們記憶深刻的,往往痛苦的事情多于快樂,好像受傷、不高興事的記憶溝痕更深。這讓人想起雨果的話——幸福的家庭都是相似的,不幸的家庭卻各有各的不幸,也許這種感慨是記憶使然。
而在記憶當中,那些感動我們的人或事往往會觸發回憶,所謂觸景生情。“就人類長期記憶而言,實際上記憶本身是呈多模態、場景化的,對于到過哪里做過什么事,存儲包含多維度,觸發某個維度時即可快速找到線索。而人們往往高估了記憶量,其實容量很有限,人類記憶本身非常高度抽象,對特征的提煉,其中有好多要素是概況和模糊狀的,如回憶電影,不會精準的一點一滴完整成像,但再現類似場景時,也許某個特定標識,就會回想起之前的一幕。”遠望智庫人工智能事業部部長、圖靈機器人首席戰略官譚茗洲在接受科技日報記者時指出。
記憶對人類而言,究竟有何作用?據介紹,記憶是我們對人腦中的信息和過去的經歷進行編碼、存儲,保留和隨后回憶的能力。一般而言,可以將其視為利用過去的經驗來影響當前的行為。記憶使人類能夠學習和適應以前的經驗以及建立關系,是記憶過去經驗的能力,以及使人想起以前學到的事實、經驗、印象、技能和習慣的能力或過程。它是從我們的活動或經驗中學到并保留下來的東西,通過結構或行為的改變或回憶和認可來證明。
目前,我們所說的讓AI產生回憶與人類的是一回事嗎?譚茗洲答道,“目前AI記憶仍只是停留在將學習將所獲得的信息被編碼、存儲,進而轉化認知的過程。以前的做法只是把所發生的一切悉數存儲,然而記憶與存儲有區別,記憶是為了能夠有效回憶。回憶檢索的方式,往往是跨各種閾界的,如通過某個品牌忽然想起某個事。由此,讓AI智能體對過去所發生的一些事情,判斷該不該記憶,關鍵要采取一些方法令其做出評定,達到人類回憶或記憶的效果。”
采用什么高招讓AI產生些許“記憶”
在以往的研究中,采用什么高招可以讓AI產生些許回憶?
譚茗洲介紹說,比較常用的有四種方法:1.長短期記憶網絡,是由一個被嵌入到網絡中的顯性記憶單元組成,功能是記住較長周期的信息。這一技術主要被谷歌、亞馬遜和微軟等公司在使用,用于語言識別、智能助手和屬性增強的應用。2.彈性權重鞏固算法,這是從神經科學中借來的概念,用來評估聯結的權重,而這些權重主要是通過早期任務的重要性來評估。這種算法用于序列學習多種游戲。DeepMind采用的就是這種與記憶鞏固有關的算法,目的是讓機器學習、記住并能夠提取信息。3.可微分網神經計算機,特點是將神經網絡與記憶系統聯系起來,可以像計算機一樣存儲信息,還可從例子中進行學習。4.連續神經網絡,主要用于迷宮學習,解決復雜的連續性任務,同時可以遷移知識,代表不會忘記此前所學的重要信息并利用先驗知識的嘗試(這依然是實現人類水平智能中的一大難題)。
“要讓AI能夠實現回憶過去的事情,涉及到判斷和對過去行為的價值評估(評估信用分配)的問題。但現有的評估信用分配的方法,無法解決與結果存在長時間間隔的任務。簡單來說,就是未來不可期。”譚茗洲指出。
據介紹,人工智能的研究中,在一個長序列內評估個人行為的效用問題,被稱為信用分配問題。該評估可以對過去的行動或計劃的未來行動進行評分。
譚茗洲解釋道,“具體在強化學習中,智能體獲得指導的唯一途徑是通過獎勵,而獎勵通常是稀疏和延遲的。當智能體得到獎勵時,很難知道哪些行為應該被信任,哪些該被責備,這就是信用分配問題。”?
DeepMind的論文呈現打游戲過程中的簡單場景,讓AI智能體對探索過的路徑及攻略進行記憶,當然與人類復雜的記憶機制相比,這是相當初期的階段。
讓AI在“記憶”中來場旅行
讓AI像人類那樣產生回憶,還需要怎么做?
譚茗洲介紹道,首先,需要讓AI學會情景記憶(表征一個人過去的知識)以及自傳式記憶。之所以AI很難做到這點,是因為情景記憶和自傳式記憶有著非常強的個體體驗特性,又涉及到過去的時間性。情景記憶與自傳式記憶一旦和當事人割裂開來,就失去了生命力。對于機器而言,這很難想像。畢竟在機器那里,我們所能看到的是無處不在的二元分離,精神可以獨立于物質存在,體驗可以獨立于主體存在。
再有,防止可能出現的災難性遺忘。認知心理學研究表明,人類自然認知系統的遺忘并不需要完全抹除先前的信息。但是,對于機器而言,遺忘就是災難性的,即需要抹除先前的信息。
如何讓智能體“未來可期”?據譚茗洲介紹,此次DeepMind提出將范例建立在深入的強化學習基礎上,并引入長期信用分配的原則。首先,智能體須編碼并存儲感知和事件記憶;然后,智能體須通過識別和訪問過去事件的記憶來預測未來的回報;再有,智能體須根據其對未來獎勵的貢獻來重新評估這些過去的事件。這樣可讓智能體使用特定的記憶來信任過去的行為,并對未來做出正確的決策,從而實現讓AI在其“記憶”里來場旅行。
為了做到這一點,DeepMind論文顯示,其做的首要工作是形式化任務結構,主要包括兩種類型的任務,以達到任務設置和重構記憶智能體(RMA)。由于提出解決方案的一個關鍵組成部分涉及記憶編碼和提取,研究人員將每個任務中的三個階段分別視作:動作和記憶提取、干擾物和經驗。
具體而言,在第一種信息獲取任務中:一階段,智能體須在無即時獎勵情況下探索一個環境來獲取信息;二階段,智能體在很長一段時間內從事一項不相關的干擾任務,并獲得許多附帶獎勵;三階段,智能體須利用一階段中得到的信息獲取遠端獎勵。
在第二種因果任務中:一階段,智能體須采取行動觸發僅具有長期因果關系的某事件;二階段,同樣是一個干擾任務;三階段,為了取得成功,智能體須利用一階段活動引起的環境變化來獲得成功。
而在研究這種結構的完整任務之前,研究人員考慮讓智能體實現一個更簡單被動過程的任務——“被動視覺匹配”,即智能體不用采取任何主動措施去采集信息,如同一個人在街上走路,不經意間就觀察到某些信息一樣。
最后,譚茗洲強調,正如論文所述,新方法的范式拓寬了AI研究的范疇。這是一個有趣的話題,涉及人腦科學的研究,以及神經科學、心理學和行為經濟學等多學科交叉研究的嘗試,今后還有很長的路要走,需要更多開放性的探索。
關注微信公眾號(kjxw001)及微博(中國科技新聞網)

