咨詢電話
021-80392549
感知和推理一直是人類特有的天賦,從孩童開(kāi)始,人類就開(kāi)始學(xué)習(xí)并逐漸學(xué)會(huì)了排除推理(Reasoning by elimination)的方法。而人工智能如果能夠做到這一點(diǎn),必然將會(huì)助推機(jī)器人等產(chǎn)業(yè)實(shí)現(xiàn)更大的飛躍。
英偉達(dá)(NVIDIA)研究人員于去年12月在 NeurIPS 上發(fā)表20篇研究最新進(jìn)展的論文,解釋了最新的人工智能和圖形圖像理解技術(shù)。
英偉達(dá)一直走在人工智能創(chuàng)新的最前沿,不斷突破著機(jī)器學(xué)習(xí)、自動(dòng)駕駛汽車、機(jī)器人、圖形等領(lǐng)域的技術(shù)界限,這次他們的研究理論同樣非常有意思。
▍為什么要做陌生環(huán)境推理?
在本次的論文中,英偉達(dá)介紹了嘗試進(jìn)行的一系列排除推理學(xué)習(xí)研究,包括如何從零樣本中進(jìn)行排除推理學(xué)習(xí),以及識(shí)別已知環(huán)境的不同新組合。他們將Franka機(jī)器人作為研究載體,將理論研究成果在機(jī)器人上快速實(shí)現(xiàn)了實(shí)驗(yàn)和初步驗(yàn)證。
從視頻中可以看到,這個(gè)叫做Gemini的機(jī)器人,能夠通過(guò)與人對(duì)話,理解人類的選擇意圖,并最終從有多個(gè)物體的復(fù)雜環(huán)境中做出正確的抓取選擇,也可以根據(jù)所處環(huán)境的位置來(lái)區(qū)分物體并進(jìn)行動(dòng)作。
這并不是一件很容易的事情,因?yàn)槿祟悓?duì)復(fù)雜場(chǎng)景的理解能力遠(yuǎn)遠(yuǎn)超出了機(jī)器人自上而下的3D感知方式。例如人類過(guò)一條沒(méi)有指示燈的馬路,就可以根據(jù)車流、馬路情況,去選擇合適的時(shí)間避開(kāi)車輛成功過(guò)馬路,但機(jī)器人很難做到。
英偉達(dá)的研究人員發(fā)現(xiàn),這是因?yàn)楫?dāng)人類在不確定的自然場(chǎng)景中進(jìn)行思考和動(dòng)作時(shí),會(huì)先根據(jù)看到的場(chǎng)景和人,預(yù)判場(chǎng)景中各類事物的邏輯關(guān)系,同時(shí)預(yù)測(cè)物體和人的移動(dòng)軌跡,甚至可以推斷他們動(dòng)作的原因,從而才能完成對(duì)于場(chǎng)景的確定性排除推理,得到最正確的答案。
英偉達(dá)希望通過(guò)機(jī)器學(xué)習(xí)和人工智能結(jié)合的方法,嘗試解析并實(shí)現(xiàn)這種對(duì)于空間的立體感知和選擇能力。為此,他們不僅讓機(jī)器人結(jié)合了機(jī)器視覺(jué),嘗試?yán)?D畫(huà)面來(lái)檢測(cè)、跟蹤、推斷3D姿勢(shì)并重建完整的 3D場(chǎng)景,還開(kāi)發(fā)了一種允許人工智能通過(guò)自主學(xué)習(xí)推理環(huán)境變量的算法。
這個(gè)算法建立在例如英偉達(dá)的Riva等以語(yǔ)言交互為基礎(chǔ)的加速的對(duì)話式AI應(yīng)用框架上。
Riva這個(gè)框架是英偉達(dá)于2020年5月發(fā)布并對(duì)外推出的一個(gè)GPU加速應(yīng)用框架,該框架可以使企業(yè)能夠根據(jù)自身所處行業(yè)、產(chǎn)品和客戶的特點(diǎn),使用視頻和語(yǔ)音數(shù)據(jù)構(gòu)建最為先進(jìn)的定制化對(duì)話式AI服務(wù)。
隨著居家辦公、遠(yuǎn)程醫(yī)療和遠(yuǎn)程學(xué)習(xí)的快速興起,對(duì)于能夠支持實(shí)時(shí)轉(zhuǎn)錄、視頻通話摘要等定制化語(yǔ)言型AI服務(wù)的需求也隨之激增。而英偉達(dá)的Riva則還可以用在更廣泛的方面,例如配合視覺(jué)提高機(jī)器人的環(huán)境推理能力。
在視頻中,搭載Riva的Franka機(jī)器人根據(jù)需求語(yǔ)音發(fā)現(xiàn)場(chǎng)景下面臨多個(gè)選擇時(shí),會(huì)再次提出問(wèn)題,從而縮小選擇范圍,正確判斷和推理排除不確定因素,最后調(diào)整位姿完成動(dòng)作。
當(dāng)然,要想更加輕易實(shí)現(xiàn)對(duì)物體的感知、視覺(jué)推理和對(duì)話式AI,首先需要一個(gè)很好的機(jī)器人開(kāi)發(fā)硬件平臺(tái),英偉達(dá)的Gemini則依然是附加了FCI (Franka Control Interface)控制接口的Franka Emika探索版機(jī)器人,并在此基礎(chǔ)上集成了一個(gè)具備AI對(duì)話和視覺(jué)推理的系統(tǒng)。
▍排除推理學(xué)習(xí)的新方法
在開(kāi)源版Franka機(jī)器人(Researchversion)的基礎(chǔ)上,英偉達(dá)發(fā)現(xiàn),物體要素特征剝離是機(jī)器人能夠順利完成自主推理的關(guān)鍵,這對(duì)于機(jī)器人能否進(jìn)入更廣泛的環(huán)境中至關(guān)重要。尤其是如何讓機(jī)器人在沒(méi)有采取大量訓(xùn)練的情況下,在陌生環(huán)境中對(duì)不熟悉的對(duì)象進(jìn)行推理,或者是在熟悉與不熟悉對(duì)象混合的開(kāi)放世界場(chǎng)景中進(jìn)行工作。
傳統(tǒng)機(jī)器學(xué)習(xí)模型主要被訓(xùn)練來(lái)執(zhí)行歸納推理:從訓(xùn)練的示例中概括歸納規(guī)則。但在英偉達(dá)的這項(xiàng)研究工作中,研究人員其實(shí)采取了一種排除推理的方法。即機(jī)器人收到并理解語(yǔ)音轉(zhuǎn)成的文本指令進(jìn)行類似輪廓物品的推理,例如“選擇青色的燈泡和棕色的鑰匙”(圖 1),這其中就包含熟悉的概念和不熟悉的概念。
在英偉達(dá)的這個(gè)學(xué)習(xí)框架中,F(xiàn)ranka機(jī)器人結(jié)合了感知模塊與包含內(nèi)部記憶的推理模塊,通過(guò)強(qiáng)化學(xué)習(xí)構(gòu)建推理策略,通過(guò)考慮所有可行性,實(shí)現(xiàn)對(duì)于即使從未見(jiàn)過(guò)的對(duì)象或概念,也可以做出正確的推理判斷。此外,它還能使用單樣本學(xué)習(xí)(one-shot learning)的方式將新概念添加到其已知概念集中,從而可以識(shí)別更多新概念。
此外,英偉達(dá)在Franka Emika探索版機(jī)器人的基礎(chǔ)上,還展示了如何使用強(qiáng)化學(xué)習(xí)訓(xùn)練進(jìn)行RBE推理,機(jī)器人能使用它來(lái)學(xué)習(xí)新概念,并將其新知識(shí)應(yīng)用于推理其他新概念上。
他們?cè)谝唤M新的環(huán)境中對(duì)這種方法進(jìn)行了評(píng)估,例如能夠使用機(jī)器人上的視覺(jué)硬件讀取相同盒子上的標(biāo)簽信息以確定內(nèi)容,得益于此,靈活的Franka機(jī)器人從一堆隨機(jī)分布的物體中,選取出了正確的物體,同時(shí)調(diào)整了關(guān)節(jié)位置和速度,并選擇以最佳軌跡抓取和移動(dòng)物體將它遞給指定對(duì)象。
結(jié)果表明,F(xiàn)ranka機(jī)器人成功地通過(guò)排除推理學(xué)習(xí)的方式,還可以學(xué)習(xí)新的概念并將其用于進(jìn)一步的推理。這種方法通過(guò)擴(kuò)展豐富的有監(jiān)督學(xué)習(xí)方法和能夠處理新概念的理性框架,為隨機(jī)應(yīng)變處理開(kāi)放世界環(huán)境鋪平了道路。
▍零樣本識(shí)別組合推理
Franka穩(wěn)定的開(kāi)源版機(jī)器人(Research version)硬件平臺(tái)和靈敏的力控制使得英偉達(dá)在進(jìn)行更深層次、更具創(chuàng)新性的一些研究試驗(yàn)時(shí)同樣能夠更容易獲得成功。
組合推理一直被認(rèn)為是人類智能的標(biāo)志,也是目前人工智能系統(tǒng)目前面臨的一個(gè)基本限制。舉個(gè)簡(jiǎn)單的例子,即使人們從未見(jiàn)過(guò)紫色花椰菜,也可以根據(jù)他們對(duì)花椰菜和其他紫色物體的熟悉程度來(lái)識(shí)別。盡管多特征組合性是深度學(xué)習(xí)網(wǎng)絡(luò)的關(guān)鍵設(shè)計(jì)因素,但不幸的是,因?yàn)樾聵?biāo)簽通常建立在與類標(biāo)簽相關(guān)的特征上,當(dāng)前的深度學(xué)習(xí)模型難以推廣到新標(biāo)簽多次組合的情況。
在這些實(shí)驗(yàn)中,英偉達(dá)通過(guò)一些方式,解決了零樣本組合的機(jī)器識(shí)別問(wèn)題,同時(shí)英偉達(dá)嘗試在簡(jiǎn)單的隨機(jī)性場(chǎng)景中,讓Franka機(jī)器人通過(guò)遵循簡(jiǎn)短的語(yǔ)言指令,通過(guò)排除推理的方式完成對(duì)某些事物的判斷和選擇。
零樣本隨機(jī)性組合是機(jī)器學(xué)習(xí)識(shí)別已知屬性對(duì)象進(jìn)行組合后產(chǎn)生的新問(wèn)題,這種組合泛化能力對(duì)于視覺(jué)和語(yǔ)言等現(xiàn)實(shí)領(lǐng)域的學(xué)習(xí)至關(guān)重要,此類場(chǎng)景在無(wú)人駕駛中會(huì)遇到非常多。
例如,行駛中的汽車就因?yàn)橐曈X(jué)場(chǎng)景重疊組合會(huì)面臨很高的空間復(fù)雜度問(wèn)題,這個(gè)復(fù)雜度會(huì)隨著物體數(shù)量及其屬性的增加呈指數(shù)增長(zhǎng)。因此目前沒(méi)有一個(gè)無(wú)人駕駛的方案能夠覆蓋所有場(chǎng)景下的組合子集,從而精準(zhǔn)來(lái)識(shí)別各類場(chǎng)景分布下的長(zhǎng)尾問(wèn)題。
這種多事物泛化組合的情況也出現(xiàn)在很多AI領(lǐng)域的問(wèn)題中出現(xiàn),例如文本理解、語(yǔ)音語(yǔ)義理解和控制。
不僅如此,按照傳統(tǒng)方法從數(shù)據(jù)中訓(xùn)練出來(lái)的模型往往會(huì)因組合泛化而失敗,原因有兩個(gè):分布偏移和糾纏(distribution-shift and entanglement)。
因?yàn)樽R(shí)別新組合是分布偏移的一種極端情況,想要識(shí)別在訓(xùn)練中從未觀察到或者出現(xiàn)過(guò)的標(biāo)簽組合(零樣本學(xué)習(xí))非常難。在以往的訓(xùn)練期間,模型需要學(xué)習(xí)多標(biāo)簽相關(guān)性,但這會(huì)在實(shí)際測(cè)試中因?yàn)槎鄻?biāo)簽的負(fù)責(zé)聯(lián)系損害人工智能的推理性。
同時(shí),因?yàn)橛?xùn)練樣本本身通常以組合方式標(biāo)記,因此將它們的“基本”特征與示例分離通常會(huì)造成更多難以明確定義的問(wèn)題。例如這會(huì)導(dǎo)致對(duì)新分布的樣本分類錯(cuò)誤和混淆,導(dǎo)致學(xué)習(xí)系統(tǒng)很難進(jìn)行組合泛化。
英偉達(dá)嘗試使用了因果框架(causal framework)解決這兩個(gè)挑戰(zhàn),并提出了一個(gè)基于因果關(guān)系的嵌入模型,置入該模型的Franka機(jī)器人能從相關(guān)(混淆)數(shù)據(jù)中分離視覺(jué)對(duì)象的訓(xùn)練數(shù)據(jù),并將預(yù)測(cè)屬性和對(duì)象重新組合,實(shí)現(xiàn)更高顆粒度的真實(shí)數(shù)據(jù)集。
▍結(jié)語(yǔ)
人們可以從語(yǔ)言或演繹推理提供的信息中,無(wú)需任何樣本而學(xué)習(xí)到新的視覺(jué)概念,這將有助于機(jī)器人在對(duì)于文本的上下文理解中占據(jù)更強(qiáng)的優(yōu)勢(shì),例如,機(jī)器人可以使用推理排除法從上下文中推斷出某些文字和特殊語(yǔ)句的含義。
可以預(yù)見(jiàn),在未來(lái)基于視覺(jué)觸覺(jué)的推理學(xué)習(xí)和對(duì)話式人工智能將使機(jī)器人技術(shù)取得更大進(jìn)步,但在此之前,如何解決復(fù)雜環(huán)境下的特征抓取和少樣本情況問(wèn)題,仍然需要更多人進(jìn)行研究和探索。