能提前“復(fù)制”人類微笑!AI融入人類社交世界成為可能?
發(fā)布時(shí)間:2024-04-01
瀏覽次數(shù):1372

版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

ChatGPT 等大型語言模型(LLM)的出現(xiàn),讓機(jī)器人具備了如同人類一般的語言表達(dá)能力。然而,機(jī)器人在與人類交談時(shí),其面部表情卻依然顯得很不自然,甚至充滿了恐懼感。

這無疑會(huì)阻礙人與機(jī)器溝通的意愿,讓兩者的溝通變得十分困難。

因此,在未來人機(jī)共存的時(shí)代,設(shè)計(jì)一個(gè)不僅能做出各種面部表情,而且知道何時(shí)使用這些表情的機(jī)器人,至關(guān)重要。

如今,來自哥倫比亞大學(xué)的研究團(tuán)隊(duì)及其合作者便邁出了重要一步——制造了一個(gè)披著硅片、能夠預(yù)測(cè)人類面部表情并同步執(zhí)行表情的機(jī)器人 Emo。它甚至可以在人類微笑前約 840 毫秒(約 0.9 秒)預(yù)測(cè)即將出現(xiàn)的微笑。

據(jù)介紹,它能與人進(jìn)行眼神交流,并利用兩個(gè)人工智能(AI)模型在人微笑之前預(yù)測(cè)并“復(fù)制”人的微笑。研究團(tuán)隊(duì)表示,這是機(jī)器人在準(zhǔn)確預(yù)測(cè)人類面部表情、改善互動(dòng)以及建立人類與機(jī)器人之間信任方面的一大進(jìn)步。

相關(guān)研究論文以“Human-robot facial coexpression”為題,已于今天發(fā)表在科學(xué)期刊 Science Robotics 上。哥倫比亞大學(xué)機(jī)械工程系博士?Yuhang Hu?為該論文的第一作者和共同通訊作者,他的導(dǎo)師、哥倫比亞大學(xué)教授?Hod Lipson?為該論文的共同通訊作者。

圖|Yuhang Hu 與 Emo 面對(duì)面。(來源:Creative Machines Lab)

在一篇同期發(fā)表在 Science Robotics 的 FOCUS 文章中,格拉斯哥大學(xué)計(jì)算社會(huì)認(rèn)知教授 Rachael Jack 評(píng)價(jià)道:

“人類社交互動(dòng)本質(zhì)上是多模式的,涉及視覺和聽覺信號(hào)的復(fù)雜組合,雖然 Hu 及其同事的研究集中在單一模式——面部表情上,但他們的成果在為開發(fā)更復(fù)雜的多模態(tài)信號(hào)的社交同步技能方面做出了巨大的貢獻(xiàn)?!?/p>

在她看來,盡管這是一個(gè)復(fù)雜的跨學(xué)科工作,但“真正使社交機(jī)器人融入人類社交世界是可能的”。

Emo 微笑了,但也不僅僅是“微笑”

如果你走到一個(gè)長(zhǎng)著人類腦袋的機(jī)器人面前,它先對(duì)你微笑,你會(huì)怎么做?你很可能會(huì)回以微笑,也許會(huì)覺得你們兩個(gè)在真誠(chéng)地交流。

但是,機(jī)器人怎么知道如何做到這一點(diǎn)呢?或者更好的問題是,它怎么知道如何讓你回以微笑?

為此,Yuhang Hu 及其同事需要解決兩大難題:一是如何以機(jī)械方式設(shè)計(jì)一個(gè)表情豐富的機(jī)器人面部,這涉及復(fù)雜的硬件和執(zhí)行機(jī)制;二是知道該生成哪種表情,以使它們看起來自然、及時(shí)和真實(shí)。

據(jù)論文描述,Emo 配備了 26 個(gè)致動(dòng)器,頭部覆蓋有柔軟的硅膠皮膚,并配有磁性連接系統(tǒng),從而便于定制和快速維護(hù)。為了實(shí)現(xiàn)更逼真的互動(dòng),研究團(tuán)隊(duì)在 Emo 每只眼睛的瞳孔中都集成了高分辨率攝像頭,使其能夠進(jìn)行眼神交流,這對(duì)非語言交流至關(guān)重要。

圖|Robot face 平臺(tái)

另外,他們還開發(fā)了兩個(gè)人工智能模型:其中一個(gè)通過分析目標(biāo)面部的細(xì)微變化預(yù)測(cè)人類面部表情,另一個(gè)則利用相應(yīng)的面部表情生成運(yùn)動(dòng)指令。第一個(gè)模型是通過觀看網(wǎng)絡(luò)視頻進(jìn)行訓(xùn)練的,而第二個(gè)模型則是通過讓機(jī)器人觀看自己在實(shí)時(shí)攝像機(jī)畫面上的表情來訓(xùn)練的。他們通過與其他基線進(jìn)行定量評(píng)估,證明了這兩個(gè)模型的有效性。

圖|模型架構(gòu)。逆向模型(A)和預(yù)測(cè)模型(B)

為了訓(xùn)練 Emo 學(xué)會(huì)做出面部表情,研究團(tuán)隊(duì)把 Emo 放在攝像頭前,讓它做隨機(jī)動(dòng)作。幾個(gè)小時(shí)后,Emo 就學(xué)會(huì)了面部表情與運(yùn)動(dòng)指令之間的關(guān)系——就像人類通過照鏡子練習(xí)面部表情一樣。他們將其稱為“自我建模”——類似于人類想象自己做出特定表情時(shí)的樣子。

然后,研究團(tuán)隊(duì)播放人類面部表情的視頻,讓 Emo 逐幀觀察。經(jīng)過幾個(gè)小時(shí)的訓(xùn)練后,Emo 便可以通過觀察人們面部的微小變化來預(yù)測(cè)他們的面部表情。

在 Yuhang Hu 看來,準(zhǔn)確預(yù)測(cè)人類的面部表情是人機(jī)交互技術(shù)的重要突破,“當(dāng)機(jī)器人與人進(jìn)行實(shí)時(shí)表情交互時(shí),不僅能提高交互質(zhì)量,還有助于建立人與機(jī)器人之間的信任。未來,在與機(jī)器人互動(dòng)時(shí),機(jī)器人會(huì)像真人一樣觀察和解讀你的面部表情?!?/p>

值得一提的是,這項(xiàng)研究的潛在影響或許已經(jīng)超越機(jī)器人學(xué),擴(kuò)展到神經(jīng)科學(xué)和實(shí)驗(yàn)心理學(xué)等領(lǐng)域。

例如,一個(gè)可以預(yù)測(cè)和同步面部表情的機(jī)器人系統(tǒng)可以作為研究鏡像神經(jīng)元系統(tǒng)的工具。通過在測(cè)量大腦活動(dòng)的同時(shí)與參與者互動(dòng),研究人員可以深入了解社會(huì)互動(dòng)和交流的神經(jīng)相關(guān)性。

在心理學(xué)領(lǐng)域,具有預(yù)測(cè)和同步面部表情能力的機(jī)器人可用作教育工具,幫助自閉癥患者發(fā)展更好的社交溝通技能。已有研究表明,機(jī)器人可以有效地吸引患有自閉癥譜系障礙(ASD)的兒童,促進(jìn)他們的社交互動(dòng)。

不足與展望

盡管 Emo 已經(jīng)可以預(yù)測(cè)人類面部表情并同步快速回應(yīng),但遠(yuǎn)不具備完全捕捉到人類的面部交流能力,甚至在由成人模樣的機(jī)器人進(jìn)行模仿時(shí),可能會(huì)讓人感覺厭惡。

然而,研究團(tuán)隊(duì)認(rèn)為,就像嬰兒在學(xué)會(huì)模仿父母之后才能獨(dú)立做出面部表情一樣,機(jī)器人必須先學(xué)會(huì)預(yù)測(cè)和模仿人類的表情,然后才能成熟地進(jìn)行更加自發(fā)和自我驅(qū)動(dòng)的表情交流。

在未來的工作中,他們希望擴(kuò)大 Emo 的表情范圍,并希望訓(xùn)練 Emo 根據(jù)人類所說的話做出表情。他們正在努力將語言交流整合到 Emo 中,并接入類似 ChatGPT 的大型語言模型。

然而,他們也表示,必須謹(jǐn)慎選擇機(jī)器人模仿的面部表情。例如,某些面部姿態(tài),如微笑、點(diǎn)頭和保持眼神接觸,通常會(huì)自然地得到回應(yīng),并且在人類交流中會(huì)被積極地看待。相反,對(duì)于噘嘴或皺眉等表情的模仿則應(yīng)謹(jǐn)慎,因?yàn)檫@些表情有可能被誤解為嘲諷或傳達(dá)非預(yù)期的情緒。

另外,人類用戶如何感知這些表情才是衡量成功與否的最終標(biāo)準(zhǔn)。未來的一個(gè)重要步驟是驗(yàn)證這些表情在現(xiàn)實(shí)世界中人與機(jī)器人在各種情境下互動(dòng)時(shí)的情感效果,以確定其心理有效性。

此外,該研究也存在一定的局限性,其中之一為“模型的預(yù)測(cè)和表情模仿可能缺乏文化敏感性”。

眾所周知,不同的文化可能會(huì)對(duì)某些面部表情有不同的規(guī)范和含義。例如,雖然在許多文化中,微笑通常被認(rèn)為是快樂或友好的標(biāo)志,但它也可能是尷尬或不確定的標(biāo)志。同樣,直接的目光接觸在某些文化中可能被視為自信和誠(chéng)實(shí)的表現(xiàn),但在其他文化中卻可能被視為粗魯或?qū)埂?/p>

未來的工作可以探索將文化背景融入到模型中,一個(gè)可能的方法是納入來自不同文化背景的數(shù)據(jù)集,并在算法中融入對(duì)文化規(guī)范的理解。

圖|Yuhang Hu 在 Hod Lipson 的實(shí)驗(yàn)室工作。(來源:John Abbott/哥倫比亞工程學(xué)院)

最后,一個(gè)不能逃避的話題是,隨著機(jī)器人的行為能力越來越像人類,研究團(tuán)隊(duì)必須考慮與這項(xiàng)技術(shù)相關(guān)的倫理問題。杜絕可能的技術(shù)濫用(如欺騙或操縱),需要強(qiáng)有力的倫理框架和管理。

盡管如此,這一研究也著實(shí)令人十分興奮。正如研究團(tuán)隊(duì)所言:

“我們正逐步接近這樣一個(gè)未來——機(jī)器人可以無縫融入我們的日常生活,為我們提供陪伴、幫助,甚至是共鳴。想象一下,在這個(gè)世界上,與機(jī)器人互動(dòng)就像與朋友交談一樣自然和舒適?!?/p>

參考鏈接:

https://www.science.org/doi/10.1126/scirobotics.adi4724

https://www.science.org/doi/10.1126/scirobotics.ado5755

https://www.engineering.columbia.edu/news/robot-can-you-say-cheese

https://www.creativemachineslab.com/

歡迎掃碼關(guān)注深i科普!

我們將定期推出

公益、免費(fèi)、優(yōu)惠的科普活動(dòng)和科普好物!


聽說,打賞我的人最后都找到了真愛。
做科普,我們是認(rèn)真的!
掃描關(guān)注深i科普公眾號(hào)
加入科普活動(dòng)群
  • 參加最新科普活動(dòng)
  • 認(rèn)識(shí)科普小朋友
  • 成為科學(xué)小記者