“交交”可用于教育輔導(dǎo)、家庭互動(dòng)、商務(wù)溝通等場景。

上海交大推出口語對話情感大模型,支持多人實(shí)時(shí)對話

2025-04-16 09:08:31發(fā)布     來源:多知    作者:Penny  

  多知4月16日消息,上海交通大學(xué)聽覺認(rèn)知與計(jì)算聲學(xué)實(shí)驗(yàn)室推出純學(xué)術(shù)界自研的支持多人實(shí)時(shí)口語對話的語音情感大模型“交交”,它不僅是一個(gè)智能語音助手,更是一個(gè)多說話人、多語言、多角色、多情感的全能對話伙伴。當(dāng)前,該模型已經(jīng)開啟內(nèi)測申請。

  據(jù)介紹,“交交”可用于教育輔導(dǎo)、家庭互動(dòng)、商務(wù)溝通、客服支持、娛樂陪伴等。

WechatIMG13.jpg

(“交交”對話界面)

  根據(jù)介紹, “交交”,除了在對話上下文內(nèi)容上的強(qiáng)大理解和知識(shí)問答能力,還同時(shí)具備多人對話與身份辨識(shí),多語種和方言感知,角色切換與實(shí)時(shí)模仿,情感實(shí)時(shí)理解和表達(dá)等多項(xiàng)能力。這在目前已知發(fā)布的語音對話大模型中,尚屬首次。

  實(shí)時(shí)對話采用了端到端語音對話,還有基于上下文信息,用思維鏈技術(shù)生成符合對話場景的情感全局表征,用在生動(dòng)的情感語音回復(fù)生成??梢杂糜诳头С帧?/p>

  多人對話很像一個(gè)家庭聚會(huì),或者開會(huì)的場景, “交交”能針對不同的人給出不同的回應(yīng)。這采用了實(shí)時(shí)音色克隆技術(shù)。

  “交交”支持漢語、英語、日語和法語四大主流語言,具備跨語言回復(fù)能力。

  “交交”還具備角色扮演與情感互動(dòng),根據(jù)對話內(nèi)容和場景理解用戶情緒,生成富有情感的回應(yīng)。

  知識(shí)問答方面,涵蓋廣泛的知識(shí)領(lǐng)域,如古詩詞背誦、科學(xué)原理講解、文學(xué)名著解讀等。這可用于家庭輔導(dǎo),輔助教學(xué)。

  根據(jù)介紹,“交交”可靈活拓展,具備對齊策略,支持文本與音頻模態(tài)的任意方式拼接融合,為集成大規(guī)模文本大模型中的多種增強(qiáng)機(jī)制(如聯(lián)網(wǎng)搜索、RAG檢索增強(qiáng)生成等)提供統(tǒng)一且可擴(kuò)展的接口。