第三屆汽車智能座艙技術(shù)峰會(huì)演講實(shí)錄 | 德賽西威李南山:座艙大模型的實(shí)踐和思考

發(fā)布日期:2024-03-12· 中國汽車報(bào)網(wǎng) 記者:趙玲玲 整理 編輯:李沛洋
記者:趙玲玲 整理 編輯:李沛洋

2024年3月8日,在深圳舉辦的2024汽車供應(yīng)鏈新生態(tài)大會(huì)的第三屆汽車智能座艙技術(shù)峰會(huì)上,德賽西威技術(shù)中心大模型技術(shù)專家李南山做了題為《座艙大模型的實(shí)踐和思考》的演講。以下為演講實(shí)錄:

各位專家,各位在場(chǎng)的小伙伴,大家下午好,接下來由我跟大家一起分享一下德賽西威AI大模型上車的實(shí)踐和思考。

我先自我介紹一下,我是來自德賽西威的李南山,在德賽西威工作也有12年,這12年主要搞的是軟件的設(shè)計(jì),參加過公司很多平臺(tái)的開發(fā),目前做AI大模型技術(shù)這一塊。同時(shí)服務(wù)的車廠比較多,就不一一贅述了。

說到大模型,大家會(huì)想到openAI和ChatGPT,大模型擁有廣泛知識(shí)能力,同時(shí)具有決策和推理能力的大型數(shù)據(jù)結(jié)構(gòu),就是模擬人類的認(rèn)知過程,它就是我們的大腦。大模型的特點(diǎn),首先是一個(gè)生成式的模型,同時(shí)需要大量的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的數(shù)據(jù)結(jié)構(gòu),同時(shí)具有Transformer架構(gòu)的模型,Transformer是可以模擬人的大腦思考的方式,對(duì)問題進(jìn)行合理推理的能力。

以人工智能發(fā)展的歷史來看,從起步階段到穩(wěn)定發(fā)展蓬勃發(fā)展的階段經(jīng)歷了很多年的發(fā)展。對(duì)大模型預(yù)訓(xùn)練技術(shù)也是經(jīng)過了很多代的迭代,到現(xiàn)在比較成熟的是ChatGPT4,這樣的情況下誕生出了很多為人類服務(wù)的層次,從最底層的算力層到最上層的應(yīng)用層,這邊需要重點(diǎn)提一下的就是服務(wù)層。為什么要提服務(wù)層?比如有了大腦之后,怎么樣為我們服務(wù),完全取決于服務(wù)層,意味著我們可以對(duì)模型進(jìn)行定制化的開發(fā),比如說服務(wù)于智能座艙和辦公領(lǐng)域,所以我們有了大腦的框架之后,就可以為現(xiàn)代智能座艙進(jìn)行賦能。

接下來看一下大模型智能座艙,首先從市場(chǎng)的角度來看,預(yù)測(cè)智能座艙在2025年市場(chǎng)的份額可以達(dá)到2千多億元,同時(shí)對(duì)乘用車的語音交互市場(chǎng)的規(guī)模來說,2022年突破22億元。從消費(fèi)者的角度來看,消費(fèi)者為智能座艙的功能模塊買單,比如兒童專屬的功能模塊,多模交互模塊、車載語音模塊,這些模塊是大模型在這些模塊里可以發(fā)揮很大的能力作用。

智能交互未來會(huì)趨向于智能交互和多模交互的方式,所以德賽西威對(duì)這些內(nèi)容做了主動(dòng)感知,基于計(jì)算機(jī)的大平臺(tái)和算力的加持,加上多模態(tài)的感知融合,就可以形成中央控制大腦。中央控制大腦由大模型和大算力組成,這些基礎(chǔ)的情況下就可以為智能座艙賦能,可以做到自主決策性的交互,比如車內(nèi)乘客的關(guān)懷和智能多媒體的控制,甚至做到智能的管家。

從情感和智能化兩條線進(jìn)行區(qū)域的劃分,可以劃分出安全性、便利性、智能管家,當(dāng)前階段的話,在智能座艙里面,語音在便利性這個(gè)階段的。但是未來的趨勢(shì),肯定會(huì)走向智能管家的方向。

基于大模型座艙的產(chǎn)品理念,基于車載智能語音來看,有三大難點(diǎn),一是語音的獲??;二是語義的理解;三是語音的識(shí)別。從這三大方向來看,語音的獲取和語音的識(shí)別在市場(chǎng)上是有比較成熟的技術(shù)了,這邊最困難的就是語義的理解,然而大模型剛好就是可以彌補(bǔ)這一個(gè)缺陷的,因?yàn)榇竽P途哂幸欢ǖ臎Q策能力和推理能力,所以利用大模型可以做到更加便利性和智能性。

對(duì)比普通的車載語音系統(tǒng)與搭載德賽西威大模型車載語音系統(tǒng),可以看到普通的語音系統(tǒng)里面,它是基于域定義的結(jié)構(gòu)化的模型,這種模型比較簡(jiǎn)單,同時(shí)無法進(jìn)行上下文的理解,所以說無法進(jìn)行多輪對(duì)話。同時(shí)模型的自我更新能力是比較差的,因?yàn)樗闹R(shí)量是有限的,所以產(chǎn)生的對(duì)話是比較生硬的。而搭載了德賽西威車載大模型系統(tǒng),首先這個(gè)大模型系統(tǒng)是基于Transformer的架構(gòu),域訓(xùn)練的模型,同時(shí)基于海量預(yù)訓(xùn)練的模型,意味著我們開發(fā)這個(gè)模型的時(shí)候,采用了大量的數(shù)據(jù)訓(xùn)練它,從而可以實(shí)現(xiàn)非常自然的對(duì)話,同時(shí)也可以實(shí)現(xiàn)在后續(xù)用戶的使用過程中是無監(jiān)督的,自己學(xué)習(xí),不停提升自己能力的。

在車載智能座艙中,大模型的使用來說或者開發(fā)來說有比較多的難點(diǎn),我列出來四個(gè)難點(diǎn),一是平臺(tái)使用什么樣的平臺(tái)搭載這樣的大模型。二是如何在智能座艙里讓大模型有更精準(zhǔn)答案回答。三是如何讓大模型可以做到上下文的理解和多輪對(duì)話。四是讓大模型更快的響應(yīng)用戶速度,提高用戶體驗(yàn)。

德賽西威在這些技術(shù)探索和研究的基礎(chǔ)上有很多的突破,比如說平臺(tái)方面的話,采用了B/S架構(gòu),這種架構(gòu)充分利用算力資源打造了一個(gè)云和端的架構(gòu)平臺(tái)。二是精準(zhǔn)知識(shí)庫方面做到了專業(yè)知識(shí)庫的搭載形式,所以在智能座艙里大模型有很專業(yè)的知識(shí),它都可以一一回答出來。三是使用了槽位技術(shù),實(shí)現(xiàn)上下文的串通理解,同時(shí)可以實(shí)現(xiàn)很順暢的多輪對(duì)話。四是快速回答方面做了流式的數(shù)據(jù)輸出,可以達(dá)到毫秒級(jí)的應(yīng)答速度,大大提升了用戶的體驗(yàn)。

接下來看一下基于大模型的車載語音產(chǎn)品,主要以兒童出行的痛點(diǎn)為例,我們羅列了帶著兒童出行三大痛點(diǎn)闡述。對(duì)于兒童陪伴有很多基于模型出來的產(chǎn)品,比如說兒童故事機(jī)、早教機(jī),有了這些之后,我們的智能座艙為什么還需要開發(fā)一個(gè)兒童陪伴的解決方案或者產(chǎn)品。首先,我們的思考是這樣的,大模型在智能座艙需要解決對(duì)兒童的陪伴,一是養(yǎng)成式的玩偶,玩偶可以見證孩子的成長,可以陪著孩子一起成長。同時(shí)它有多種模式的選擇,這種模式主要體現(xiàn)在不同小孩的年齡段,都可以適應(yīng),同時(shí)可以進(jìn)行多模的交互,多模交互主要體現(xiàn)在大模型在智能座艙里可以控制,控制或者使用智能座艙里多種傳感器或者是一些外圍的技術(shù)。

首先看一下場(chǎng)景一,一個(gè)安撫模式,這個(gè)場(chǎng)景的背景是這樣的,一個(gè)媽媽獨(dú)自帶著3歲的小孩去外婆家,寶寶在后面熟睡,清醒之后孩子要聽故事,大模型可以接入進(jìn)來,大模型給寶寶講述兒童故事。寶寶哭鬧的時(shí)候,大模型可以聯(lián)動(dòng)車內(nèi)的攝像頭,感知到寶寶正在哭鬧的情緒,大模型識(shí)別到這些場(chǎng)景之后,給到媽媽一個(gè)信號(hào),是不是要進(jìn)行安撫模式。開車媽媽啟動(dòng)了安撫模式之后,大模型會(huì)自動(dòng)地利用外婆的聲紋給小孩進(jìn)行安撫,讓小孩不再哭鬧。

場(chǎng)景二,陪伴模式,7歲的小明的愛好是喜歡唱歌,上車之后,大模型識(shí)別到小明比較開心,比如說六一兒童節(jié)表演了唱歌的節(jié)目,大模型識(shí)別到這樣的場(chǎng)景之后,會(huì)調(diào)出歌曲的一些伴奏,可以哼唱,讓小明進(jìn)行一定的哼唱,大模型可以控制車內(nèi)的燈光。整個(gè)過程大模型對(duì)數(shù)據(jù)有一定的記錄,同時(shí)在這些數(shù)據(jù),可以發(fā)送到家長的手機(jī)上,一起讓家長參與共享,同時(shí)對(duì)小明的成長來說是打卡性的,所以大模型有陪伴和成長的功能。

場(chǎng)景三是教育模式,說到教育,對(duì)于大多數(shù)家長來說,都是一個(gè)比較頭痛的事情,所以我們列舉了一個(gè)爸爸帶著小孩一起出差旅行。爸爸在前面開車,小孩對(duì)車外的事物有新鮮感,所以會(huì)時(shí)不時(shí)會(huì)問前面的山是什么山,前面有什么樣的風(fēng)景,類似這種情況,我們的大模型可以介入進(jìn)來,比如說大模型可以識(shí)別到兒童問了這樣的一些問題之后,聯(lián)動(dòng)汽車上的外部攝像頭拍攝到的畫面,同時(shí)大模型還有綜合上網(wǎng)的能力,查到答案之后給孩子一個(gè)解釋,當(dāng)前這座山是什么樣的山。類似這樣的信息,也可以投屏到車內(nèi)的前后屏,和父母做一個(gè)有效的互動(dòng)。

看一下德賽西威對(duì)大模型的規(guī)劃和進(jìn)展,首先看一下視頻,這個(gè)視頻是德賽西威自己研發(fā)的德賽數(shù)字人,德賽數(shù)字人和智能座艙有效的融合在一起了,這個(gè)融合帶來的好處,首先是取代了傳統(tǒng)的語音助手,可以實(shí)現(xiàn)對(duì)車內(nèi)信號(hào)的控制,比如車內(nèi)報(bào)警都可以進(jìn)行實(shí)時(shí)的播報(bào)。二是數(shù)字人可以幫我們?cè)陂_車的過程中實(shí)現(xiàn)簡(jiǎn)單的辦公模式,比如幫我們回復(fù)郵件或者回復(fù)信息。

對(duì)于大模型在辦公領(lǐng)域,德賽西威是這樣看待的。首先,在公司的內(nèi)網(wǎng)和大模型已經(jīng)打通了,同時(shí)在工作中想問一下當(dāng)前項(xiàng)目的進(jìn)度,當(dāng)前的項(xiàng)目成員有哪些,都可以通過大模型給出一個(gè)精準(zhǔn)的答案,甚至在軟件領(lǐng)域開發(fā)的程序員來說,他可以借助大模型幫他生成功能性的片段代碼,這樣的方式可以提高一定的生產(chǎn)率。

接下來看一下德賽西威對(duì)AI大模型后續(xù)的一些規(guī)劃,這邊我羅列了三點(diǎn)。

首先是有感智知,通過AI技術(shù)感知艙內(nèi)生命的身心狀態(tài),意味著大模型可以給座艙內(nèi)的生命狀態(tài)進(jìn)行一定的監(jiān)督,同時(shí)給出更好更健康的信息。二是數(shù)字情緒,也就是通過AI技術(shù)理性表達(dá)有溫度的情緒,這一點(diǎn)是在智能座艙里,它并不是一個(gè)冰冷的座艙,而是有溫度、有情緒的座艙。三是具身相通,主要是通過AI技術(shù)與個(gè)人身心的深度聯(lián)合,最后打造人機(jī)一體的效果。

我的演講完畢,謝謝!

中國汽車報(bào)記者趙玲玲 整理

熱門推薦