第三屆汽車智能座艙技術(shù)峰會(huì)演講實(shí)錄 | 德賽西威李南山：座艙大模型的實(shí)踐和思考

發(fā)布日期：2024-03-12· 中國(guó)汽車報(bào)網(wǎng) 記者：趙玲玲整理編輯：李沛洋

記者：趙玲玲整理編輯:李沛洋

2024年3月8日，在深圳舉辦的2024汽車供應(yīng)鏈新生態(tài)大會(huì)的第三屆汽車智能座艙技術(shù)峰會(huì)上，德賽西威技術(shù)中心大模型技術(shù)專家李南山做了題為《座艙大模型的實(shí)踐和思考》的演講。以下為演講實(shí)錄：

各位專家，各位在場(chǎng)的小伙伴，大家下午好，接下來由我跟大家一起分享一下德賽西威AI大模型上車的實(shí)踐和思考。

我先自我介紹一下，我是來自德賽西威的李南山，在德賽西威工作也有12年，這12年主要搞的是軟件的設(shè)計(jì)，參加過公司很多平臺(tái)的開發(fā)，目前做AI大模型技術(shù)這一塊。同時(shí)服務(wù)的車廠比較多，就不一一贅述了。

說到大模型，大家會(huì)想到openAI和ChatGPT，大模型擁有廣泛知識(shí)能力，同時(shí)具有決策和推理能力的大型數(shù)據(jù)結(jié)構(gòu)，就是模擬人類的認(rèn)知過程，它就是我們的大腦。大模型的特點(diǎn)，首先是一個(gè)生成式的模型，同時(shí)需要大量的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的數(shù)據(jù)結(jié)構(gòu)，同時(shí)具有Transformer架構(gòu)的模型，Transformer是可以模擬人的大腦思考的方式，對(duì)問題進(jìn)行合理推理的能力。

以人工智能發(fā)展的歷史來看，從起步階段到穩(wěn)定發(fā)展蓬勃發(fā)展的階段經(jīng)歷了很多年的發(fā)展。對(duì)大模型預(yù)訓(xùn)練技術(shù)也是經(jīng)過了很多代的迭代，到現(xiàn)在比較成熟的是ChatGPT4，這樣的情況下誕生出了很多為人類服務(wù)的層次，從最底層的算力層到最上層的應(yīng)用層，這邊需要重點(diǎn)提一下的就是服務(wù)層。為什么要提服務(wù)層？比如有了大腦之后，怎么樣為我們服務(wù)，完全取決于服務(wù)層，意味著我們可以對(duì)模型進(jìn)行定制化的開發(fā)，比如說服務(wù)于智能座艙和辦公領(lǐng)域，所以我們有了大腦的框架之后，就可以為現(xiàn)代智能座艙進(jìn)行賦能。

接下來看一下大模型智能座艙，首先從市場(chǎng)的角度來看，預(yù)測(cè)智能座艙在2025年市場(chǎng)的份額可以達(dá)到2千多億元，同時(shí)對(duì)乘用車的語音交互市場(chǎng)的規(guī)模來說，2022年突破22億元。從消費(fèi)者的角度來看，消費(fèi)者為智能座艙的功能模塊買單，比如兒童專屬的功能模塊，多模交互模塊、車載語音模塊，這些模塊是大模型在這些模塊里可以發(fā)揮很大的能力作用。

智能交互未來會(huì)趨向于智能交互和多模交互的方式，所以德賽西威對(duì)這些內(nèi)容做了主動(dòng)感知，基于計(jì)算機(jī)的大平臺(tái)和算力的加持，加上多模態(tài)的感知融合，就可以形成中央控制大腦。中央控制大腦由大模型和大算力組成，這些基礎(chǔ)的情況下就可以為智能座艙賦能，可以做到自主決策性的交互，比如車內(nèi)乘客的關(guān)懷和智能多媒體的控制，甚至做到智能的管家。

從情感和智能化兩條線進(jìn)行區(qū)域的劃分，可以劃分出安全性、便利性、智能管家，當(dāng)前階段的話，在智能座艙里面，語音在便利性這個(gè)階段的。但是未來的趨勢(shì)，肯定會(huì)走向智能管家的方向。

基于大模型座艙的產(chǎn)品理念，基于車載智能語音來看，有三大難點(diǎn)，一是語音的獲??；二是語義的理解；三是語音的識(shí)別。從這三大方向來看，語音的獲取和語音的識(shí)別在市場(chǎng)上是有比較成熟的技術(shù)了，這邊最困難的就是語義的理解，然而大模型剛好就是可以彌補(bǔ)這一個(gè)缺陷的，因?yàn)榇竽Ｐ途哂幸欢ǖ臎Q策能力和推理能力，所以利用大模型可以做到更加便利性和智能性。

對(duì)比普通的車載語音系統(tǒng)與搭載德賽西威大模型車載語音系統(tǒng)，可以看到普通的語音系統(tǒng)里面，它是基于域定義的結(jié)構(gòu)化的模型，這種模型比較簡(jiǎn)單，同時(shí)無法進(jìn)行上下文的理解，所以說無法進(jìn)行多輪對(duì)話。同時(shí)模型的自我更新能力是比較差的，因?yàn)樗闹R(shí)量是有限的，所以產(chǎn)生的對(duì)話是比較生硬的。而搭載了德賽西威車載大模型系統(tǒng)，首先這個(gè)大模型系統(tǒng)是基于Transformer的架構(gòu)，域訓(xùn)練的模型，同時(shí)基于海量預(yù)訓(xùn)練的模型，意味著我們開發(fā)這個(gè)模型的時(shí)候，采用了大量的數(shù)據(jù)訓(xùn)練它，從而可以實(shí)現(xiàn)非常自然的對(duì)話，同時(shí)也可以實(shí)現(xiàn)在后續(xù)用戶的使用過程中是無監(jiān)督的，自己學(xué)習(xí)，不停提升自己能力的。

在車載智能座艙中，大模型的使用來說或者開發(fā)來說有比較多的難點(diǎn)，我列出來四個(gè)難點(diǎn)，一是平臺(tái)使用什么樣的平臺(tái)搭載這樣的大模型。二是如何在智能座艙里讓大模型有更精準(zhǔn)答案回答。三是如何讓大模型可以做到上下文的理解和多輪對(duì)話。四是讓大模型更快的響應(yīng)用戶速度，提高用戶體驗(yàn)。

德賽西威在這些技術(shù)探索和研究的基礎(chǔ)上有很多的突破，比如說平臺(tái)方面的話，采用了B/S架構(gòu)，這種架構(gòu)充分利用算力資源打造了一個(gè)云和端的架構(gòu)平臺(tái)。二是精準(zhǔn)知識(shí)庫(kù)方面做到了專業(yè)知識(shí)庫(kù)的搭載形式，所以在智能座艙里大模型有很專業(yè)的知識(shí)，它都可以一一回答出來。三是使用了槽位技術(shù)，實(shí)現(xiàn)上下文的串通理解，同時(shí)可以實(shí)現(xiàn)很順暢的多輪對(duì)話。四是快速回答方面做了流式的數(shù)據(jù)輸出，可以達(dá)到毫秒級(jí)的應(yīng)答速度，大大提升了用戶的體驗(yàn)。

接下來看一下基于大模型的車載語音產(chǎn)品，主要以兒童出行的痛點(diǎn)為例，我們羅列了帶著兒童出行三大痛點(diǎn)闡述。對(duì)于兒童陪伴有很多基于模型出來的產(chǎn)品，比如說兒童故事機(jī)、早教機(jī)，有了這些之后，我們的智能座艙為什么還需要開發(fā)一個(gè)兒童陪伴的解決方案或者產(chǎn)品。首先，我們的思考是這樣的，大模型在智能座艙需要解決對(duì)兒童的陪伴，一是養(yǎng)成式的玩偶，玩偶可以見證孩子的成長(zhǎng)，可以陪著孩子一起成長(zhǎng)。同時(shí)它有多種模式的選擇，這種模式主要體現(xiàn)在不同小孩的年齡段，都可以適應(yīng)，同時(shí)可以進(jìn)行多模的交互，多模交互主要體現(xiàn)在大模型在智能座艙里可以控制，控制或者使用智能座艙里多種傳感器或者是一些外圍的技術(shù)。

首先看一下場(chǎng)景一，一個(gè)安撫模式，這個(gè)場(chǎng)景的背景是這樣的，一個(gè)媽媽獨(dú)自帶著3歲的小孩去外婆家，寶寶在后面熟睡，清醒之后孩子要聽故事，大模型可以接入進(jìn)來，大模型給寶寶講述兒童故事。寶寶哭鬧的時(shí)候，大模型可以聯(lián)動(dòng)車內(nèi)的攝像頭，感知到寶寶正在哭鬧的情緒，大模型識(shí)別到這些場(chǎng)景之后，給到媽媽一個(gè)信號(hào)，是不是要進(jìn)行安撫模式。開車媽媽啟動(dòng)了安撫模式之后，大模型會(huì)自動(dòng)地利用外婆的聲紋給小孩進(jìn)行安撫，讓小孩不再哭鬧。

場(chǎng)景二，陪伴模式，7歲的小明的愛好是喜歡唱歌，上車之后，大模型識(shí)別到小明比較開心，比如說六一兒童節(jié)表演了唱歌的節(jié)目，大模型識(shí)別到這樣的場(chǎng)景之后，會(huì)調(diào)出歌曲的一些伴奏，可以哼唱，讓小明進(jìn)行一定的哼唱，大模型可以控制車內(nèi)的燈光。整個(gè)過程大模型對(duì)數(shù)據(jù)有一定的記錄，同時(shí)在這些數(shù)據(jù)，可以發(fā)送到家長(zhǎng)的手機(jī)上，一起讓家長(zhǎng)參與共享，同時(shí)對(duì)小明的成長(zhǎng)來說是打卡性的，所以大模型有陪伴和成長(zhǎng)的功能。

場(chǎng)景三是教育模式，說到教育，對(duì)于大多數(shù)家長(zhǎng)來說，都是一個(gè)比較頭痛的事情，所以我們列舉了一個(gè)爸爸帶著小孩一起出差旅行。爸爸在前面開車，小孩對(duì)車外的事物有新鮮感，所以會(huì)時(shí)不時(shí)會(huì)問前面的山是什么山，前面有什么樣的風(fēng)景，類似這種情況，我們的大模型可以介入進(jìn)來，比如說大模型可以識(shí)別到兒童問了這樣的一些問題之后，聯(lián)動(dòng)汽車上的外部攝像頭拍攝到的畫面，同時(shí)大模型還有綜合上網(wǎng)的能力，查到答案之后給孩子一個(gè)解釋，當(dāng)前這座山是什么樣的山。類似這樣的信息，也可以投屏到車內(nèi)的前后屏，和父母做一個(gè)有效的互動(dòng)。

看一下德賽西威對(duì)大模型的規(guī)劃和進(jìn)展，首先看一下視頻，這個(gè)視頻是德賽西威自己研發(fā)的德賽數(shù)字人，德賽數(shù)字人和智能座艙有效的融合在一起了，這個(gè)融合帶來的好處，首先是取代了傳統(tǒng)的語音助手，可以實(shí)現(xiàn)對(duì)車內(nèi)信號(hào)的控制，比如車內(nèi)報(bào)警都可以進(jìn)行實(shí)時(shí)的播報(bào)。二是數(shù)字人可以幫我們?cè)陂_車的過程中實(shí)現(xiàn)簡(jiǎn)單的辦公模式，比如幫我們回復(fù)郵件或者回復(fù)信息。

對(duì)于大模型在辦公領(lǐng)域，德賽西威是這樣看待的。首先，在公司的內(nèi)網(wǎng)和大模型已經(jīng)打通了，同時(shí)在工作中想問一下當(dāng)前項(xiàng)目的進(jìn)度，當(dāng)前的項(xiàng)目成員有哪些，都可以通過大模型給出一個(gè)精準(zhǔn)的答案，甚至在軟件領(lǐng)域開發(fā)的程序員來說，他可以借助大模型幫他生成功能性的片段代碼，這樣的方式可以提高一定的生產(chǎn)率。

接下來看一下德賽西威對(duì)AI大模型后續(xù)的一些規(guī)劃，這邊我羅列了三點(diǎn)。

首先是有感智知，通過AI技術(shù)感知艙內(nèi)生命的身心狀態(tài)，意味著大模型可以給座艙內(nèi)的生命狀態(tài)進(jìn)行一定的監(jiān)督，同時(shí)給出更好更健康的信息。二是數(shù)字情緒，也就是通過AI技術(shù)理性表達(dá)有溫度的情緒，這一點(diǎn)是在智能座艙里，它并不是一個(gè)冰冷的座艙，而是有溫度、有情緒的座艙。三是具身相通，主要是通過AI技術(shù)與個(gè)人身心的深度聯(lián)合，最后打造人機(jī)一體的效果。

我的演講完畢，謝謝！

中國(guó)汽車報(bào)記者趙玲玲整理

責(zé)任編輯：李沛洋