輕鬆神遊,指尖美景。

理想汽車VLA司機大模型釋出:從動物智慧到人類智慧_訓練方法_三個階段_交通


2025年5月13日12時17分 收藏 標記本文 理想汽車VLA司機大模型發布:從動物智能到人類智能 -- :來源:科記匯發布於:河北省年月日,“理想AI T...

- 2025年5月13日12時17分
-

理想汽車VLA司機大模型釋出:從動物智慧到人類智慧

作者:科記匯

2025年5月7日,“理想AI Talk第二季——理想VLA司機大模型,從動物進化到人類”活動舉辦。理想汽車董事長兼CEO李想在活動中分享了對人工智慧的前沿思考,深入解讀了VLA司機大模型的關鍵作用、創新訓練方法、面臨的挑戰,以及對創業和個人成長的見解。

從資訊工具到生產工具,從動物智慧到人類智慧

李想將AI工具細緻地劃分為資訊工具、輔助工具和生產工具三個層級。在當下,大多數人僅僅把AI當作獲取資訊的工具,然而,這種應用方式往往伴隨著大量無效資訊、無效結果和無效結論,其價值主要侷限於參考層面。當AI進階為輔助工具時,它能夠顯著提升效率,例如當前的輔助駕駛技術,雖然在一定程度上減輕了駕駛員的負擔,但仍然離不開人類的即時參與和監督。

李想指出,只有當AI發展成為生產工具,能夠獨立承擔專業任務,才是其真正爆發的時刻。他形象地比喻道:“就像人類會僱傭司機,人工智慧技術最終也會承擔類似職責,成為真正的生產工具。” 這一觀點清晰地描繪了AI未來的發展方向,即從單純的輔助角色轉變為能夠獨立完成複雜任務的關鍵生產力。

VLA(Vision-Language-Action Model,視覺語言行動模型)的誕生標誌著AI在自動駕駛領域的重大突破,它使得AI能夠真正成為司機,成為交通領域的專業生產工具。李想強調,VLA的實現並非一蹴而就的突變,而是一個循序漸進的進化過程,這一過程經歷了三個階段,與理想汽車輔助駕駛的發展歷程緊密相連,生動地詮釋了技術的迭代與升級。


第一階段,自2021年起,理想汽車自主研發的輔助駕駛系統依賴規則演算法和高精地圖,這一階段的智慧水平類似於“昆蟲動物智慧”。它如同昆蟲遵循本能和既定規則行動一樣,雖然能夠在一定程度上完成任務,但對環境的理解和適應能力相對有限。規則演算法如同昆蟲簡單的神經系統,只能處理相對簡單和固定的情況,面對複雜多變的交通環境,往往顯得力不從心。

第二階段,從2023年開始研究,並於2024年正式推送的端到端 +VLM(Vision Language Model,視覺語言模型)輔助駕駛,已經接近“哺乳動物智慧”。端到端模型透過學習人類的駕駛行為,能夠在大多數常見的交通場景中應對自如,就像哺乳動物透過觀察和模仿來學習生存技能一樣。但在處理複雜問題時,它仍然存在明顯的侷限,例如在面對從未遇到過的特殊路況或突發情況時,可能會出現決策困難或錯誤。儘管可以藉助VLM視覺語言模型提供一定的輔助,但由於VLM使用的是開源模型,在交通領域的專業能力受到很大限制,同時端到端模型在與人類溝通方面也存在障礙,無法準確理解和執行人類的指令。

為了突破這些瓶頸,提升使用者的智慧體驗,理想汽車自2024年起全力開展VLA研究,並在多項頂級學術會議上發表論文,為VLA的發展奠定了堅實的理論基礎。到了第三階段,VLA開啟了 “人類智慧” 的嶄新時代。它能夠透過3D和2D視覺的完美組合,全面、完整地感知物理世界,這與VLM僅能解析2D影像形成了鮮明對比。VLA還擁有一套完整的腦系統,具備強大的語言能力和CoT(Chain of Thought,思維鏈)推理能力,不僅能夠精準地感知周圍環境,還能深入理解交通規則和人類意圖,並真正地執行各種駕駛行動,其運作方式與人類高度相似,展現出了高度的智慧和適應性。

VLA的訓練過程:模擬人類學習,對齊人類價值觀

VLA的訓練過程如同人類學習駕駛技能一樣,分為預訓練、後訓練和強化訓練三個緊密相連的環節,每個環節都模擬了人類學習駕駛的不同階段,確保模型能夠為使用者帶來卓越的舒適性和安全性體驗。

預訓練環節,就像是人類學習物理世界和交通領域的基礎知識和常識。在這個階段,模型透過海量的高畫質2D和3D Vision(視覺)資料、豐富的交通相關的Language(語言)語料,以及與物理世界相關的VL(Vision Language,視覺和語言)聯合資料進行深度訓練,從而構建出雲端的VL基座模型。隨後,透過蒸餾技術將其轉化為在車端高效執行的端側模型,為後續的學習和應用奠定堅實基礎。

後訓練環節,則類似於人類進入駕校進行專業的駕駛學習。隨著Action(動作)資料的融入,即對周圍環境和自車駕駛行為的精確編碼,VL基座模型逐漸演變為VLA司機大模型。得益於短鏈條的CoT,以及Diffusion擴散模型對他車軌跡和環境的精準預測,VLA具備了出色的即時性特點,能夠在複雜多變的交通環境中靈活應對,實現高效的博弈能力,就像一個熟練的駕駛員能夠根據路況做出及時、準確的判斷和決策。

強化訓練環節,類似於人類在社會中實際開車練習,不斷積累經驗、提升技能。其目標是讓VLA司機大模型更加安全、舒適,與人類價值觀高度對齊,甚至在某些方面超越人類駕駛水平。強化訓練包含兩部分:一是透過RLHF(Reinforcement Learning from Human Feedback,基於人類反饋的強化學習)完成安全對齊,使模型嚴格遵守交通規則,充分貼閤中國使用者的獨特駕駛習慣;二是將純強化學習模型放入世界模型中進行訓練,進一步提升舒適性,有效避免碰撞事故,始終遵守交通規則。經過這一系列嚴謹、科學的訓練過程後,VLA司機大模型即可部署至車端,為使用者提供安全、智慧的駕駛服務。

VLA司機大模型以“司機Agent(智慧體)”的創新產品形態呈現,使用者可以透過自然語言與司機Agent輕鬆溝通,就像與人類司機交流一樣便捷自然。簡單通用的短指令可由端側的VLA直接處理,快速響應;複雜指令則先由雲端的VL基座模型進行深入解析,再交由VLA進行精準處理,確保使用者的每一個指令都能得到準確、高效的執行。

超級對齊與世界模型,解決AI的安全與黑盒問題

在追求AI技術進步的同時,理想汽車高度重視VLA司機大模型的安全性和模型黑盒問題。隨著模型能力的不斷提升,職業性約束變得愈發重要,它如同為模型劃定了一條清晰的底線,確保其行為始終符合安全和道德標準。

為了保障VLA司機大模型能夠實現職業司機般的安全和舒適,避免出現學習加塞等違規行為,理想汽車在強化訓練環節投入了大量的資源。2024年底,理想汽車組建了超過100人的超級對齊團隊,這個團隊就像是為司機Agent注入了專業的職業素養,從多個維度對模型進行約束和最佳化。在法規常識方面,確保模型嚴格避免實線變道、闖紅燈等危險錯誤行為;在行為一致性方面,保證模型在安全、舒適和與人的駕駛習慣一致性上達到高標準,無論是加減速的平穩性,還是轉彎、變道的合理性,都能讓使用者感受到如同人類司機駕駛般的安心和舒適;在技術安全一致性方面,全力避免車輛被遠端惡意入侵操作,同時在惡劣天氣等特殊情況下,能夠及時、準確地向用戶反饋感測器的狀態,確保駕駛安全。

為了解決模型的黑盒問題,理想汽車創新性地結合重建和生成兩種路徑,打造了真實、符合物理世界規律的世界模型。這個世界模型涵蓋了所有交通參與者和要素,就像一個虛擬的真實交通世界。基於世界模型強大的模擬能力,VLA可以在這個虛擬環境中低成本、準確地驗證現實問題,大大提升瞭解決問題的效率,有效應對了模型黑盒帶來的諸多挑戰。透過在世界模型中進行大量的模擬測試和最佳化,VLA能夠不斷改進自身的決策和行為,確保在實際駕駛中的安全性和可靠性。

判斷司機Agent是否是一個優秀的司機,有三個關鍵標準:專業能力、職業能力和構建信任的能力。VLA司機大模型透過先進的訓練技術和演算法,顯著提升了專業能力;超級對齊團隊的努力則增強了其職業能力;VLA透過對自然語言的精準理解和具備的記憶能力,有效提升了構建信任的能力,讓使用者能夠放心地將駕駛任務交給它。

在人工智慧時代,理想汽車實現技術快速躍遷的背後,是對從研究、研發到能力表達,再到將能力轉化為業務價值這一完整過程的紮實積累。李想強調,研究是其中的關鍵環節,只有在研究上取得突破,研發的效率才能大幅提升,並且注重將研究成果轉化為實際的業務價值,最終實現技術的落地應用和商業成功。

理想汽車始終堅持自主研發的道路,透過持續的技術創新為使用者創造更大的價值。在輔助駕駛領域,面對英偉達Orin X晶片無法直接執行語言模型的難題,理想汽車憑藉自有編譯團隊,自主研發底層推理引擎,成功使晶片可透過INT4(4位元整型)量化的方式執行VLM,展現了強大的技術實力和創新能力。同時,憑藉在晶片、控制器設計和自研汽車作業系統等方面的綜合優勢,理想汽車實現了讓雙Orin-X晶片和Thor-U晶片運行同等規模的VLA司機大模型,為使用者提供更加穩定、高效的智慧駕駛體驗。

李想表示,大型企業的基本功和能力是其立足市場的根本,是無法被輕易逾越的。得益於DeepSeek的開源,理想汽車在VLA司機大模型的語言能力研發上取得了顯著的提速,節省了近9個月的時間和數億元成本。儘管如此,理想汽車並未滿足於此,而是選擇加大投入,在基座模型上投入超預期3倍的訓練卡,專注打造適配多場景的自研模型。李想堅定地說:“我們可以站在巨人的肩膀上,但它只是其中的一部分。” 在受益於開源技術的同時,理想汽車也積極回饋社會,將自研的汽車作業系統——理想星環OS開源,為行業的發展貢獻自己的力量。


創業與成長,在痛苦中保持正能量

今年7月,理想汽車將迎來成立十週年的重要時刻。回顧這十年的創業歷程,李想感慨萬千,他表示創業路上充滿了艱辛與挑戰,苦多於甜,但他始終選擇保留那些有價值的美好片段,用這些溫暖的回憶激勵自己保持積極向上的正能量。他以樂觀豁達的心態看待創業中的困難與挫折,將企業遭遇的打擊視為必須面對的挑戰,正是這些挑戰促使理想汽車不斷成長和進步,賦予了企業更多的能力。也正是憑藉這份積極樂觀的創業心態,理想汽車才能在激烈的市場競爭中快速崛起,成長為千億營收規模、百萬交付量的新勢力企業。

談及如何成為更有能量的人,李想認為,關鍵在於關注自我,深入瞭解自己的優點和不足,並以成長的心態替代單純的改變。成長意味著不斷增強自身的能力,在面對各種挑戰時能夠從容應對。李想還特別強調親密關係的重要性,他認為關注他人的成長同樣能為自己帶來強大的能量,家人和同事能夠與他形成互補,在工作和生活中相互支撐,共同前行。“我需要家人和同事甚至超過了他們需要我,首先是我需要他們,然後才是他們需要我,我們在一起能夠形成非常強的腦力和心力。” 李想深情地說。

回顧幾次創業經歷,李想感慨地說,從高中創辦個人網站至今,自己的思維方式始終保持著一致性:遇到問題積極解決問題,勇於挑戰他人不願解決的難題,致力於解決使用者的痛點,並不斷向他人學習。不同的是,如今面臨的問題更加複雜多樣,服務的使用者群體日益龐大,公司規模和組織也更加龐大,需要承擔更多的責任和使命。“幾次創業一路走來,最難時有人相助,遇坑也能迅速爬出,一幫人齊心協力變得更好,這是種幸運,也沒什麼可後悔的。” 李想充滿感恩地說。

面對AI的迅猛發展,李想認為,在AI面前所有的人性都應被尊重和保留,無論好壞。因為一切人性都是文化、生命、性格和能力的獨特特質,也是人類真正的生命力所在。AI技術的發展應該是為了更好地服務人類,而不是取代人類的獨特價值。

從使用增程電動和5C超充技術解決電池成本高、充電難、充電慢的行業難題,到自研汽車作業系統攻克傳統汽車作業系統效能差、開發緩慢、晶片匹配週期長等挑戰,理想汽車始終以技術創新為核心驅動力,勇敢地解決行業無法解決的問題。在自研VLA的征程中,理想汽車更是踏入了人工智慧的無人區,展現出了無畏的勇氣和堅定的決心。當前,輔助駕駛正處於新的十字路口,理想汽車將繼續挑戰成長的極限,持續為行業和使用者創造更大的價值,引領智慧汽車行業邁向更加美好的未來。

理想汽車的VLA司機大模型不僅是技術上的重大突破,更是對未來交通和人工智慧發展的一次深刻探索。隨著這一模型的不斷完善和應用,我們有理由期待它將為人們的出行帶來更加安全、智慧、便捷的體驗,推動整個行業邁向新的高度。

-

不保證以上內容的準確性和真實性。市場有風險,投資交易需謹慎。所涉標的不做任何推薦,據此投資交易,風險自擔。

科記匯,資深財經媒體人創辦,財經報道先鋒,年閱讀觀看量數億。關注研究重大財經動態、企業家精神、商業文明發展歷程,報道大型企業、上市公司、創業公司關鍵發展節點。內容同步數十家網路平臺。歡迎提供報道線索和採訪機會。


延伸閱讀

涼山森林消防開展國慶節旅遊景區專項防火行動

天水旅遊景點介紹,天水旅遊推薦五個地方,天水好玩

陝西一景點“再度走紅”,是國家森林公園,距離西安

健康科普|新冠肺炎疫情常態化防控防護指南之旅遊景

秋冬季節來貴州旅遊,荔波大小七孔景區,水美價低還


熱門內容

熱門內容

友善連結