理想汽車VLA司機大模型釋出：從動物智慧到人類智慧_訓練方法_三個階段_交通

2025年5月13日12時17分標記本文 理想汽車VLA司機大模型發布：從動物智能到人類智能 -- :來源:科記匯發布於：河北省年月日，“理想AI T...
- 2025年5月13日12時17分
-

理想汽車VLA司機大模型釋出：從動物智慧到人類智慧

作者:科記匯

2025年5月7日，“理想AI Talk第二季——理想VLA司機大模型，從動物進化到人類”活動舉辦。理想汽車董事長兼CEO李想在活動中分享了對人工智慧的前沿思考，深入解讀了VLA司機大模型的關鍵作用、創新訓練方法、面臨的挑戰，以及對創業和個人成長的見解。

從資訊工具到生產工具，從動物智慧到人類智慧

李想將AI工具細緻地劃分為資訊工具、輔助工具和生產工具三個層級。在當下，大多數人僅僅把AI當作獲取資訊的工具，然而，這種應用方式往往伴隨著大量無效資訊、無效結果和無效結論，其價值主要侷限於參考層面。當AI進階為輔助工具時，它能夠顯著提升效率，例如當前的輔助駕駛技術，雖然在一定程度上減輕了駕駛員的負擔，但仍然離不開人類的即時參與和監督。

李想指出，只有當AI發展成為生產工具，能夠獨立承擔專業任務，才是其真正爆發的時刻。他形象地比喻道：“就像人類會僱傭司機，人工智慧技術最終也會承擔類似職責，成為真正的生產工具。” 這一觀點清晰地描繪了AI未來的發展方向，即從單純的輔助角色轉變為能夠獨立完成複雜任務的關鍵生產力。

VLA（Vision-Language-Action Model，視覺語言行動模型）的誕生標誌著AI在自動駕駛領域的重大突破，它使得AI能夠真正成為司機，成為交通領域的專業生產工具。李想強調，VLA的實現並非一蹴而就的突變，而是一個循序漸進的進化過程，這一過程經歷了三個階段，與理想汽車輔助駕駛的發展歷程緊密相連，生動地詮釋了技術的迭代與升級。

第一階段，自2021年起，理想汽車自主研發的輔助駕駛系統依賴規則演算法和高精地圖，這一階段的智慧水平類似於“昆蟲動物智慧”。它如同昆蟲遵循本能和既定規則行動一樣，雖然能夠在一定程度上完成任務，但對環境的理解和適應能力相對有限。規則演算法如同昆蟲簡單的神經系統，只能處理相對簡單和固定的情況，面對複雜多變的交通環境，往往顯得力不從心。

第二階段，從2023年開始研究，並於2024年正式推送的端到端 +VLM（Vision Language Model，視覺語言模型）輔助駕駛，已經接近“哺乳動物智慧”。端到端模型透過學習人類的駕駛行為，能夠在大多數常見的交通場景中應對自如，就像哺乳動物透過觀察和模仿來學習生存技能一樣。但在處理複雜問題時，它仍然存在明顯的侷限，例如在面對從未遇到過的特殊路況或突發情況時，可能會出現決策困難或錯誤。儘管可以藉助VLM視覺語言模型提供一定的輔助，但由於VLM使用的是開源模型，在交通領域的專業能力受到很大限制，同時端到端模型在與人類溝通方面也存在障礙，無法準確理解和執行人類的指令。

為了突破這些瓶頸，提升使用者的智慧體驗，理想汽車自2024年起全力開展VLA研究，並在多項頂級學術會議上發表論文，為VLA的發展奠定了堅實的理論基礎。到了第三階段，VLA開啟了 “人類智慧” 的嶄新時代。它能夠透過3D和2D視覺的完美組合，全面、完整地感知物理世界，這與VLM僅能解析2D影像形成了鮮明對比。VLA還擁有一套完整的腦系統，具備強大的語言能力和CoT（Chain of Thought，思維鏈）推理能力，不僅能夠精準地感知周圍環境，還能深入理解交通規則和人類意圖，並真正地執行各種駕駛行動，其運作方式與人類高度相似，展現出了高度的智慧和適應性。

VLA的訓練過程：模擬人類學習，對齊人類價值觀

VLA的訓練過程如同人類學習駕駛技能一樣，分為預訓練、後訓練和強化訓練三個緊密相連的環節，每個環節都模擬了人類學習駕駛的不同階段，確保模型能夠為使用者帶來卓越的舒適性和安全性體驗。

預訓練環節，就像是人類學習物理世界和交通領域的基礎知識和常識。在這個階段，模型透過海量的高畫質2D和3D Vision（視覺）資料、豐富的交通相關的Language（語言）語料，以及與物理世界相關的VL（Vision Language，視覺和語言）聯合資料進行深度訓練，從而構建出雲端的VL基座模型。隨後，透過蒸餾技術將其轉化為在車端高效執行的端側模型，為後續的學習和應用奠定堅實基礎。

後訓練環節，則類似於人類進入駕校進行專業的駕駛學習。隨著Action（動作）資料的融入，即對周圍環境和自車駕駛行為的精確編碼，VL基座模型逐漸演變為VLA司機大模型。得益於短鏈條的CoT，以及Diffusion擴散模型對他車軌跡和環境的精準預測，VLA具備了出色的即時性特點，能夠在複雜多變的交通環境中靈活應對，實現高效的博弈能力，就像一個熟練的駕駛員能夠根據路況做出及時、準確的判斷和決策。

強化訓練環節，類似於人類在社會中實際開車練習，不斷積累經驗、提升技能。其目標是讓VLA司機大模型更加安全、舒適，與人類價值觀高度對齊，甚至在某些方面超越人類駕駛水平。強化訓練包含兩部分：一是透過RLHF（Reinforcement Learning from Human Feedback，基於人類反饋的強化學習）完成安全對齊，使模型嚴格遵守交通規則，充分貼閤中國使用者的獨特駕駛習慣；二是將純強化學習模型放入世界模型中進行訓練，進一步提升舒適性，有效避免碰撞事故，始終遵守交通規則。經過這一系列嚴謹、科學的訓練過程後，VLA司機大模型即可部署至車端，為使用者提供安全、智慧的駕駛服務。

VLA司機大模型以“司機Agent（智慧體）”的創新產品形態呈現，使用者可以透過自然語言與司機Agent輕鬆溝通，就像與人類司機交流一樣便捷自然。簡單通用的短指令可由端側的VLA直接處理，快速響應；複雜指令則先由雲端的VL基座模型進行深入解析，再交由VLA進行精準處理，確保使用者的每一個指令都能得到準確、高效的執行。

超級對齊與世界模型，解決AI的安全與黑盒問題

在追求AI技術進步的同時，理想汽車高度重視VLA司機大模型的安全性和模型黑盒問題。隨著模型能力的不斷提升，職業性約束變得愈發重要，它如同為模型劃定了一條清晰的底線，確保其行為始終符合安全和道德標準。

為了保障VLA司機大模型能夠實現職業司機般的安全和舒適，避免出現學習加塞等違規行為，理想汽車在強化訓練環節投入了大量的資源。2024年底，理想汽車組建了超過100人的超級對齊團隊，這個團隊就像是為司機Agent注入了專業的職業素養，從多個維度對模型進行約束和最佳化。在法規常識方面，確保模型嚴格避免實線變道、闖紅燈等危險錯誤行為；在行為一致性方面，保證模型在安全、舒適和與人的駕駛習慣一致性上達到高標準，無論是加減速的平穩性，還是轉彎、變道的合理性，都能讓使用者感受到如同人類司機駕駛般的安心和舒適；在技術安全一致性方面，全力避免車輛被遠端惡意入侵操作，同時在惡劣天氣等特殊情況下，能夠及時、準確地向用戶反饋感測器的狀態，確保駕駛安全。

為了解決模型的黑盒問題，理想汽車創新性地結合重建和生成兩種路徑，打造了真實、符合物理世界規律的世界模型。這個世界模型涵蓋了所有交通參與者和要素，就像一個虛擬的真實交通世界。基於世界模型強大的模擬能力，VLA可以在這個虛擬環境中低成本、準確地驗證現實問題，大大提升瞭解決問題的效率，有效應對了模型黑盒帶來的諸多挑戰。透過在世界模型中進行大量的模擬測試和最佳化，VLA能夠不斷改進自身的決策和行為，確保在實際駕駛中的安全性和可靠性。

判斷司機Agent是否是一個優秀的司機，有三個關鍵標準：專業能力、職業能力和構建信任的能力。VLA司機大模型透過先進的訓練技術和演算法，顯著提升了專業能力；超級對齊團隊的努力則增強了其職業能力；VLA透過對自然語言的精準理解和具備的記憶能力，有效提升了構建信任的能力，讓使用者能夠放心地將駕駛任務交給它。

在人工智慧時代，理想汽車實現技術快速躍遷的背後，是對從研究、研發到能力表達，再到將能力轉化為業務價值這一完整過程的紮實積累。李想強調，研究是其中的關鍵環節，只有在研究上取得突破，研發的效率才能大幅提升，並且注重將研究成果轉化為實際的業務價值，最終實現技術的落地應用和商業成功。

理想汽車始終堅持自主研發的道路，透過持續的技術創新為使用者創造更大的價值。在輔助駕駛領域，面對英偉達Orin X晶片無法直接執行語言模型的難題，理想汽車憑藉自有編譯團隊，自主研發底層推理引擎，成功使晶片可透過INT4（4位元整型）量化的方式執行VLM，展現了強大的技術實力和創新能力。同時，憑藉在晶片、控制器設計和自研汽車作業系統等方面的綜合優勢，理想汽車實現了讓雙Orin-X晶片和Thor-U晶片運行同等規模的VLA司機大模型，為使用者提供更加穩定、高效的智慧駕駛體驗。

李想表示，大型企業的基本功和能力是其立足市場的根本，是無法被輕易逾越的。得益於DeepSeek的開源，理想汽車在VLA司機大模型的語言能力研發上取得了顯著的提速，節省了近9個月的時間和數億元成本。儘管如此，理想汽車並未滿足於此，而是選擇加大投入，在基座模型上投入超預期3倍的訓練卡，專注打造適配多場景的自研模型。李想堅定地說：“我們可以站在巨人的肩膀上，但它只是其中的一部分。” 在受益於開源技術的同時，理想汽車也積極回饋社會，將自研的汽車作業系統——理想星環OS開源，為行業的發展貢獻自己的力量。

創業與成長，在痛苦中保持正能量

今年7月，理想汽車將迎來成立十週年的重要時刻。回顧這十年的創業歷程，李想感慨萬千，他表示創業路上充滿了艱辛與挑戰，苦多於甜，但他始終選擇保留那些有價值的美好片段，用這些溫暖的回憶激勵自己保持積極向上的正能量。他以樂觀豁達的心態看待創業中的困難與挫折，將企業遭遇的打擊視為必須面對的挑戰，正是這些挑戰促使理想汽車不斷成長和進步，賦予了企業更多的能力。也正是憑藉這份積極樂觀的創業心態，理想汽車才能在激烈的市場競爭中快速崛起，成長為千億營收規模、百萬交付量的新勢力企業。

談及如何成為更有能量的人，李想認為，關鍵在於關注自我，深入瞭解自己的優點和不足，並以成長的心態替代單純的改變。成長意味著不斷增強自身的能力，在面對各種挑戰時能夠從容應對。李想還特別強調親密關係的重要性，他認為關注他人的成長同樣能為自己帶來強大的能量，家人和同事能夠與他形成互補，在工作和生活中相互支撐，共同前行。“我需要家人和同事甚至超過了他們需要我，首先是我需要他們，然後才是他們需要我，我們在一起能夠形成非常強的腦力和心力。” 李想深情地說。

回顧幾次創業經歷，李想感慨地說，從高中創辦個人網站至今，自己的思維方式始終保持著一致性：遇到問題積極解決問題，勇於挑戰他人不願解決的難題，致力於解決使用者的痛點，並不斷向他人學習。不同的是，如今面臨的問題更加複雜多樣，服務的使用者群體日益龐大，公司規模和組織也更加龐大，需要承擔更多的責任和使命。“幾次創業一路走來，最難時有人相助，遇坑也能迅速爬出，一幫人齊心協力變得更好，這是種幸運，也沒什麼可後悔的。” 李想充滿感恩地說。

面對AI的迅猛發展，李想認為，在AI面前所有的人性都應被尊重和保留，無論好壞。因為一切人性都是文化、生命、性格和能力的獨特特質，也是人類真正的生命力所在。AI技術的發展應該是為了更好地服務人類，而不是取代人類的獨特價值。

從使用增程電動和5C超充技術解決電池成本高、充電難、充電慢的行業難題，到自研汽車作業系統攻克傳統汽車作業系統效能差、開發緩慢、晶片匹配週期長等挑戰，理想汽車始終以技術創新為核心驅動力，勇敢地解決行業無法解決的問題。在自研VLA的征程中，理想汽車更是踏入了人工智慧的無人區，展現出了無畏的勇氣和堅定的決心。當前，輔助駕駛正處於新的十字路口，理想汽車將繼續挑戰成長的極限，持續為行業和使用者創造更大的價值，引領智慧汽車行業邁向更加美好的未來。

理想汽車的VLA司機大模型不僅是技術上的重大突破，更是對未來交通和人工智慧發展的一次深刻探索。隨著這一模型的不斷完善和應用，我們有理由期待它將為人們的出行帶來更加安全、智慧、便捷的體驗，推動整個行業邁向新的高度。

不保證以上內容的準確性和真實性。市場有風險，投資交易需謹慎。所涉標的不做任何推薦，據此投資交易，風險自擔。

科記匯，資深財經媒體人創辦，財經報道先鋒，年閱讀觀看量數億。關注研究重大財經動態、企業家精神、商業文明發展歷程，報道大型企業、上市公司、創業公司關鍵發展節點。內容同步數十家網路平臺。歡迎提供報道線索和採訪機會。

延伸閱讀

錦州旅遊景點介紹，錦州好玩地方推薦，錦州著名五個

廊坊消防紮實做好節日期間旅遊景區消防安全工作

週末河北內丘出發2日自駕遊周邊景點攻略推薦

甘肅張掖旅遊景點介紹，張掖旅遊推薦五處景點，張掖

天津到五臺山途徑保定旅遊景點頗多

理想汽車VLA司機大模型釋出：從動物智慧到人類智慧_訓練方法_三個階段_交通

延伸閱讀

熱門內容

我的標記

熱門內容

友善連結