近日,第三屆清華大學(xué)汽車(chē)芯片設計及產(chǎn)業(yè)應用研討會(huì )暨校友論壇在蕪湖成功舉行。作為本次活動(dòng)的特邀嘉賓,超星未來(lái)聯(lián)合創(chuàng )始人、CEO梁爽博士出席并發(fā)表主題演講《軟硬件協(xié)同優(yōu)化,賦能AI 2.0新時(shí)代》。
大模型是AI 2.0時(shí)代的“蒸汽機”
AI+X應用落地及邊緣計算將成為關(guān)鍵
自ChatGPT發(fā)布以來(lái),大模型引爆“第四次工業(yè)革命”,成為AI 2.0時(shí)代的“蒸汽機”,驅動(dòng)著(zhù)千行百業(yè)智能化變革。保爾·芒圖曾說(shuō):“蒸汽機并不創(chuàng )造大工業(yè),但是它卻為大工業(yè)提供了動(dòng)力”,大模型也是如此,本身不會(huì )直接創(chuàng )造新的產(chǎn)業(yè),而是與已有的行業(yè)應用場(chǎng)景及數據結合創(chuàng )造價(jià)值。
WAIC 2024落幕后,有媒體評論:大模型再無(wú)新玩家,AGI下半場(chǎng)是計算與應用。梁爽認為,AGI下半場(chǎng)將是AI+X應用落地和邊緣計算。AI 1.0時(shí)代,服務(wù)器側的神經(jīng)網(wǎng)絡(luò )模型,在安防、智能駕駛等應用領(lǐng)域里逐步下沉到邊緣端,這一趨勢也一定會(huì )在A(yíng)I 2.0的時(shí)代再演繹一次,并且將在智慧城市、汽車(chē)、機器人、消費電子等領(lǐng)域創(chuàng )造出更為廣闊的增量市場(chǎng)。
回顧AI的演進(jìn)歷史,可以看到,AI 1.0時(shí)代的主要模式是通過(guò)單一模型完成單一任務(wù),例如安防、人臉識別、語(yǔ)音識別,以及基于感知-決策-控制分模塊的智能輔助駕駛方案。梁爽認為,現在正進(jìn)入一個(gè)“AI 1.5時(shí)代”,在智能駕駛、機器人等復雜系統中,統一用神經(jīng)網(wǎng)絡(luò )完成各個(gè)模塊功能的實(shí)現,盡量減少人工規則,并通過(guò)數據驅動(dòng)的范式提升性能,大幅降低人工處理各種長(cháng)尾問(wèn)題的難度。在A(yíng)I 2.0時(shí)代,系統將由一個(gè)統一的通用基礎大模型來(lái)應對多源數據輸入,完成多種復雜任務(wù),這一基礎模型應該具備感知萬(wàn)物、知曉常識和理解推理的能力,智能駕駛、機器人的基礎模型本質(zhì)上是同一類(lèi)基礎模型。
端到端與大模型上車(chē)進(jìn)行時(shí)
智能汽車(chē)是邁向通用機器人的必要階段
近年來(lái),智駕系統正在從傳統的單傳感器CNN感知,逐步升級到多傳感器CNN BEV,基于Transformer的BEV和Occupancy方案,并正在向端到端大模型演進(jìn)。隨著(zhù)規控部分逐步模型化,中間沒(méi)有規則介入,因而在海量高質(zhì)量數據驅動(dòng)下,性能天花板會(huì )大幅提升,并大幅降低了應對長(cháng)尾問(wèn)題的人工參與度,使得軟件工程量最多可下降99%。此外,視覺(jué)大模型的上車(chē),幫助智駕系統進(jìn)一步增加了對物理世界復雜語(yǔ)義的理解,使駕駛的行為更接近于人,提升了對未知場(chǎng)景的泛化處理能力。
梁爽指出,智能汽車(chē)將是未來(lái)邁向通用機器人的一個(gè)必要階段,例如TESLA的Optimus機器人和智能汽車(chē)采用了同樣的FSD平臺,并且在系統配置、功能任務(wù)上相同。雖然兩者的系統組成和迭代升級高度相似,但機器人的維度更高、任務(wù)更復雜,大模型下沉部署到邊緣側的設備里,形成一個(gè)“Robot-Brain”,會(huì )成為行業(yè)發(fā)展的關(guān)鍵。
大模型落地邊緣側存在較大挑戰
軟硬件協(xié)同優(yōu)化是現實(shí)可行的落地路徑
過(guò)去十年被稱(chēng)為AI加速器的黃金十年,CNN加速器的能效已經(jīng)提升到了100TOPS/W級別。大模型的規模以及參數增長(cháng)速度遠超CNN時(shí)代,大幅超出了傳統計算硬件的增長(cháng)速度。而當前大模型的處理器能效仍小于1TOPS/W,與邊緣側應用需求存在兩個(gè)數量級的差距,嚴重限制了大模型的落地。
(摘選自汪玉教授發(fā)表于2024年1月的報告《端側大模型推理,智能芯片的現狀與展望》)
目前很多手機端本地部署的2B以?xún)鹊?ldquo;小”模型,在應用到邊緣側場(chǎng)景時(shí),通常會(huì )出現歷史信息遺忘等能力限制,而需求量更大、效果顯著(zhù)提升的7B量級以上的大模型,通常難以部署到現有的邊緣側芯片上,主要原因包括:(1)傳統架構矩陣算力缺口明顯,大模型中50-80%算力需求在A(yíng)ttention層中的各類(lèi)矩陣計算,并且KV矩陣有明顯稀疏性,需要專(zhuān)項支持;(2)大模型的參數量和帶寬需求巨大,單7B級別的浮點(diǎn)模型就需要28GByte的存儲空間,且權重的局域性比較低,所以大模型計算處理的過(guò)程需要頻繁地對外存進(jìn)行讀取,每個(gè)Token的帶寬需求都會(huì )大于10GB/s;(3)當前架構精度類(lèi)型不足,計算精度傳統的CNN網(wǎng)絡(luò )通??梢杂肐NT8實(shí)現較好的處理效果,而大模型中的各類(lèi)算子會(huì )需要諸如INT4/FP8/BF16等不同精度的計算支持,并且像激活層、Norm層等的數據動(dòng)態(tài)范圍大,導致很多已有的量化算法也不能很好地支持。
從提升大模型在邊緣側處理能效的方法來(lái)看,一種是通過(guò)提升工藝水平scaling down,但受摩爾定律和國際形勢的影響,很難再繼續持續;另一種是通過(guò)新器件和新系統,但應用的成熟度還有待技術(shù)上的進(jìn)一步提升與完善。但在當下來(lái)看最為現實(shí)的實(shí)現手段,就是針對大模型應用來(lái)做軟硬件協(xié)同優(yōu)化,軟件上通過(guò)新的混合量化方法以及稀疏化處理,硬件上則針對大模型中常見(jiàn)的算法結構進(jìn)行加速設計,從而整體上實(shí)現2-3個(gè)數量級的能效提升。
針對大模型任務(wù)新需求深度優(yōu)化
超星未來(lái)實(shí)現邊緣側AGI計算行業(yè)領(lǐng)先
超星未來(lái)主要面向各類(lèi)邊緣智能場(chǎng)景,提供以AI計算芯片為核心、軟硬件協(xié)同的高能效計算方案,致力于成為邊緣側AGI計算的引領(lǐng)者。
「平湖/高峽」NPU:團隊十年磨一劍,實(shí)現性能行業(yè)天花板
針對智能駕駛及大模型所需要的神經(jīng)網(wǎng)絡(luò )計算任務(wù),超星未來(lái)自研了高性能AI處理核心「平湖」和「高峽」?!钙胶筃PU主要針對以CNN和少量Transformer的感知類(lèi)任務(wù)提供高效的計算,「高峽」NPU則是面向高階智駕以及大模型的實(shí)時(shí)處理專(zhuān)門(mén)設計的加速核心。
其中「平湖」NPU針對主流CNN/Transformer模型的推理延遲以及幀率均為行業(yè)最領(lǐng)先水平,與某款市場(chǎng)上被廣泛認可的競品相比,單位算力的推理幀率在CNN任務(wù)上提高10倍,Transformer任務(wù)提高25倍。
「高峽」NPU架構采用了混合粒度的指令集設計,單Cluster可實(shí)現40TOPS算力,支持INT4/INT8/FP8/BF16多種不同計算精度,并且在內部緩存設計上做了優(yōu)化設計,另外針對Sparse Attention和三維稀疏卷積,設計了專(zhuān)用的加速結構。通過(guò)這些優(yōu)化設計,「高峽」NPU實(shí)現了對典型的生成式大模型的實(shí)時(shí)計算支持,LLaMA3-8B生成速度最高可達60tokens/s。此外,「高峽」NPU可以用相較NVIDIA Orin芯片1%的計算邏輯面積,來(lái)實(shí)現近乎等同的三維稀疏卷積處理速率。
「驚蟄」系列芯片:已于多領(lǐng)域批量落地,最新產(chǎn)品實(shí)現大模型邊緣側實(shí)時(shí)計算
基于自研的NPU核心,超星未來(lái)在2022年底發(fā)布了邊緣側AI計算芯片「驚蟄R1」,NPU算力為16TOPS@INT8,典型功耗僅7-8W,從而可以支撐起各類(lèi)系統方案的自然散熱設計。「驚蟄R1」目前已在汽車(chē)、電力、煤礦以及機器人等領(lǐng)域實(shí)現了批量落地。
超星未來(lái)也即將發(fā)布「驚蟄」系列下一代芯片,可實(shí)現對大模型的實(shí)時(shí)處理,在12nm制程下將等同于驍龍8Gen3、天璣9300等SOTA手機芯片的處理效果。按照超星未來(lái)的芯片產(chǎn)品發(fā)展路徑圖,公司將繼續保持產(chǎn)品矩陣的可擴展性,從邊緣感知到智駕升級,逐步邁向“Robot-Brain”。
「魯班」模型部署工具鏈:集成大模型優(yōu)化新方法,軟件協(xié)同實(shí)現40倍性能提升
在高效硬件架構的基礎上,超星未來(lái)面向神經(jīng)網(wǎng)絡(luò )應用打造深度優(yōu)化的「魯班」工具鏈,可使邊緣側推理速度提高40倍以上,具體包括:
(1)業(yè)內領(lǐng)先的混合精度量化工具,支持PTQ/QAT/AWQ功能,支持INT4/INT8/FP8/BF16精度,量化損失小于1%;
(2)高效模型優(yōu)化工具,支持敏感度分析、蒸餾、Lora,在精度損失小于1%的情況下,模型壓縮率超10倍;
(3)高性能編譯工具,提供豐富的計算圖優(yōu)化技術(shù)及面向異構核心的高效指令調度,推理效率可提高4-5倍以上。
特別針對大模型任務(wù),「魯班」通過(guò)特有的稀疏離群點(diǎn)保持和混合位寬量化的方法,可將權重位寬下探到平均2.8bit?;谙∈柩谀さ姆椒?,可實(shí)現在模型處理能力相當的情況下,將LLaMA3-8B壓縮90%以上,大幅縮減了模型的參數和計算量。
「倉頡」數據閉環(huán)平臺:實(shí)現數據自動(dòng)化生產(chǎn),構建應用迭代閉環(huán)
在大模型時(shí)代,高質(zhì)量算法迭代需要功能強大的數據閉環(huán)工具。因此超星未來(lái)打造了「倉頡」平臺,包括數據管理、數據挖掘、數據增強、真值生產(chǎn)、模型生產(chǎn)和算法評測等功能,并且在多個(gè)環(huán)節都應用了大模型來(lái)提供功能上的增強。
基于該平臺,通過(guò)構建完整流程,客戶(hù)可以從環(huán)境中獲取有效數據,并盡可能降低人工的參與程度,實(shí)現自動(dòng)的數據挖掘和標注,從而助力客戶(hù)實(shí)現數據驅動(dòng)算法的迭代。目前「倉頡」平臺已為車(chē)企、Tier1等客戶(hù)提供了服務(wù),同時(shí)也在延伸為機器人客戶(hù)提供支持的能力。
腳踏實(shí)地,快步向前
為客戶(hù)提供高效的“AI+”
基于團隊在A(yíng)I領(lǐng)域十余年的研發(fā)與實(shí)踐經(jīng)歷,超星未來(lái)緊跟AI 1.0到AI 2.0的發(fā)展路徑,不斷打磨核心產(chǎn)品,實(shí)現AI+X應用落地。
在邊緣側場(chǎng)景,超星未來(lái)已在電力、煤礦等泛安防領(lǐng)域實(shí)現了芯片產(chǎn)品的批量落地,實(shí)現了規?;臓I(yíng)收回報,并通過(guò)落地,持續迭代產(chǎn)品相關(guān)生態(tài),形成對智能駕駛與AGI等長(cháng)周期方向的反哺。“在當前惡劣的市場(chǎng)環(huán)境下,實(shí)現快速的落地才是生存的王道。”
在智能駕駛場(chǎng)景,「驚蟄」系列芯片可支持多維智駕解決方案,如智能前視一體機、雙目前視方案、5-7V高性?xún)r(jià)比行泊一體、11V1L高性能行泊一體等,并涵蓋主流的行車(chē)、泊車(chē)以及智能駕駛和機器人通用的雙目功能。相關(guān)產(chǎn)品的參考解決方案已基于實(shí)車(chē)完成了打通和工程優(yōu)化。目前,超星未來(lái)已與某行業(yè)頭部商用車(chē)OEM合作上車(chē),同時(shí)與多家乘用車(chē)OEM客戶(hù)達成業(yè)務(wù)合作,預計最早于2025年實(shí)現批量上車(chē)。
在邊緣側大模型推理場(chǎng)景,基于「魯班」工具鏈的軟硬件協(xié)同優(yōu)化能力,超星未來(lái)最新芯片產(chǎn)品在驗證平臺上實(shí)測ChatGLM-6B可以達到超過(guò)15tokens/s的生成速度,10W量級的芯片即可支持高性能大模型的邊緣落地;「高峽」NPU平臺Stable Diffusion 1.5版本可以在3.5s內完成圖片生成?;谝陨夏芰?,超星未來(lái)已與行業(yè)頭部的機器人客戶(hù)、大模型廠(chǎng)商等達成合作。
道阻且長(cháng),行則將至
共同構建AI 2.0新時(shí)代
“我們對技術(shù)發(fā)展的預估和意識通常是低估和滯后的,技術(shù)的發(fā)展一旦突破某個(gè)閾值,就會(huì )爆炸式地增長(cháng)、覆蓋,比如從ChatGPT的發(fā)布到現如今的‘千模大戰’。不論是高階的智能駕駛,還是通用機器人應用,只要技術(shù)范式是正確的,人員與資金持續投入,‘ChatGPT時(shí)刻’就一定會(huì )到來(lái),而且這個(gè)時(shí)刻或許會(huì )比我們想象得來(lái)得更快。”梁爽表示,“超星未來(lái)期待與各位合作伙伴攜手,從AI 1.0時(shí)代逐步邁進(jìn),共建AI 2.0的新時(shí)代。”