偉景智能(néng)的目标是在2025年前實現低成本,可(kě)量産(chǎn)的人形機器人産(chǎn)品,并利用(yòng)其硬件本體(tǐ)的技(jì )術專利布局與軟件控制與算法,在2025年前将人形機器人成本控制在15萬元人民(mín)币以内。偉景智能(néng)認為(wèi),人形機器人必備條件包括:自主操作(zuò)、自學(xué)習、真正實用(yòng)以及連接未來。目前,一些人形機器人試圖開發語音交互指令,将大型語言模型(LLMs)和視覺-語言模型(VLMs)作(zuò)為(wèi)高級規劃器被融入機器人控制系統。然而,直接将它們用(yòng)于低級控制仍存在許多(duō)問題。絕大多(duō)數 VLMs 是在靜态圖像-語言配對上訓練的,而機器人任務(wù)需要閉環控制的視頻理(lǐ)解。如果有(yǒu)一家公(gōng)司能(néng)夠提供前端視覺認知方案,實現輕量級端側計算,并具(jù)備實時VLMs處理(lǐ)能(néng)力,那麽這家公(gōng)司很(hěn)有(yǒu)可(kě)能(néng)改變人形機器人技(jì )術的發展方向。偉景智能(néng)就是這樣一家專注于機器人視覺領域的公(gōng)司。▍人形機器人的核心在于利用(yòng)先進的視覺系統提升其自主操作(zuò)性在過去的一年中(zhōng),人形機器人視覺技(jì )術領域呈現了多(duō)方競争的局面。特斯拉的Optimus采用(yòng)了8攝像頭的純視覺解決方案,結合Dojo芯片進行圖像算法處理(lǐ),配合其電(diàn)動汽車(chē)上的FSD技(jì )術,實現了對不同物(wù)體(tǐ)和環境信息的理(lǐ)解和處理(lǐ)。小(xiǎo)米的Cyber One則采用(yòng)了相對成本較低的iToF模組和RGB模組進行視覺定位,盡管這種方式成本較低,但精(jīng)度較低,無法完成精(jīng)細化操作(zuò)。波士頓動力Atlas電(diàn)液混驅版本和宇樹科(kē)技(jì )的Unitree H1則采用(yòng)ToF深度相機與激光雷達方案,但這種技(jì )術方案通常需要在恒定光源條件下進行。然而,面對室外強光和反光環境,這種方案在一定程度上限制了其綜合運動能(néng)力。在這一領域,偉景智能(néng)采用(yòng)了一種全新(xīn)的設計理(lǐ)念。公(gōng)司CEO董霄劍認為(wèi),一個真正具(jù)備智能(néng)自主操作(zuò)系統的人形機器人必須具(jù)備高度的感知和認知能(néng)力。這不僅要求機器人能(néng)夠理(lǐ)解和處理(lǐ)三維空間信息,還需要其擁有(yǒu)類似于人類的立體(tǐ)視覺系統。目前,偉景智能(néng)的第二代人形機器人曉唯搭載了ViEye立體(tǐ)視覺系統。該系統的最大優勢在于低成本、可(kě)量産(chǎn)、高抗光、高精(jīng)度,并且具(jù)備端側實時數據處理(lǐ)能(néng)力。偉景智能(néng)“線(xiàn)激光+雙目立體(tǐ)視覺”方案董霄劍表示,自2016年起,偉景智能(néng)一直專注于3D立體(tǐ)視覺技(jì )術的開發,并率先開發了線(xiàn)激光+雙目立體(tǐ)視覺技(jì )術方案,成功應用(yòng)于工(gōng)業分(fēn)揀與碼垛等領域。就研發而言,偉景智能(néng)的3D立體(tǐ)相機從硬件設計到軟件算法均由公(gōng)司自行研發完成,并擁有(yǒu)以下核心技(jì )術優勢:優勢一:偉景的3D相機單個成像面像素數量可(kě)達600萬,是ToF技(jì )術方案的60萬的10倍,為(wèi)人形機器人的精(jīng)細化操作(zuò)提供了廣闊的發展空間。未來,曉唯人形機器人将能(néng)夠通過高精(jīng)度視覺系統完成如穿針引線(xiàn)的操作(zuò)。偉景智能(néng)3D相機具(jù)備高抗光性(金屬不鏽鋼零件)優勢二:具(jù)備高抗光性,滿足人形機器人在各種場景下的作(zuò)業需求。偉景ViEye立體(tǐ)視覺系統的抗光性達到18萬流明,遠(yuǎn)超傳統結構光技(jì )術的8萬流明。這種高抗光性使得人形機器人可(kě)以應用(yòng)于戶外強光場景。未來,結合強化學(xué)習和模仿學(xué)習技(jì )術。曉唯人形機器人将具(jù)備在複雜路面行走的能(néng)力。
優勢三:曉唯人形機器人搭載的ViEye立體(tǐ)視覺系統包含頭部和胸部兩個單元,頭部相機具(jù)有(yǒu)廣視角操作(zuò)能(néng)力,胸部相機則具(jù)有(yǒu)長(cháng)焦操作(zuò)能(néng)力。偉景相機的大景深範圍從500-4000mm,遠(yuǎn)超傳統結構光技(jì )術的最大安(ān)裝(zhuāng)距離2000mm。這意味着曉唯人形機器人在精(jīng)細化操作(zuò)方面具(jù)備了先決條件。優勢四: ViEye立體(tǐ)視覺系統的核心計算芯片由偉景智能(néng)自行研發,無需外部單元介入進行計算。這使得系統能(néng)夠處理(lǐ)每秒(miǎo)高達5000幀的實時數據,實現零延遲。這一特點在人形機器人的商(shāng)業應用(yòng)中(zhōng)至關重要。目前,曉唯人形機器人已實現了在轉身過程中(zhōng)移動手臂進行水果采摘的動作(zuò),而并非轉身動作(zuò)完成後擡起手臂進行采摘。這一點對手眼伺服能(néng)力提出了極高的要求,即便是Figure 01目前也無法完成在運動狀态下的手眼伺服聯動操作(zuò),而偉景是全球唯一一家能(néng)夠實現高度精(jīng)細化手眼伺服協同操作(zuò)的人形機器人企業。▍偉景智能(néng)Natural Learning®為(wèi)人形機器人植入視覺大腦在首屆中(zhōng)國(guó)人形機器人産(chǎn)業大會上,董霄劍作(zuò)為(wèi)演講嘉賓分(fēn)享了偉景智能(néng)基于先前的應用(yòng)案例打造的三種類型的認知庫,分(fēn)别是場景認知庫、平面視覺認知庫和立體(tǐ)數據認知庫。這些認知庫不僅支持機器人對環境的認知,還為(wèi)機器人的操作(zuò)提供了必要的數據支持。通過共享這些認知庫,偉景智能(néng)的平台能(néng)夠實現工(gōng)業級和消費級産(chǎn)品的高效開發。
此外,董霄劍還公(gōng)布了曉唯人形機器人自學(xué)習Natural Learning®技(jì )術路線(xiàn),包括語音指令控制、動作(zuò)規劃與學(xué)習、文(wén)字的學(xué)習與理(lǐ)解以及多(duō)模态交互幾大方向。
我們找到了美國(guó)Figure 01的技(jì )術路線(xiàn),并與偉景智能(néng)Natural Learning®進行了對比發現,Figure 01采用(yòng)了搭載Open AI Model LLM來驅動神經網絡決策産(chǎn)生,神經網絡則驅動機器人本體(tǐ)執行。雖然Figure 01具(jù)備一定的場景認知的泛化能(néng)力,但由于大語言模型目前無法實現人形機器人的本地化部署,因此部分(fēn)數據需要接入雲端,再由雲端反饋轉化為(wèi)動作(zuò)執行命令,這導緻了一定響應時間延遲。這也是為(wèi)什麽Figure 01每次對話都需要停頓2-3秒(miǎo)鍾的原因。偉景智能(néng)Natural Learning®采用(yòng)了另一種技(jì )術路線(xiàn),該技(jì )術路線(xiàn)弱化了雲端計算能(néng)力,更強調前端的實時計算能(néng)力。由于ViEye立體(tǐ)視覺系統沒有(yǒu)延遲,因此不需要強大的本地計算來進行動作(zuò)預測,這在一定程度上減輕了本地化數據的計算負擔。你可(kě)以将Natural Learning®看成集合了VLMs+LLMs的端側小(xiǎo)模型,而曉唯人形機器人第二代的雙相機系統則是多(duō)端側小(xiǎo)模型的協同作(zuò)業,這套技(jì )術路線(xiàn)的優勢在于由于采用(yòng)了前端計算,因此在命令的響應速度方面遠(yuǎn)遠(yuǎn)領先于Figure 01。▍偉景智能(néng)核心優勢在于解決手眼伺服協同作(zuò)業能(néng)力早在2019年,偉景智能(néng)就設計出了第一代靈巧手原型産(chǎn)品,當時主要依靠電(diàn)流進行運動控制。第二代靈巧手擁有(yǒu)了更加靈活的自由度設計,并且響應速度大幅提升。到今天,偉景智能(néng)推出的第三代靈巧手已經将壓力傳感器整合其中(zhōng)。與人類手部的匹配度達到90%相似度。偉景智能(néng)人形機器人核心技(jì )術專利号董霄劍曾公(gōng)開表示,人形機器人的關鍵在于如何解決手眼伺服協同作(zuò)業能(néng)力。與立體(tǐ)視覺技(jì )術同樣重要的是手部的靈巧操作(zuò)。正因為(wèi)如此,偉景智能(néng)用(yòng)了5年時間自研靈巧手的關鍵核心零部件,并取得了國(guó)家技(jì )術專利。目前,偉景智能(néng)的第三代靈巧手已能(néng)夠實現拿(ná)捏A4紙張,抓握筆(bǐ)寫字等功能(néng)。而目前主流的靈巧手僅能(néng)實現較大且具(jù)有(yǒu)辨識度的物(wù)體(tǐ)的抓取,如蘋果、香蕉、紙團或帶有(yǒu)顔色的馬克杯等産(chǎn)品。其技(jì )術瓶頸在于視覺精(jīng)度不夠,僅依靠算法是無法完成人形機器人的精(jīng)細化操作(zuò)。偉景智能(néng)的ViEye立體(tǐ)視覺系統此前應用(yòng)于工(gōng)業場景,擁有(yǒu)亞毫米級别的精(jīng)度設計,這從底層上保證人形機器人在精(jīng)細化場景的操作(zuò)優勢。
偉景智能(néng)靈巧手背部擁有(yǒu)手眼伺服Mark點,确保在手部運動過程中(zhōng),能(néng)夠時刻在眼睛的控制下調整手臂前進的路徑與位置。這也是為(wèi)何偉景智能(néng)需要大量精(jīng)力自研靈巧手硬件的原因。如果僅采用(yòng)偉景智能(néng)立體(tǐ)視覺系統,而使用(yòng)第三方靈巧手技(jì )術方案,是無法實現良好的手眼配合協調控制的。與傳統機器人企業不同,偉景智能(néng)人形機器人的核心邏輯在于解決其立體(tǐ)視覺系統的高精(jīng)度、高抗光以及前端免巨量GPU計算能(néng)力,同時配合自研的靈巧手,實現了一整套流暢的手眼伺服操作(zuò)。具(jù)備在運動狀态下的實時計算與分(fēn)析能(néng)力,在全球範圍内僅偉景智能(néng)一家企業擁有(yǒu)此項核心技(jì )術。偉景智能(néng)人形機器人的出發點在于制造真正可(kě)以商(shāng)業落地的低成本、可(kě)量産(chǎn)的機器人。在其商(shāng)業計劃中(zhōng),首批人形機器人将于今年12月量産(chǎn)交付。與預期不同,首批産(chǎn)品并非定位于教育科(kē)研領域,而是專為(wèi)采摘市場量身打造。偉景智能(néng)将在農業采摘領域進行運用(yòng)性落地驗證,并在初步驗證通過後逐步向其他(tā)應用(yòng)場景拓展。在人形機器人領域,這種清晰且完整的商(shāng)業閉環鏈路似乎沒有(yǒu)幾家企業能(néng)夠真正做到。幾年前,董霄劍曾表示要徹底改寫3D立體(tǐ)相機市場格局。如今,偉景智能(néng)依靠其特有(yǒu)的線(xiàn)激光+雙目立體(tǐ)視覺技(jì )術路線(xiàn),将智能(néng)焊接與拆碼垛領域的硬件價格降至2萬元以下,并提供免費軟件使用(yòng)。3D立體(tǐ)相機市場的格局正在被重新(xīn)改寫。寫在最後,筆(bǐ)者腦海中(zhōng)閃現出一個人,田中(zhōng)耕一,這位2002年諾貝爾化學(xué)獎獲得者既非科(kē)班出身,也并非化學(xué)世家,而是一位普通的日本職員。因在一次實驗中(zhōng)的失誤意外發現了生物(wù)大分(fēn)子的質(zhì)譜分(fēn)析法而大獲成功,被視為(wèi)“底層小(xiǎo)職員的神奇逆襲”。有(yǒu)時候,技(jì )術的叠代并非按照線(xiàn)性秩序發展,也并非一定由圈内行業大佬開辟。破局者,往往從另一視角提供足以改變底層邏輯的創新(xīn)驅動力。這一切又(yòu)是否會在人形機器人産(chǎn)業發生呢(ne)?在人形機器人産(chǎn)業激戰正酣的當下,讓我們拭目以待。