多鏡頭視覺AI SLAM 系統:應用於自主機器人與自駕車輛
自主機器人與無人車輛在導航過程中需要高精度定位以確保行駛效率,但現有解決方案往往高度依賴昂貴的 高精地圖(HD Map)、3D LiDAR 或 GNSS/RTK 信號。歐特明(oToBrite)創新的多鏡頭視覺AI SLAM 系統—oToSLAM,提供了一項突破性的替代方案,能在無需外部基礎設施的情況下,於室內與室外環境中皆實現可靠的建圖與定位。
該系統結合四顆車用級相機、邊緣 AI 裝置(<10 TOPS)以及先進的視覺AI 技術,整合了物體分類、可行區域分割(Freespace Segmentation)、語意分析(Semantics)與三維特徵建圖(3D Feature Mapping) 等核心技術,並透過低位元 AI 模型量化與剪枝(Quantization & Pruning) 進行最佳化。這項具高性價比且高效能的解決方案,定位精度最高可達 1 公分(依環境與額外感測器使用情況而定),在成本與精度兩方面皆優於傳統方法。

圖1:oToSLAM 多鏡頭視覺AI SLAM 定位系統。
談到視覺SLAM技術時,我們最常遇到的主要挑戰來自於傳統CV(Computer Vision, 電腦視覺)式SLAM的限制。雖然這項技術在運算效率上表現良好,但其在多變環境下的準確性與適應性不足,難以滿足實際應用的需求。特別是在低紋理場景、動態物體以及光照條件變化較大的情況下,CV式方法的定位表現容易下降。
經過大量測試與多場景驗證後,我們最終選擇採用視覺AI SLAM技術。透過深度學習,我們能夠提取出更具穩健性與語意性的3D特徵,大幅提升定位精度與環境適應能力。這項由AI驅動的SLAM技術轉型,使我們能夠構建出一個在複雜環境中運作穩定、同時具備量產與長期維護效益的解決方案。

圖2:CV式3D特徵 vs. 視覺AI 3D特徵
在硬體整合方面,選擇最有效的系統配置同樣是產品開發過程中的關鍵任務。為了在效能、成本與可行性之間取得最佳平衡,我們針對不同相機配置進行了廣泛的測試與驗證。分析結果顯示,增加相機數量能顯著提升環境適應性與定位精度。雖然五鏡頭與四鏡頭的配置表現最佳,但三鏡頭與雙鏡頭系統僅能提供中等水準的能力;相較之下,單鏡頭配置的效果明顯不足。
基於這些研究結果,我們建議採用四鏡頭配置作為最具實際效益的選擇,這個配置能在真實應用場景中提供穩健且可靠的SLAM效能,滿足自動駕駛機器人與無人載具的定位需求。

圖3:我們的測試資料集涵蓋室內與室外場景,特別針對低紋理環境、動態物體以及光照條件變化等情境進行測試。

圖4:SLAM性能比較——單鏡頭 vs. 多鏡頭配置
我們面臨的下一個挑戰,是選擇一種兼具成本效益與高精度的Vision-AI模型,用於Vision SLAM的3D特徵擷取,必須在效能、資源限制與實際部署可行性之間取得最佳平衡。由於我們的解決方案鎖定在TI TDA4V MidEco 8 TOPS平台上進行量產,因此所選模型必須在不超出系統運算能力的前提下,仍能提供精確的定位效果。雖然許多AI模型在準確度上表現優異,但通常需要較高的運算資源,超出我們目標平台的負荷。因此,我們專注於輕量化架構,同時保持強健的定位性能。經過大量評估後,我們最終選定了一種在系統限制內仍能達到高定位成功率(>90%)與低定位誤差(<20cm)的演算法。

圖5:運算成本評估(僅列出具有高定位成功率與相對低定位誤差的模型)
然而,將AI演算法實現在TI TDA4V MidEco 8-TOPS平台上也帶來了新的挑戰。模型在生成特徵時會逐層處理影像,但並非所有層都能在量產平台上原生支援。像CONV與RELU這類標準層相容性良好,但其他層則需要進行客製化開發。為了彌合這一差距,我們建立了額外的演算法套件,以確保模型功能的完整性與平台相容性,並成功將其調整應用於實際部署環境。

圖6:模型簡化與適應
在量產轉換過程中,我們面臨的另一項主要挑戰是僅依賴模型所生成的非語意化特徵點(non-semantic feature points)的限制。雖然這些3D特徵點在不同視角下具有高度重複性與穩定性,但它們缺乏語意資訊,例如無法辨識路緣、車道線、牆面及其他關鍵環境結構。透過對各類行駛場景的全面分析,我們發現結合3D非語意特徵點與語意化特徵點能顯著提升VSLAM系統的精度與穩健性。此混合式方法既可利用非語意特徵的幾何穩定性,又能透過語意資訊強化環境理解。因此,在VSLAM流程中同時整合兩種特徵型態已成為我們克服純3D點追蹤限制的核心策略。這種方法對於在複雜且動態的環境中實現更高的定位準確度、一致性與韌性至關重要,也成為我們方案在市場上的關鍵差異化優勢。

圖7:oToSLAM 結合多鏡頭視覺AI技術的語意與3D特徵,語意特徵可涵蓋各種道路標線,以及車輛、柱體、牆面、路緣、輪擋等物體。
在優化基於AI的VSLAM模型時,我們面臨多項挑戰,包括高運算複雜度、難以在多樣化環境中泛化以及動態場景處理困難。為了解決這些問題,我們採用了輕量化神經網路架構與量化技術(quantization),以在邊緣裝置上實現即時運算性能。此外,我們不僅針對3D特徵提取進行VSLAM模型優化,還透過客製化的輕量化物件分類與影像分割技術,增加語意特徵的提取能力。最終,我們成功實現了從研究階段到邊緣AI裝置量產的多鏡頭視覺AI SLAM 系統,為自動機器人與無人載具提供高效且具成本效益的定位解決方案。
了解更多 oToSLAM 詳細資訊: https://www.otobrite.com/zh-TW/product/otoslam-vision-ai-positioning-system
附錄
參考模型:
以下模型為本系統開發過程中所參考的模型:
- ORB-SLAM: a Versatile and Accurate Monocular SLAM System
- LIFT: Learned Invariant Feature Transform
- SuperPoint: Self-Supervised Interest Point Detection and Description
- GCNv2: Efficient Correspondence Prediction for Real-Time SLAM
- R2D2: Repeatable and Reliable Detector and Descriptor
- Use of a Weighted ICP Algorithm to Precisely Determine USV Movement Parameters
原文:
本文最初發表於 EE Times,請參考原文連結: https://www.eetimes.com/multi-camera-vision-ai-slam-for-autonomous-robots-and-vehicles/