自律ロボットと車両のためのマルチカメラビジョンAI SLAM
自律型ロボットや無人車両には効率的に走行するために高精度な位置推定が求められますが、既存の多くのソリューションは高価なHDマップ、3D LiDAR、またはGNSS/RTK信号に大きく依存しています。oToBriteの革新的なマルチカメラ・ビジョンAI SLAMシステム「oToSLAM」は、屋内外の環境において外部インフラを必要とせず、信頼性の高いマッピングと位置推定を実現する画期的な代替手段を提供します。
本システムは、4台の自動車グレードカメラ、<10 TOPSのエッジAIデバイス、そして先進的なビジョンAI技術を活用し、物体分類、フリースペースセグメンテーション、セマンティクス、3D特徴マッピングといった主要技術を統合しています。また、低ビットAIモデルの量子化およびプルーニングを最適化することで、高性能かつコスト効率の高いソリューションを実現しました。環境や追加センサーの使用条件によっては最大1cmの位置精度を達成し、従来の手法をコスト面でも精度面でも凌駕します。

図1:oToSLAM マルチカメラ・ビジョンAI SLAM位置推定システム
ビジョンSLAM技術について語る際、私たちが直面した最も大きな課題は、従来のCV(コンピュータビジョン)ベースSLAMの限界でした。この技術は計算効率に優れているものの、多様な環境における精度と適応性が不十分であり、実環境での運用には適していませんでした。特に、低テクスチャのシーン、動的な物体、照明条件の変化といった状況では、CVベースの手法は位置推定性能が大きく低下してしまいました。複数のユースケースにおける徹底的なテストと評価の結果、最終的に私たちはビジョンAI SLAM技術を採用することを決定しました。ディープラーニングを活用することで、より堅牢で意味のある3D特徴を抽出でき、位置精度および環境適応性が大幅に向上しました。AI駆動型SLAMへの移行により、複雑な環境下でも信頼性の高い性能を発揮し、大規模な量産や長期的なメンテナンスにも効果的に対応できるソリューションを構築することが可能となりました。

図2:CVベースの3D特徴とビジョンAIによる3D特徴の比較
ハードウェア統合の観点では、最も効果的なシステム構成を選定することも製品開発プロセスにおける重要な課題でした。性能、コスト、実現可能性のバランスを取るために、私たちはさまざまなカメラ構成において徹底的なテストと検証を行いました。その分析の結果、カメラの台数を増やすことで環境適応性と位置推定精度の両方が大幅に向上することが明らかになりました。5カメラおよび4カメラ構成は最高の性能を発揮する一方で、3カメラおよび2カメラ構成は中程度の能力しか示しませんでした。対照的に、単眼カメラ構成では性能が著しく劣ることが確認されました。これらの知見に基づき、私たちは4カメラ構成を最も実用的な選択肢として推奨します。これは堅牢かつ信頼性の高いSLAM性能を発揮し、実環境での自律走行アプリケーションに適しています。

図3:テストデータセットは屋内外のシナリオを網羅しており、特に低テクスチャのシーン、動的物体、照明条件の変化を含んでいます。

図4:SLAM性能の比較 ― 単眼カメラ構成とマルチカメラ構成
次に直面した課題は、性能、リソース制約、実環境での導入可能性のバランスを取ることができる、コスト効率と精度に優れたビジョンAIモデルを選定し、Vision SLAMにおける3D特徴抽出に適用することでした。私たちのソリューションはTI TDA4V MidEco 8 TOPSプラットフォーム上での量産を目指しているため、選定するモデルはシステムの計算能力を超えることなく高精度な位置推定を実現する必要がありました。多くのAIベースのモデルは優れた精度を提供しますが、しばしば高い演算能力を必要とし、ターゲットプラットフォームの限界を超えてしまいます。そのため、私たちは高い位置推定性能を維持しつつ軽量なアーキテクチャに注目しました。徹底的な評価の結果、システム制約の中で90%を超える位置推定成功率と20cm未満の比較的低い位置誤差を達成できるアルゴリズムを採用しました。

図5:計算コストの推定(高い位置推定成功率と比較的低い位置誤差を示すモデルのみ掲載)
しかし、TI TDA4V MidEco 8-TOPSプラットフォーム上でAIアルゴリズムを実装する際には、新たな課題が生じました。モデルは画像をレイヤーごとに処理して特徴を生成しますが、すべてのレイヤーが本番プラットフォームでネイティブにサポートされているわけではありません。CONVやRELUといった標準的なレイヤーは互換性がありますが、それ以外の一部のレイヤーについてはカスタム開発が必要でした。このギャップを埋めるために、私たちは追加のアルゴリズムパッケージを作成し、互換性を確保するとともに、実環境への適用に合わせてモデルの機能を維持できるようにしました。

図6:モデルの簡略化と適応
量産への移行過程で直面したもう一つの重要な課題は、モデルが生成する非セマンティック(意味を持たない)3D特徴点だけに依存することの限界でした。これらの3D特徴点は視点の変化に対して高い再現性と頑健性を持つものの、縁石、車線、壁、その他の重要な環境構造物を識別するようなセマンティック情報を欠いています。多様な走行シナリオにわたる包括的な分析を通じて、非セマンティック3D特徴とセマンティック特徴点を組み合わせることで、VSLAMシステムの精度と頑健性が大幅に向上することが分かりました。このハイブリッドアプローチにより、非セマンティック特徴の幾何学的安定性を活かしつつ、セマンティック情報によって環境理解を強化することが可能となります。その結果、VSLAMパイプライン内で両方の特徴タイプを統合することは、純粋な3Dポイントベースのトラッキングの限界を克服するための核心的戦略となりました。この手法は、特に複雑で動的な環境下において、より高い精度、一貫性、耐久性を実現する上で重要な役割を果たすとともに、市場における当社ソリューションの差別化要因となっています。

図7:oToSLAM マルチカメラ・ビジョンAI技術によるセマンティックおよび3D特徴の活用。セマンティック特徴は各種の道路標示に加え、車両、柱、壁、縁石、車止めなどの物体をカバー可能。
AIベースのVSLAMモデルを最適化するには、高い計算コスト、多様な環境への一般化の難しさ、動的シーンの扱いといった複数の課題があります。これらを克服するために、私たちはエッジデバイス上でリアルタイム性能を実現するために、軽量ニューラルネットワークアーキテクチャと量子化技術を採用しています。さらに、VSLAMモデルを単に3D特徴抽出向けに最適化するだけでなく、カスタマイズした軽量オブジェクト分類や画像セグメンテーションを通じてセマンティック特徴の抽出も組み込み、付加価値を提供しています。最終的に、研究段階からエッジAIデバイスでの量産まで、マルチカメラ・ビジョンAI SLAMを自律型ロボットや無人車両に展開可能にしています。
oToSLAM について詳しくはこちら:https://www.otobrite.com/ja/product/otoslam-vision-ai-positioning-system
付録
参考モデル:
開発プロセスにおいて、以下のモデルが参照されました:
- ORB-SLAM:多用途で高精度な単眼SLAMシステム
- LIFT:学習型不変特徴変換(Learned Invariant Feature Transform)
- SuperPoint:自己教師ありの注目点検出および記述(Self-Supervised Interest Point Detection and Description)
- GCNv2:リアルタイムSLAM向け効率的対応予測(Efficient Correspondence Prediction for Real-Time SLAM)
- R2D2:再現性と信頼性の高い検出器および記述器(Repeatable and Reliable Detector and Descriptor)
- Weighted ICPアルゴリズムの活用によるUSV運動パラメータの精密決定
原典:
本記事はもともとEE Timesに掲載されました。原文はこちらをご参照ください:https://www.eetimes.com/multi-camera-vision-ai-slam-for-autonomous-robots-and-vehicles/