相機內參校準如何解決自動駕駛的空間測量挑戰

返回列表

產業洞察 2026.05.08

相機內參校準如何解決自動駕駛的空間測量挑戰

分享至

已複製到剪貼簿

當「看見」已經不夠：從影像到數據的轉變

在一般的影像應用中，相機的主要目的，是捕捉一張視覺上令人滿意的「影像」。然而，對於應用於自動駕駛與機器人平台的 Vision-AI 系統而言，相機必須扮演高精度空間感測器的角色。在這些關鍵的 ADAS 與自動駕駛應用中，僅僅「看見」物體是不夠的；系統還必須能在三維空間中對其進行精確的「測量」。

從原始的 2D 影像轉換為可用的 3D 數據，會面臨一個根本的物理挑戰：製造與組裝誤差。無論製造過程多麼精密，每一顆鏡頭都不可避免地會與其理論設計存在些微偏差。像是鏡片曲率的微小不一致、玻璃厚度的差異，以及組裝過程中的細微對位誤差，都使得每一顆鏡頭都具有獨特性，無法完全相同。

如果 Vision-AI 系統僅依賴「理論上的」鏡頭參數來進行 3D 座標轉換，這些微小的差異將被放大，轉化為顯著的感知誤差。例如，車輛距離可能會出現數公尺的誤判，或車道線產生變形。內參校準（Intrinsic Calibration）正是為了解決這個問題的關鍵流程，它能夠精確求得每一顆鏡頭的實際光學參數，例如其專屬的焦距與光學中心位置。

透過套用內參校準所取得的專屬參數數據，系統可以實現：

精確距離偵測：使用真實鏡頭參數，而非理論值，確保 3D 空間測量的準確性。
最佳去畸變效果：透過掌握該鏡頭的專屬畸變特性，使廣角影像達到最佳的校正與展平效果。
無縫影像拼接：在多相機系統（如 360° AVM）中，透過消除各個硬體差異，避免拼接邊界出現錯位問題。

需要特別強調的是，內參校準並不是「消除」鏡頭畸變，因為畸變本質上是光學系統的固有物理特性。內參校準真正解決的是「差異性」問題，為系統提供每顆鏡頭專屬且可靠的基礎，進而達成高精度的空間量測能力。

圖 1：從原始 2D 影像轉換為 3D 數據的過程

內參校準 vs. 外參校準：有何不同？

為了實現精確的空間感知，Vision-AI 系統必須整合兩種不同的數學模型。雖然它們都稱為「校準」，但實際上解決的是本質上不同的幾何問題。

1. 內參校準（Intrinsic Calibration）：相機的「身份識別」

內參校準定義的是相機內部的光學參數，本質上就像相機的「DNA」。它描述光線如何通過鏡頭投射到影像感測器上的過程。

關鍵參數：

焦距（fx, fy）：定義影像的縮放比例，以及相機能捕捉的場景範圍。
光學中心（cx, cy）：相機中心點在影像平面上的投影位置。
鏡頭畸變（Lens Distortion）：用於描述並校正鏡頭物理缺陷（如桶狀或枕狀畸變）的數學係數。

圖 2：相容於 OpenCV 的相機內參矩陣 [K]

圖 3：光學畸變比較：桶狀畸變 vs. 枕狀畸變

目標：確保 2D 影像中的每一個像素，都能被精確映射為相機座標系中的一條標準化 3D 光線，並補償光學與製造上的差異。

2. 外參校準（Extrinsic Calibration）：相機的「視角」

外參校準定義的是相機相對於外部世界座標系的位置與姿態，例如車輛底盤或機器人基座。

關鍵參數：

旋轉（R）：描述相機的朝向，通常以旋轉矩陣表示（可由 Pitch、Yaw、Roll 表示）。
平移（T）：描述相機相對於參考點的實際安裝位置（X, Y, Z）。

目標：將 2D 影像中的像素，準確轉換到外部世界座標系中，建立影像與真實空間之間的正確對應關係。

為什麼兩者都同樣重要

可以把內參校準想像成檢查一個人的視力（確保他看得清楚且沒有畸變），而外參校準則像是確認這個人站在什麼位置、面向哪個方向。

在多相機系統中，例如 360° 環景影像系統（AVM），即使每一台相機都擁有完美的「視力」（內參），如果無法準確掌握每一台相機的安裝位置與姿態（外參），最終生成的影像仍然會出現變形與拼接錯位的問題。對oToBrite而言，達到次像素（sub-pixel）等級的內參校準精度，是實現穩定外參對齊的基礎，進而確保影像融合的準確性，並支撐安全可靠的自動駕駛與導航系統。

圖 4：內參與外參相機參數示意圖

內參校準如何運作：連結 2D 與 3D 的關鍵橋樑

內參校準是一個嚴謹且可重複的流程，用於估算相機的內部光學參數。透過在受控環境中觀測已知幾何結構，它能將原始像素數據準確轉換為可靠的空間資訊，成為電腦視覺應用不可或缺的基礎。

值得一提的是，現代校準流程通常會設計為相容於 OpenCV，確保能無縫整合主流電腦視覺函式庫，並可高效部署於各類嵌入式與邊緣 AI 平台。

逐步流程說明：

擷取已知幾何結構：此方法需要拍攝多張影像（通常為 15–30 張以上），對象為精密製作的校準標靶，最常見的是棋盤格（checkerboard）。由於標靶的幾何結構是已知且精準的，因此可作為校準的可靠基準（ground truth）。
特徵點偵測：演算法會在不同角度與位置下，偵測影像中的特徵點（如棋盤格角點），並覆蓋整個影像平面，以確保鏡頭各區域都被完整分析。
最佳化與鏡頭畸變校正：透過建立 3D 世界座標與 2D 像素位置之間的對應關係，系統會解一個最佳化問題，最小化重投影誤差（re-projection error），進而估算焦距、光學中心與畸變係數。這也是數學上定義鏡頭畸變校正的關鍵步驟。

確保工業級精度

為達到次像素（sub-pixel）等級的精度，並符合高可靠系統所需的「安全幾何（Geometry of Safety）」，整個流程需特別關注以下要素：

高精度標靶：使用具備高平整度與極低幾何誤差的專業校準板，例如玻璃基板或高精度印刷圖樣，確保標靶本身的誤差遠小於一個像素。
完整視野覆蓋：從多個視角拍攝，使校準圖樣涵蓋整個影像範圍，包括中心、邊緣以及四個角落。這種全視野覆蓋對於準確建立鏡頭在各區域的畸變模型極為重要。
次像素級精修：採用先進的角點偵測演算法，在次像素層級定位特徵點。此精修步驟對降低最終重投影誤差非常重要，使其穩定達到次像素範圍，滿足關鍵任務應用的可靠性需求。

完成校準後，這些參數即可支撐可靠的幾何解析能力，並成為後續任務（如深度估測、物體定位與 3D 重建）的核心基礎。

圖 5：oToBrite使用標準棋盤格進行內參校準的實驗架構

內參校準何時變得關鍵：已校準 vs. 未校準相機

雖然內參校準看似是幕後的技術流程，但在實際應用中，其影響極為顯著，尤其是在先進駕駛輔助系統（ADAS）與自動駕駛等安全關鍵領域。

校準不足所帶來的後果

若缺乏正確的內參參數，Vision-AI 系統就如同在「扭曲的視覺」下運作，將導致一連串技術問題：

幾何變形（Geometric Distortion）: 原本筆直的線條（如車道線或道路邊緣）會出現彎曲，尤其在影像邊緣更加明顯，導致 AI 無法準確理解道路幾何。
距離估測失準（Failed Distance Estimation）: 錯誤的焦距與主點資訊會造成物體尺度判斷偏差，使行人或車輛看起來比實際更遠，進而延誤煞車反應時機。
感知漂移（Perception Drift）: 重投影誤差持續累積，導致 3D 環境建模不穩定，可能出現誤判警報或漏檢障礙物的情況。
感測融合盲區（Blind Spots in Fusion）: 在多相機系統（如 360° AVM）中，參數不一致會使影像無法無縫拼接，產生盲區或扭曲重疊，干擾駕駛或自動控制系統判斷。

安全標準：精準校準帶來的能力

當系統具備高精度的內參校準後，將能獲得支撐關鍵任務的空間精度：

真實空間還原（True-to-Life Spatial Mapping）: 影像經過幾何校正後，可提供數學上準確的 2D 到 3D 空間映射。
可靠的感測器融合（Reliable Sensor Fusion）: 精準的像素與真實世界對應關係，使相機能與雷達（Radar）或光達（LiDAR）完美融合，實現穩定的深度估測與物體定位。
優化 ADAS 表現（Optimized ADAS Performance）: 如自動緊急煞車（AEB）、車道維持輔助（LKA）、主動車距控制（ACC）等功能，皆能在高精度基礎下運作，滿足法規要求並提升乘客安全。