Nghiên cứu khoa học công nghệ
ƯỚC LƯỢNG ĐỘ SÂU ẢNH
SỬ DỤNG PHƯƠNG PHÁP ÁNH SÁNG CẤU TRÚC
Nguyễn Thúy Bình1*, Võ Lê Cường2
Tóm tắt: Bài báo đề xuất một mẫu sáng mức xám sử dụng trong hệ thống ánh
sáng cấu trúc nhằm ước lượng độ sâu tái tạo hình ảnh 3D của bề mặt vật thể.
Mẫu sáng được đề xuất gồm bốn phần tử bản tính chất đối xứng, với một giải
thuật giải đơn giản thể giải ảnh thu được từ camera với độ chính xác cao.
Các điểm tương ứng giữa ảnh chụp ảnh mẫu sáng được xác định độ sâu ảnh
được ước lượng dựa vào nguyên tam giác (triangulation principle). Ngoài ra,
nhằm tăng độ phân giải trong việc giải ảnh, một mẫu sáng gồm 8 phần tử
bản tạo nên bởi 4 phần tử trên kết hợp với 2 mức sáng khác nhau được đề xuất.
Từ khóa: Thị giác máy tính, Ước lượng độ sâu, Xây dựng ảnh 3D, Ánh sáng cấu trúc.
1. ĐẶT VẤN ĐỀ
Ước lượng độ sâu ảnh là một hướng nghiên cứu với nhiều tiềm năng và được
các nhà khoa học trên thế giới đặc biệt quan tâm trong những năm gần đây. Vấn đề
ước lượng độ sâu ảnh được ứng dụng trong nhiều lĩnh vực khác nhau, có thể kể
đến: cảm biến từ xa, nhận dạng đối tượng, công nghiệp giám sát và các hệ thống
robot tự động. Phương pháp ước lượng độ sâu ảnh sử dụng ánh sáng cấu trúc được
đánh giá là một trong các phương pháp đạt được độ chính xác và độ phân giải cao.
Hệ thống ánh sáng cấu trúc gồm một hoặc nhiều camera, và một máy chiếu
(projector). Mẫu sáng được mã hóa theo các phương pháp khác nhau và được chiếu
lên bề mặt của vật thể. Sau đó, camera có nhiệm vụ thu ảnh của vật thể trong điều
kiện được chiếu sáng. Kỹ thuật ánh sáng cấu trúc được chia thành ba nhóm phương
pháp cơ bản [1-3]: Ghép kênh theo thời gian (time multiplexing), mã hóa trực tiếp
(direct coding), và mã hóa dựa vào các điểm lân cận (neighbor coding). Với
phương pháp ghép kênh theo thời gian, một tập hợp các mẫu sáng được chiếu liên
tiếp lên bề mặt của vật thể. Phương pháp này đạt được độ phân giải và độ chính
xác cao, tuy nhiên không áp dụng được trong trường hợp vật thể chuyển động.
Phương pháp mã hóa trực tiếp mặc dù cũng đạt được độ phân giải cao nhưng lại
chịu ảnh hưởng nhiều của nhiễu. Với các phương pháp thuộc nhóm cuối cùng, mỗi
ký tự kết hợp với bốn ký tự liền kề để tạo nên một từ mã duy nhất trên mẫu sáng.
Nhóm phương pháp này có thể áp dụng với cả các đối tượng tĩnh và động, thuật
toán giải mã đơn giản và ít chịu ảnh hưởng của nhiễu.
Trên thế giới đã có nhiều nghiên cứu giải quyết bài toán ước lượng độ sâu điểm
ảnh theo hướng tiếp cận xây dựng từ mã dựa trên các giá trị lân cận [4-7]. Một
trong những nghiên cứu quan trọng nhất được Griffin đề xuất năm 1992 [8]. Trong
phương pháp này, một ma trận sinh được tạo nên bởi các con số (1, 2, 3, 4,…). Vị
trí của mỗi phần tử được định nghĩa bởi một từ mã được tạo nên bởi chính phần tử
đó và bốn phần tử lân cận. Mỗi từ mã này được xác định là duy nhất trong ma trận
sinh. Mỗi phần tử của ma trận được thay thế bởi một ký hiệu khác nhau, ví dụ:
hình vuông, hình tròn, hình vành khăn, ... Đã có một số nghiên cứu phát triển theo
hướng này. Năm 1998, Davies và Nixon đề xuất một mẫu sáng gồm các đốm tròn
màu để ước lượng độ sâu của bề mặt vật thể di chuyển [9]. Sau đó, Morano [10]
Tạp chí Nghiên cứu KH&CN quân sự, Số 47, 02 - 2017
85
Kỹ thuật điều khiển & Điện tử
đưa ra mẫu sáng được tạo nên bởi các sơ đồ con hoàn hảo (perfect sub-map) gồm
những ký tự hình tròn có màu sắc khác nhau. Mẫu sáng màu sẽ bị ảnh hưởng của
nhiễu nếu các đối tượng có màu sắc giống với màu của mẫu sáng. Một hướng
nghiên cứu nhằm loại bỏ nhiễu khi chiếu lên vật thể màu là tạo nên các mẫu sáng
mức xám (grey level pattern). Trong nghiên cứu của Griffin, ông cũng đã đề xuất
mẫu sáng gồm năm ký tự khác nhau. Tuy nhiên, mẫu sáng này chưa được đưa ra
thực nghiệm với một hệ thống ánh sáng cấu trúc thực tế. Bài báo này đề xuất một
mẫu sáng mức xám gồm các ký tự đối xứng. Với mẫu sáng được đề xuất, ảnh thu
được từ camera có thể dễ dàng được giải mã. Các cặp điểm tương ứng giữa ảnh thu
được và ảnh mẫu sáng được xác định là cơ sở để ước lượng độ sâu của bề mặt vật
thể so với gốc tọa độ tại camera. Bài báo được bố trí theo thứ tự sau: Phần 1. Đặt
vấn đề; Phần 2. Hiệu chuẩn camera và máy chiếu; Phần 3. Mã hóa mẫu sáng và
giải mã ảnh thu được; Phần 4. Thực nghiệm và kết luận.
2. HIỆU CHUẨN CAMERA MÁY CHIẾU
Hình 1 mô tả các bước cơ bản nhằm ước lượng độ sâu điểm ảnh với phương
pháp ánh sáng cấu trúc. Trước hết, cần phải hiệu chuẩn hệ thống nhằm đưa ra các
tham số nội và tham số ngoại của camera và máy chiếu. Trong bài báo này, chúng
tôi sử dụng phương pháp hiệu chuẩn của Zhang [11]. Quá trình hiệu chuẩn cần 15-
20 ảnh với các góc độ chụp khác nhau. Hệ thống được bố trí như trong hình 2.
Khoảng cách giữa camera và máy chiếu được giữ nguyên không đổi, khoảng 30
cm. Khoảng cách giữa bảng và hệ thống khoảng 50 cm. Kết quả của quá trình hiệu
chuẩn là các tham số trong và tham số ngoài của camera và máy chiếu.
Ảnh hiệu chuẩn hệ thống
Ảnh đầu vào
Hiệu chuẩn camera
Tiền xử lý ảnh
Phân loại các
phần tử
Hiệu chuẩn máy
chiếu
Xác định các
phần tử liền kề
Hình 2. Hiệu chuẩn hệ thống.
Tham số nội, tham số
ngoại của hệ thống
Điểm tương ứng
Ước lượng độ sâu
Hình 1. Uớc lượng độ sâu điểm ảnh sử
dụng phương pháp ánh sáng cấu trúc.
Hình 3. Tham số ngoài của Camera.
86
N. T. Bình, V. L. Cường, “Ước lượng độ sâu ảnh sử dụng phương pháp ánh sáng cấu trúc.
Nghiên cứu khoa học công nghệ
3. HÓA MẪU SÁNG GIẢI ẢNH THU ĐƯỢC
3.1. hóa mẫu sáng
Trong phần trước, chúng ta đã đề cập đến phương pháp mã hóa theo đề xuất của
Griffin. Mẫu sáng được tạo nên bằng cách thay thế các con số trong ma trận sinh
bằng các ký tự hoặc ký hiệu khác nhau. Mỗi vị trí trong mẫu sáng được định nghĩa
bởi một từ mã duy nhất. Do mẫu sáng được đề xuất gồm bốn phần tử đối xứng, nên
chỉ với một thuật toán giải mã duy nhất có thể giải mã được vị trí của tất cả các
phần tử trên ảnh thu được cũng như trên ảnh mẫu sáng (hình 4).
(a)
(b)
Hình 4. Mẫu sáng mức xám a) Mẫu sáng nhị phân sử dụng 5 tự theo phương
pháp của Griffin
b) Mẫu sáng đề xuất gồm 4 tự đối xứng.
3.2. Giải mẫu sáng ảnh chụp
Nhiệm vụ của quá trình giải mã là tìm từ mã tương ứng cho mỗi ký tự, từ đó xác
định được vị trí của mỗi phần tử trên ảnh thu được cũng như trên ảnh mẫu sáng.
Hai ký tự có cùng từ mã được gọi là các điểm tương ứng, từ đó tọa độ thực của các
điểm trên bề mặt vật thể được xác định dựa vào nguyên lý tam giác. Trong bài báo
này, để
tối ưu số lượng phần tử được giải mã, chúng tôi đưa ra giải thuật nhằm
giải mã các phần tử nằm ở biên, vấn đề này chưa được đề cập bởi Yi-Chih [12].
3.2.1. Tiền xử ảnh
Bước tiền xử lý ảnh bao gồm hai bước nhỏ: nhị phân hóa và trích chọn các khối
ký tự. Trong hệ thống ánh sáng cấu trúc, mẫu sáng được chiếu lên bề mặt của vật thể
bằng máy chiếu, do đó các vùng không gian được rọi với cường độ ánh sáng khác
nhau. Trong bước nhị phân hóa ảnh thu được từ camera cần sử dụng ngưỡng thích
nghi cho từng vùng ảnh [13]. Sau đó, các khối ký tự được tách ra bằng kỹ thuật
connected component [14]. Cần chọn kích thước cho các connected component phù
hợp nhằm loại bỏ nhiễu có thể xuất hiện trong bước này (hình 5).
3.2.2. Phân loại các tự
Phân loại các ký tự sau bước tiền xử lý ảnh là một bước khá quan trọng trong
việc giải mã ảnh thu được. Sau khi trích chọn được các khối connected component,
mỗi khối sẽ tương đương với một ma trận mà các phần tử chỉ mang một trong hai
giá trị “0” hoặc “1”. Thuật toán được đề xuất nhằm giải quyết bài toán trong bước
này đó là chia mỗi khối đó thành bốn phần bằng nhau, tính giá trị trung bình của
mỗi góc phần tư. Góc khuyết được xác định là góc tương ứng với giá trị trung bình
lớn nhất. Sau đó, các phần tử được phân chia thành bốn nhóm khác nhau và được
đánh dấu bởi các ký hiệu khác nhau (hình 6).
Tạp chí Nghiên cứu KH&CN quân sự, Số 47, 02 - 2017
87