Ứng dụng trí tuệ nhân tạo trong công nghệ nhận dạng hình ảnh đã tối ưu hóa khả năng xác định và đánh dấu các đối tượng cần quan sát của các thiết bị ghi hình. Trên nền tảng phát triển công nghệ của thế giới, các nhà nghiên cứu tại TP.HCM đã đạt được những thành quả ban đầu trong việc ứng dụng công nghệ nhận dạng để giải quyết các bài toán trong hành trình xây dựng đô thị thông minh.
Đôi nét về công nghệ nhận dạng hình ảnh
Công nghệ nhận dạng hình ảnh hay Thị giác máy tính (Computer Vision) là một lĩnh vực khoa học đa ngành, được phát triển từ thập niên 1960, để giúp máy tính bắt chước thị giác của con người, xác định được các đối tượng trong các ảnh chụp, video và cuộc sống thực, cũng như trích xuất thông tin từ các nguồn này.
Ví dụ quá trình nhận dạng hình ảnh của thị giác con người và thị giác máy tính (Nguồn: internet)
Thị giác của con người có lợi thế về thời gian để rèn luyện cách phân biệt các vật thể, chẳng hạn như vật thể đó ở khoảng cách bao xa, có đang chuyển động hay không và liệu có điều gì đó không đúng trong một hình ảnh. Thị giác máy tính cũng huấn luyện máy móc thực hiện những chức năng này, nhưng nó phải thực hiện được trong thời gian rất ngắn, với các thiết bị ghi hình (camera), dữ liệu hình ảnh và các thuật toán.
Dữ liệu hình ảnh có thể ở nhiều dạng, chẳng hạn như chuỗi video, chế độ xem từ nhiều thiết bị ghi hình cùng lúc, hoặc dữ liệu đa chiều từ máy quét y tế,… Máy tính sẽ tự động trích xuất, phân tích từ một hình ảnh (hoặc một chuỗi hình ảnh), sử dụng các mô hình dựa trên các nguyên tắc hình học, vật lý, thống kê và lý thuyết học tập để hiểu vấn đề.
Cơ chế hoạt động
Để máy tính nhận dạng được một vật thể, người ta đưa một lượng lớn dữ liệu hình ảnh với các đối tượng được dán nhãn trước đó cho máy tính “học”. Máy tính được hướng dẫn vận dụng các thuật toán để phân tích màu sắc, hình dạng, khoảng cách và độ sâu từ những hình ảnh đầu vào này để xác định thông số của một đối tượng nhất định và "ghi nhớ" nó. Sau khi thực hiện các phân tích dữ liệu lặp đi, lặp lại đến khi đạt được tỷ lệ phân biệt nhất định, máy tính có thể nhận ra đối tượng đã được “học” từ một bộ dữ liệu hình ảnh chưa được gắn nhãn.
Máy tính gắn nhãn nhận dạng các đối tượng sau qua trình “học” từ dữ liệu đầu vào (Nguồn:internet)
Trước đây, chức năng của thị giác máy tính rất hạn chế, cần nhiều mã hóa thủ công và sự trợ giúp của con người. Người ta phải chọn (thủ công) các hình ảnh và đánh dấu các điểm dữ liệu. Do có quá nhiều công đoạn thủ công, nên tỷ lệ sai sót là rất lớn: nếu các thông số của đối tượng bị sai lệch đôi chút, máy tính sẽ không thể nhận dạng ra được.
Đầu thế kỷ 21 đã chứng kiến sự trỗi dậy của các phương pháp dựa trên kỹ thuật Học máy (Machine Learning) và các bộ khung lập trình phức tạp. Học máy sử dụng các mô hình thuật toán cho phép máy tính tự học về ngữ cảnh của dữ liệu. Nếu dữ liệu được cung cấp đầy đủ thông qua mô hình, máy tính sẽ “nhìn” vào dữ liệu và tự học để phân biệt hình ảnh này với hình ảnh khác. Các thuật toán cho phép máy tự học, thay vì cần đến sự trợ giúp của con người.
Sự tiến bộ của kỹ thuật Học sâu (Deep Learning) đã mang lại sức sống hơn nữa cho lĩnh vực thị giác máy tính. Độ chính xác của các thuật toán học sâu đã vượt qua các phương pháp trước đây. Đặc biệt, kỹ thuật học sâu đã cho phép các nhà nghiên cứu xây dựng các mô hình có thể tạo và tái tạo lại các hình dạng 3D từ các góc độ một cách liền mạch.
Nhận dạng hình ảnh với thuật toán học máy và học sâu (Nguồn: DLTLabs)
Một số ứng dụng tiêu biểu
Các nhà phát triển AI đang tận dụng sức mạnh của thị giác máy tính để huấn luyện máy móc học hỏi nhiều thứ khác nhau và thực hiện các nhiệm vụ cụ thể giống như con người, với mức độ chính xác có thể chấp nhận được. Các ứng dụng chính của thị giác máy tính là phát triển các thiết bị hỗ trợ AI như robot, máy bay không người lái, ô tô tự lái, camera phục vụ trong các lĩnh vực nông nghiệp, bán lẻ, chăm sóc sức khỏe và nhiều lĩnh vực khác:
• Robotics: nhờ thị giác máy tính, robot không còn là vật thể vô tri mà ngày càng trở nên thông minh để nhìn thấy môi trường xung quanh và di chuyển theo, hoặc thực hiện các hành động khác. Robot đang thực hiện nhiều nhiệm vụ khác nhau giúp quy trình làm việc nhanh hơn với hiệu quả và độ chính xác cao hơn.
• Xe tự hành (Self-driving Cars): là một trong những mô hình AI tiên tiến nhất, sử dụng thị giác máy tính giúp phương tiện có thể lái xe tự động an toàn, nhận biết đường đi và phát hiện chính xác các đối tượng trên đường để di chuyển đúng hướng, tránh tai nạn.
• Máy bay không người lái (Drones) có thể phát hiện hoặc nhận dạng các vật thể thông qua thị giác máy tính, cung cấp thông tin của nhiều đối tượng khác nhau mà không cần con người đến trực tiếp tại địa điểm đó.
• Camera AI: là một lĩnh vực quan trọng sử dụng học máy và học sâu, giúp giám sát các điểm nóng giao thông, theo dõi các hoạt động xã hội ở khắp mọi nơi; camera AI có thể lắp đặt trong các cửa hàng nhằm thu thập thông tin hành vi mua sắm giúp chủ sở hữu cải thiện trải nghiệm mua sắm của khách hàng.
Một số nghiên cứu ứng dụng công nghệ nhận dạng hình ảnh tại TP.HCM
Các camera ngày nay được lắp đặt khắp mọi nơi, từ khu vực công cộng đến trường học, bệnh viện, khu dân cư,… không chỉ để phục vụ mục đích giám sát an ninh, mà còn thể giúp dự báo, cảnh báo, phân tích thói quen, hành vi của con người, thông qua công nghệ nhận dạng hình ảnh.
Hệ thống quản lý an ninh trong ký túc xá
Nhóm nghiên cứu của Đại học Bách khoa TP.HCM đã phát triển và ứng dụng thành công hệ thống camera an ninh tích hợp AI, phục vụ công tác quản lý sinh viên tại ký túc xá (KTX) của trường. Đây là kết quả của nhiệm vụ KH&CN: “Ứng dụng công nghệ trí tuệ nhân tạo trong bài toán giám sát an ninh tại Trung tâm dịch vụ Ký túc xá Bách Khoa - Đại học Bách Khoa, ĐHQG TP.HCM”, được Sở KH&CN TP.HCM nghiệm thu đầu tháng 12/2021.
Từ những hạn chế trong việc kiểm soát an ninh ra vào KTX bằng thẻ RFID*, nhóm nghiên cứu đã xây dựng một hệ thống gồm 174 camera được bố trí tại nhiều khu vực khác nhau trong khuôn viên KTX. Tất cả dữ liệu được truyền trực tiếp từ camera đến phần mềm quản lý video VMS (Video Management System).
Để ứng dụng các mô hình học máy, dữ liệu đầu vào được thu thập từ 10 hình ảnh khuôn mặt của các sinh viên đang ở tại KTX. Sau quá trình huấn luyện cho máy tính, hệ thống giám sát có khả năng nhận diện nhiều góc khuôn mặt khác nhau. Tỷ lệ chính xác ở mức 71,86% đối với sinh viên mới; 84,25% đối với sinh viên cũ đã thu thập đủ mẫu và 83,46% đối với sinh viên mới được tăng cường mẫu bằng nội suy.
Kiến trúc hệ thống phần mềm
(a): nội dung huấn luyện mô hình AI; (b): nội dung giám sát thời gian thực (Nguồn: Sở KH&CN TP.HCM)
Trong tương lai, bộ giải pháp sẽ được nâng cấp, bằng cách bổ sung thêm 20-50 hình ảnh khuôn mặt từ nhiều góc chụp của mỗi sinh viên làm mẫu huấn luyện, để tăng thêm độ chính xác của mô hình. Từ thành công của kết quả nghiên cứu, đề tài có tiềm năng ứng dụng cho nhiều mục đích khác, như hệ thống điểm danh/chấm công, kiểm tra đối tượng có chứng nhận tiêm vaccine Covid-19,…
Hệ thống cảnh báo ngập bằng camera giám sát
Là kết quả nghiên cứu từ nhiệm vụ KH&CN: “Xây dựng mô hình dự báo, cảnh báo và quản lý ngập cho đô thị thông minh tại TP.HCM” do các chuyên gia tại Phân viện Khoa học Khí tượng Thủy văn và Biến đổi khí hậu thực hiện, được Sở KH&CN TP.HCM nghiệm thu cuối tháng 11/2021. Ngoài các mô hình dự báo, cảnh báo mưa, ngập được hoàn thiện từ các số liệu thống kê của cơ quan chuyên ngành khí tượng thủy văn, nhóm nghiên cứu đã đưa các giải pháp học máy vào các mô hình thẩm định, để tăng độ chính xác hơn cho các mô hình dự báo tương ứng với từng khu vực mà các cơ quan quản lý nhà nước cần giám sát, chú trọng việc vận hành và điều phối chống ngập.
Các tuyến đường được lắp đặt camera giám sát tình hình ngập là các điểm nóng như: Cây Trâm (Q. Gò Vấp), Xô Viết Nghệ Tĩnh, Ung Văn Khiêm (Q. Bình Thạnh), Trần Ngọc Diện, Phạm Văn Đồng, Đỗ Xuân Hợp (TP.Thủ Đức). Nhóm nghiên cứu đã hoàn thiện công cụ trích xuất bản đồ ngập từ camera được xây dựng qua các bước tiền xử lý ảnh và phân tích mức ngập được lưu trữ trong server. Hệ thống sẽ “số hóa” ảnh chụp, sau đó sử dụng các thuật toán so sánh “ảnh gốc” với các “mốc marker” tại hiện trường để xác định mức ngập tương ứng.
Quy trình vận hành của mô hình cảnh báo – dự báo ngập (Nguồn: Sở KH&CN TP.HCM)
Các thông tin dự báo mưa và ngập cũng như các thông tin khác về thời tiết, về cơ bản đều được hiển thị trực quan trên bản đồ WebGIS được cung cấp tại địa chỉ http://chongngaphcm.info. Qua đó, kết quả nghiên cứu được kỳ vọng giúp giải quyết bài toán chống ngập tại các điểm nóng trên địa bàn TP.HCM, cung cấp thông tin cho người dân lựa chọn được cung đường di chuyển tránh những tuyến đường bị ngập, và hơn hết là giúp cơ quan chức năng có những chiến lược, chính sách để quản lý vấn đề ngập của TP.HCM được hiệu quả hơn trong thời gian tới.
Kính thông minh cho người khiếm thị
Ngoài việc sử dụng các camera giám sát cố định, giải pháp ứng dụng công nghệ nhận dạng hình ảnh cũng được các kỹ sư trẻ (trường Đại học Khoa học Tự nhiên TP.HCM và trường Đại học FPT Hà Nội) áp dụng trên camera di động, với mục đích hỗ trợ người khiếm thị và những người suy giảm thị lực dễ dàng nhận biết tiền tệ, vật thể, đồng thời giúp hiểu được nội dung văn bản thông qua giọng nói.
Phạm Huy, đồng sáng lập kính thông minh Eagle Digital, trong buổi thuyết trình gọi vốn tại Techfest tháng 11/2021 (Nguồn: khoahocphattrien.vn)
Eagle Digital là chiếc kính thông minh được gắn camera, chip xử lý và một tai nghe, nhờ đó có thể thu hình ảnh từ môi trường xung quanh, phân tích và chuyển chúng thành giọng nói nhắc nhở người dùng. Chiếc kính có thể đọc văn bản trên sách, mô tả môi trường xung quanh, chẳng hạn như xe cộ và cảnh báo trước khi họ ra quyết định.
Mức độ chính xác trong phân tích hình ảnh của Eagle Digital đã đạt từ 84-95%. Tuy nhiên, nhóm nghiên cứu vẫn muốn làm tốt hơn bằng cách tích hợp chiếc kính với một số cảm biến khác liên quan đến xử lý khoảng cách. Ngoài ra, nhóm nghiên cứu cũng gặp gỡ với những người khiếm thị ở Sài Gòn, Hà Nội và Lâm Đồng lấy ý kiến trải nghiệm về sản phẩm, để những người khiếm thị đạt được sự thoải mái cao nhất.
hông qua TECHFEST 2021, nhóm nghiên cứu Eagle Digital đã nhận được sự quan tâm của một số chuyên gia từ Singapore trong việc phát triển mở rộng và thương mại hóa ở mức chi phí phù hợp với nhu cầu của đông đảo mọi người.
***
Công nghệ nhận dạng hình ảnh kết hợp với trí tuệ nhân tạo đang dần trở thành xu hướng phát triển trên toàn thế giới, nổi bật bởi khả năng xử lý khối lượng lớn dữ liệu trong khoảng thời gian rất ngắn. Thực tế, hiện vẫn chưa có nhiều nghiên cứu ứng dụng công nghệ này tại TP.HCM nói riêng và cả nước nói chung, dư địa còn khá rộng mở cho các nhà nghiên cứu, các kỹ sư trẻ thử sức trong một lĩnh vực công nghệ còn rất nhiều tiềm năng phát triển trong tương lai.
Duy Sang
--------------------------------------------------------------------------------
Tài liệu tham khảo chính
[1] IBM. What is computer vision? https://www.ibm.com/my-en/topics/computer-vision
[2] Sở KH&CN TP.HCM. Gắn cảnh báo và giám sát ngập với vận hành đô thị thông minh. https://cesti.gov.vn/bai-viet/CTDS5/gan-canh-bao-va-giam-sat-ngap-voi-van-hanh-do-thi-thong-minh-110c34e7-51e0-4311-9837-e6d4388ba2f1
[3] Sở KH&CN TP.HCM. Ứng dụng trí tuệ nhân tạo vào giám sát an ninh. https://cesti.gov.vn/bai-viet/CTDS5/ung-dung-tri-tue-nhan-tao-vao-giam-sat-an-ninh-0970fd4b-339f-4e6a-8b33-59894111c1e8
[4] Trang Linh. Kính thông minh giúp người khiếm thị… nhận trả tiền mặt. https://khoahocphattrien.vn/cong-nghe/kinh-thong-minh-giup-nguoi-khiem-thi-nhan-tra-tien-mat/20211216100354824p1c859.htm
[5] Bisen. Applications of computer vision in AI for various key industries. https://medium.com/vsinghbisen/applications-of-computer-vision-in-ai-for-various-key-industries-6bc6a99421db
[6] David F. and Jean P. Computer Vision, A Modern Approach. Prentice Hall.
[7] Soltani et al. Synthesizing 3D Shapes via Modeling Multi-view Depth Maps and Silhouettes with Deep Generative Networks. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 2511-2519).