xem đôi môi của tôi Burton Pritzker/Getty Bài viết này được xem miễn phí nhờ có sự tài trợ của P&G. Trí tuệ nhân tạo đang bắt đầu đọc môi. Một dự án DeepMind của Google và Đại học Oxford đã áp dụng học sâu vào một bộ dữ liệu khổng lồ từ các chương trình của BBC để tạo ra một hệ thống đọc khẩu hình miệng khiến các chuyên gia phải chìm trong cát bụi. Hệ thống AI được đào tạo bằng khoảng 5.000 giờ của sáu chương trình truyền hình khác nhau, bao gồm tin tức đêm, bữa sáng bbc Và thời gian để hỏi. Tổng cộng, các video chứa 118.000 câu. Đầu tiên, các nhà nghiên cứu từ Đại học Oxford và DeepMind đã đào tạo AI trên các chương trình phát sóng từ tháng 1 năm 2010 đến tháng 12 năm 2015. Sau đó, họ kiểm tra hiệu suất của nó trên các chương trình phát sóng từ tháng 3 đến tháng 9 năm 2016. Chỉ bằng cách nhìn vào môi của từng người nói, hệ thống đã giải mã chính xác toàn bộ câu, với các ví dụ bao gồm “Chúng tôi biết sẽ có hàng trăm nhà báo ở đây nữa” và “Theo số liệu mới nhất từ Cục Thống kê Quốc gia.” Đây là một clip từ cơ sở dữ liệu không có phụ đề:
Và đây là clip tương tự với phụ đề do hệ thống AI cung cấp:

AI chỉ đường
AI vượt trội hơn rất nhiều so với một trình đọc môi chuyên nghiệp đang cố gắng bẻ khóa 200 clip được chọn ngẫu nhiên từ bộ dữ liệu.
Người chuyên nghiệp chỉ ghi được 12,4% số từ mà không có bất kỳ lỗi nào. Nhưng AI đã ghi được 46,8% tất cả các từ trong tập dữ liệu từ tháng 3 đến tháng 9 mà không có bất kỳ lỗi nào. Và nhiều lỗi của anh ấy là những lỗi nhỏ, như thiếu chữ ‘s’ ở cuối một từ. Với những kết quả này, hệ thống cũng vượt trội hơn tất cả các hệ thống đọc môi tự động khác.
Ziheng Zhou của Đại học Oulu ở Phần Lan cho biết: “Đó là một bước tiến lớn hướng tới việc phát triển các hệ thống đọc môi hoàn toàn tự động. “Nếu không có bộ dữ liệu khổng lồ đó, chúng tôi rất khó xác minh các công nghệ mới như học sâu.”
Hai tuần trước, một hệ thống học sâu tương tự có tên là LipNet, cũng được phát triển tại Đại học Oxford, đã vượt trội so với con người trong bộ dữ liệu đọc môi được gọi là GRID. Nhưng trong khi GRID chỉ chứa từ vựng gồm 51 từ duy nhất, thì bộ dữ liệu BBC chứa gần 17.500 từ duy nhất, khiến nó trở nên khó khăn hơn nhiều.
Hơn nữa, ngữ pháp của bộ dữ liệu BBC đến từ rất nhiều lời nói thực của con người, trong khi ngữ pháp của 33.000 câu của GRID tuân theo cùng một mẫu và do đó dễ dự đoán hơn nhiều.
Nhóm DeepMind và Oxford cho biết họ sẽ phát hành bộ dữ liệu BBC của mình dưới dạng tài nguyên đào tạo. Yannis Assael, người đang làm việc trên LipNet, nói rằng anh ấy rất mong được sử dụng nó.
lót môi
Để làm cho bộ dữ liệu BBC phù hợp với việc đọc môi tự động trong nghiên cứu, các video clip phải được chuẩn bị bằng cách sử dụng máy học. Vấn đề là các luồng âm thanh và video đôi khi không đồng bộ gần một giây, điều này sẽ khiến AI không thể tìm hiểu mối liên hệ giữa các từ được nói và cách người nói di chuyển môi của họ.
Nhưng bằng cách giả định rằng hầu hết video đã được đồng bộ hóa chính xác với âm thanh của nó, một hệ thống máy tính đã được dạy về các liên kết chính xác giữa âm thanh và hình dạng của miệng. Sử dụng thông tin này, hệ thống đã tìm ra mức độ không đồng bộ của các nguồn cấp dữ liệu khi chúng không khớp và sắp xếp lại chúng. Sau đó, nó tự động xử lý 5.000 giờ video và âm thanh, sẵn sàng cho thử thách đọc khẩu hình môi, một nhiệm vụ sẽ rất khó khăn nếu được thực hiện bằng tay.
Câu hỏi bây giờ là làm thế nào để sử dụng khả năng đọc môi AI mới. Có lẽ chúng ta không phải lo sợ rằng hệ thống máy tính sẽ lắng nghe cuộc trò chuyện của chúng ta bằng cách đọc khẩu hình miệng của chúng ta vì micrô tầm xa tốt hơn để nghe trộm trong hầu hết các tình huống.
Thay vào đó, Zhou cho rằng AI đọc môi có nhiều khả năng được sử dụng trong các thiết bị tiêu dùng để giúp họ hiểu những gì chúng ta đang cố gắng nói.
Assael cho biết: “Chúng tôi tin rằng máy đọc môi tự động có tiềm năng thực tế to lớn, với các ứng dụng trong máy trợ thính cải tiến, đọc chính tả không tiếng trong không gian công cộng (Siri sẽ không bao giờ phải nghe giọng nói của bạn nữa) và nhận dạng giọng nói trong môi trường ồn ào,” Assael nói.
chủ đề: