Tháng 04, 2019
Thứ ba
Chủ Nhật, ngày 20/09/2015 06:00 AM (GMT+7)

Ngữ điệu: Đột phá trong nhận diện và xử lý giọng nói

Hệ thống này có thể nhận biết được những thành phần ngữ âm cấu tạo nên từ mà không cần thêm dữ liệu chú thích đi kèm.

Mỗi ngôn ngữ đều có một tập hợp các bộ phận ngữ âm riêng, hoặc những đơn vị ngữ âm cơ bản hình thành nên những từ ngữ được dùng để giao tiếp. Tùy theo cách phân chia mà trong tiếng Anh có thể có từ 35 đến 45 ngữ âm. Việc nghiên cứu các âm tiết sẽ cải tiến khả năng của các hệ thống đọc tự động, giúp chúng có thể đọc những đoạn văn dễ dàng và hay hơn.

Trong Văn kiện Hội nghị các hội liên hiệp ngôn ngữ học điện toán năm 2015 (Transactions of the Association for Computational Linguistics), các nhà nghiên cứu tại Viện công nghệ Massachusetts (MIT) đã mô tả một hệ thống Máy học tự động mới (machine-learning system), tương tự một vài hệ thống trước đó có tính năng phân biệt những ngôn ngữ được phát âm. Nhưng điểm khác biệt ở hệ thống này là nó có thể phân biệt được những đơn vị ngữ âm cơ bản cấu tạo trong từ như âm tiết và âm vị.

Vì thế, hệ thống này có thể hỗ trợ cho sự phát triển của các phần mềm giọng nói hoặc đọc văn bản. Hệ thống có thể áp dụng được cho nhiều loại ngôn ngữ khác nhau, kể cả những ngôn ngữ không được sử dụng phổ biến, hoặc những ngôn ngữ mà khoa nghiên cứu ngôn ngữ học vẫn chưa đi sâu tìm hiểu hệ thống cấu tạo ngữ âm của chúng. Điều này còn giúp cho các phần mềm nhận dạng giọng nói hoặc đọc văn bản mang tính tương thích và phạm vi ứng dụng cao hơn, vì khi có được thông tin của các đơn vị ngữ âm cơ bản sẽ giúp nhận dạng được sự khác biệt trong vấn đề phát âm của những người nói khác nhau. 

Ngữ điệu: Đột phá trong nhận diện và xử lý giọng nói - 1

Nguồn ảnh : Jose-Luis Olivares/MIT

Không giống như hướng đi của phần lớn những máy học tự động, ví dụ như thuật toán giúp nhận dạng giọng nói trên những điện thoại thông minh hiện nay, hệ thống tạo ra bởi những nhà nghiên cứu tại Viện MIT không bị giới hạn và giám sát. Điều này có nghĩa là hệ thống sẽ hoạt động trực tiếp trên các dữ liệu văn bản thô mà không cần phụ thuộc vào những dữ kiện chú thích hoặc chương trình huấn luyện (training data) nặng nề tạo ra bởi các chuyên gia  Vì thế hệ thống có thể dễ dàng được mở rộng và áp dụng cho những bộ dữ liệu bài giảng (training data) hoặc những loại ngôn ngữ mới.

Cuối cùng, hệ thống này có thể cung cấp một số quan niệm tiềm ẩn về sự phát triển khả năng nói của con người.

Khi một đứa trẻ học bắt đầu học một ngôn ngữ, việc đầu tiên chúng không học cách viết ngôn ngữ đó như thế nào”, theo lời của Chia-ying Lee, tiến sĩ trong lĩnh vực khoa học và công nghệ máy tính tại Viện MIT và cũng là người dẫn đầu công trình nghiên cứu này. “Chúng học ngôn ngữ trực tiếp qua những lời nói giao tiếp hằng ngày. Bằng cách xem xét các mẫu câu, chúng có thể nắm được các cấu trúc được sử dụng  trong loại ngôn ngữ đó. Đây cũng chính là cách mà công trình nghiên cứu của chúng tôi cố gắng mô phỏng theo”.

Những tiến bộ đạt được. (Shaping up)

Chính vì hệ thống mới của các nhà nghiên cứu không cần sử dụng dữ liệu chú thích - thông qua những dữ liệu này, chương trình sẽ được huấn luyện qua các lần sử dụng để ngày càng hoạt động tốt hơn. Cho nên, hệ thống này cần phải được cung cấp các giả định về cấu trúc dữ liệu nhằm đi đến một kết luận nhất quán. Một giả định trong đó là tần số xuất hiện của từ ngữ trong văn bản, dựa trên một chuẩn quy định sự phân phối được gọi là phân phối quy tắc lũy thừa. Quy tắc này có nghĩa là một số ít từ sẽ xuất hiện rất thường xuyên nhưng một bộ phận lớn những từ còn lại hiếm khi mới xuất hiện một lần – một hiện tượng xác suất thống kê được biết đến với tên gọi “cái đuôi dài”. Những thông số chính xác của sự phân phối này – giá trị lớn nhất và nhỏ nhất – là không thể tìm ra được nhưng việc tính ra giá trị gần đúng là việc hoàn toàn có thể.

Nguyên tắc cơ bản trong việc vận hành hệ thống này là “mô hình biến thiên ngữ âm” dựa trên “kênh nhiễu” (noisy-channel” model of phonetic variability). Trong tiếng Anh có thể có ít hơn 50 âm vị. Nhưng bất kì âm vị nào cũng đều có thể tương ứng với một dải tần số âm thanh rất rộng, cho dù những âm vị này đều cùng từ một người nói phát ra. Ví dụ, Lee nói, “phụ thuộc vào vị trí của chữ “t” ở đầu hay cuối của từ mà nó sẽ khiến cho các phần mềm nhận dạng ra thành những ngữ âm rất khác nhau”.

Nhằm mô hình hóa và giải quyết hiện tượng này, các nhà nghiên cứu đã vay mượn một quan điểm từ “lý thuyết trao đổi thông tin” (communication theory). Họ nghiên cứu những tín hiệu âm thanh bao gồm sự phối hợp đều đặn của các âm vị sau khi đã được gửi qua một “kênh nhiễu” – với mục đích tạo ra những ảnh hưởng sai lệch. Sau đó, những âm thanh hỗn tạp này sẽ được nạp vào “hệ thống tự động” nhằm tính toán sự tương quan thống kê nhằm phân biệt ra những âm thanh cố ý bị làm nhiễu và những âm vị đang được nghiên cứu. Trong một ví dụ cụ thể, hệ thống có thể phân biệt được âm vị “t” với một tỷ lệ là 85 %. 15% còn lại hệ thống xác định nhầm thành âm vị “d”.“Chúng tôi đã so sánh hai mô hình, một mô hình áp dụng “mẫu biến thiên ngữ âm” còn mẫu còn lại thì không. Kết quả giữa hai mô hình có một sự khác biệt rất lớn”, Lee cho biết.

Các nhà nghiên cứu đã kiểm tra thử hệ thống trên 6 bài diễn thuyết được thu âm bởi những giảng viên khác nhau tại Viện MIT và đã đi đến kết luận rằng, hệ thống này có thể phân biệt chính xác phần lớn các từ. Tuy nhiên, hệ thống vẫn còn tồn tại một số lỗi. Trong khi phân tích một bài diễn thuyết, hệ thống này đã kết luận rằng “đại học mở” là một từ đơn.

Điều này có thể là do trong bài diễn thuyết,  việc sử dụng cụm từ “đại học mở” không những đã được lặp lại nhiều lần, mà những thành tố cấu thành như “đại học”, “mở” lại hiếm khi được sử dụng. “Nếu dữ liệu đầu vào có các yếu tố như “mở”, “đại học” nằm ở những vị trí riêng rẽ thì hệ thống hoàn toàn có thể kết luận rằng “mở”và “đại học” là hai từ chứ không phải là một,” Lee nói.

Những kết luận đi từ các nghiên cứu gần đây cho thấy một điều rằng, những đứa trẻ học về các âm tiết và từ ngữ cùng một lúc”, theo lời của Emmanuel Dupoux, Giám đốc Phòng thí nghiệm về Nhận thức và Khoa học ngôn ngữ tâm lý (Laboratory of Cognitive and Psycholinguistic Sciences).

Cho đến bây giờ, vẫn có rất ít những nghiên cứu mô hình hóa ảnh hưởng qua lại giữa hai mức độ của ngôn từ (từ và âm tiết) bằng cách sử dụng hệ thống máy học tự động. Những nghiên cứu trước chỉ nghiên cứu một mặt của vấn đề - cách âm tiết cấu tạo thành từ hoặc ngược lại. Và cho dù là những nghiên cứu này thành công trong việc mô phỏng hoàn toàn sự tương quan này, thì đó cũng chỉ là một kết quả vô giá trị, bởi chúng chỉ có thể phân tích được vài chữ và vài âm tiết. Nhưng nghiên cứu của Glass và Lee chính là công trình đầu tiên giải quyết được toàn bộ sự tương quan bằng việc sử dụng rất nhiều mẫu văn bản khác nhau. Những khó khăn trong vấn đề kĩ thuật trong việc xử lý vấn đề này là cực kỳ to lớn. Nhưng cũng vì thế, thành công mà họ đạt được cũng vô cùng tuyệt vời.

Học máy, có tài liệu gọi là Máy học, (tiếng Anh: machine learning) là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống "học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể. Ví dụ như các máy có thể "học" cách phân loại thư điện tử xem có phải thư rác (spam) hay không và tự động xếp thư vào thư mục tương ứng. Học máy rất gần với suy diễn thống kê (statistical inference) tuy có khác nhau về thuật ngữ.

Wikipedia

Phan Thanh (MIT)

Tin đọc nhiều

KHCN tuần qua: Phát hiện loài cây rừng ở Việt Nam kháng được bốn dòng ung thư Cây thìa là hóa gỗ tìm thấy ở Hà Giang, có hoạt tính sinh...
Chuyện làm xe đa năng tự “nuốt” rác của nhóm học sinh mê sáng tạo Mặc dù nhóm gồm 1 chàng trai và 5 cô gái “chân yếu tay mềm”...
Mũ bảo hiểm thông minh 'biết' nhắc nhở khi chủ nhân lên cơn buồn ngủ Khi tài xế buồn ngủ, gật gù, mũ bảo hiểm sẽ phát ra âm thanh...
Trẻ em xử lí ô nhiễm: Xây 'lâu đài' khói, thay đồ nhựa bằng gáo dừa Đó là những ý tưởng ngộ nghĩnh nhưng cũng không kém phần...