Sự mơ hồ và ngôn ngữ học máy tính

Ngôn ngữ học máy tính có hai mục tiêu: Cho phép máy tính được sử dụng như công cụ hỗ trợ trong phân tích và xử lý ngôn ngữ tự nhiên, và để hiểu hơn về cách con người xử lý ngôn ngữ tự nhiên thông qua tương tự với máy tính.

Một trong những vấn đề lớn nhất trong xử lý ngôn ngữ tự nhiên là sự mơ hồ. Hầu hết chúng ta không nhận ra sự mơ hồ bởi chúng ta biết cách giải mã chúng bằng ngữ cảnh và kiến thức của mình về thế giới. Nhưng các hệ thông máy tính không có hiểu biết này, và do đó không thể làm tốt việc tận dụng ngữ cảnh. (16)

Vấn đề về sự mơ hồ nảy sinh bất cứ khi nào máy tính làm việc với ngôn ngữ con người, như khi một máy tính trên Internet thu thập thông tin về những ý nghĩa khác của cụm từ được tìm kiếm, những ý nghĩa mà chúng ta không quan tâm đến. Trong dịch thuật máy, máy tính gần như không thể phân biệt những nghĩa khác nhau của một từ tiếng Anh được biểu hiện bằng những từ rất khác nhau trong ngôn ngữ đích. Vì vậy mọi nỗ lực chỉ sử dụng máy tính để xử lý ngôn ngữ của con người đã nhiều lần thất bại vì khả năng xử lý tính đa nghĩa của máy tính còn hạn chế.

Nỗ lực giải quyết vấn đề sự mơ hồ tập trung vào hai giải pháp tiềm năng: dựa vào kiến thức, và các hệ thống thống kê. Trong cách tiếp cận dựa trên kiến thức, các nhà phát triển hệ thống phải mã hóa một lượng lớn kiến thức về thế giới và phát triển các quy trình để sử dụng trong xác định ý nghĩa văn bản.

Ngược lại, cách tiếp cận thống kê lại đòi hỏi một lượng lớn ngữ liệu chú thích. Các nhà phát triển hệ thống sau đó viết các quy trình tính toàn đa số những khả năng có thể nhất của sự mơ hồ, dựa trên từ hay loại từ cũng như các điều kiện dễ xác định khác.

Thực tế là đến nay vẫn không có hệ thống máy tính nào có thể xác định được ý nghĩa được chủ định của những từ ngữ trong diễn ngôn.  Tuy nhiên, việc giải quyết các vấn đề đa nghĩa là rất quan trọng và vì thế những nỗ lực này vẫn sẽ được thực hiện. Tôi tin rằng khi đạt được mục tiêu này, chúng ta sẽ tiến gần hơn tới chiếc Chén thánh của khoa học máy tính: trí tuệ nhân tạo. Từ giờ cho tới lúc đó, vẫn còn rất nhiều điều về ngữ cảnh, đặc biệt là ngữ cảnh ngôn ngữ chúng ta cần dạy cho máy tính.

Trả lời

Email của bạn sẽ không được hiển thị công khai.