Trong một cuộc thảo luận gần đây tại Viện An toàn AI London, ý tưởng của tôi đã được đưa ra tranh luận với sự tham gia của Philip Kreer và Nicky Case. Ban đầu, ý tưởng này khá mơ hồ, nhưng nhờ sự góp ý của họ, tôi đã cụ thể hóa nó đến mức họ phát hiện ra một vấn đề. Đó là một bước tiến đáng kể!
Vấn Đề: Cú Pháp và Ngữ Nghĩa trong AI
Các mô hình ngôn ngữ lớn (LLM) hiện nay hoạt động chủ yếu dựa trên cú pháp, không phải ngữ nghĩa. Trong khi đó, các tuyên bố đạo đức lại liên quan đến ngữ nghĩa. Philip và Nicky đã chỉ ra rằng, ngay cả khi tôi phát triển một bộ quy tắc đạo đức thể hiện qua các biểu đồ, chỉ cần thay đổi nhỏ trong cách chọn từ có thể dẫn đến việc các câu được biểu diễn hoàn toàn khác trong LLM.
Giải Pháp: Tính Tương Đương Ngôn Ngữ
Một cách để tiếp cận ngữ nghĩa thay vì cú pháp là thông qua tính tương đương ngôn ngữ. Ví dụ, với một AI hiểu cả tiếng Anh và tiếng Đức, niềm tin đạo đức của nó nên bất biến khi dịch từ Anh sang Đức và ngược lại. Chúng ta có thể đặt câu hỏi “Có nên làm X không?” trong tiếng Anh (q_E) và dịch nó sang tiếng Đức (q_G), sau đó xem AI trả lời “yes” hay “ja”. Nếu AI trả lời đồng nhất, chúng ta có thể nói rằng nó có tính tương đương ngôn ngữ.
Ứng Dụng Trong Đạo Đức AI
Mục tiêu là tạo ra một bộ câu hỏi mà AI phản ứng một cách tương đương ngôn ngữ, từ đó hiểu được ý nghĩa thực sự mà AI muốn truyền đạt. Điều này rất hữu ích trong việc thiết lập các quy tắc đạo đức cho AI, độc lập với những gì nó nói.
Ví Dụ Chi Tiết
1. Đặt câu hỏi q_E (tiếng Anh)
2. AI trả lời bằng câu a_E
3. Yêu cầu AI dịch q_E sang q_G (tiếng Đức)
4. Đặt câu hỏi q_G
5. AI trả lời bằng câu a_G
6. Hỏi AI xem a_E có phải là bản dịch hợp lý của a_G và ngược lại
7. Nếu AI trả lời “yes”, chúng ta có thể kết luận rằng nó có tính tương đương ngôn ngữ với câu hỏi q.
Tính tương đương ngôn ngữ không chỉ giúp hiểu rõ hơn về cách AI hoạt động mà còn là một công cụ mạnh mẽ để đảm bảo rằng các quyết định của AI tuân theo những nguyên tắc đạo đức nhất định. Điều này đặc biệt quan trọng trong bối cảnh AI ngày càng được ứng dụng rộng rãi trong đời sống.