API Thời Gian Thực: GPT-Runtime Ra Mắt

Hôm nay, OpenAI chính thức công bố API Thời Gian Thực (Realtime API) với các tính năng mới giúp nhà phát triển và doanh nghiệp xây dựng các trợ lý thoại đáng tin cậy, sẵn sàng cho môi trường sản xuất. API hiện hỗ trợ máy chủ MCP từ xa, đầu vào hình ảnh và gọi điện qua Giao thức Khởi tạo Phiên (SIP), giúp nâng cao khả năng của các trợ lý thoại thông qua việc truy cập vào các công cụ và ngữ cảnh bổ sung.

Bên cạnh đó, OpenAI cũng ra mắt mô hình chuyển giọng nói thành giọng nói tiên tiến nhất cho đến nay – gpt-realtime. Mô hình mới cho thấy cải tiến trong việc tuân theo hướng dẫn phức tạp, gọi công cụ với độ chính xác cao và tạo ra giọng nói nghe tự nhiên và biểu cảm hơn. Nó cũng tốt hơn trong việc diễn giải tin nhắn hệ thống và hướng dẫn của nhà phát triển – dù đó là đọc kịch bản từ chối từ trong một cuộc gọi hỗ trợ, lặp lại các ký tự số chữ cái, hoặc chuyển đổi liền mạch giữa các ngôn ngữ giữa câu. OpenAI cũng đang phát hành hai giọng nói mới, Cedar và Marin, chỉ có sẵn trong API Thời Gian Thực bắt đầu từ hôm nay.

Mục lục

Tầm quan trọng của API Thời Gian Thực

Kể khi giới thiệu API Thời Gian Thực trong bản beta công khai vào tháng Mười năm ngoái, hàng nghìn nhà phát triển đã xây dựng với API này và giúp định hình những cải tiến mà chúng tôi đang phát hành hôm nay – được tối ưu hóa để đảm bảo độ tin cậy, độ trễ thấp và chất lượng cao để triển khai thành công các trợ lý thoại trong môi trường sản xuất. Không giống như các đường ống truyền thống kết nối nhiều mô hình nhau qua chuyển giọng nói thành văn bản và văn bản thành giọng nói, API Thời Gian Thực xử lý và tạo ra âm thanh trực tiếp thông qua một mô hình và API duy nhất. Điều này giảm độ trễ, bảo toàn sắc thái trong giọng nói và tạo ra các phản hồi tự nhiên, biểu cảm hơn.

Giới thiệu gpt-realtime

Mô hình chuyển giọng nói thành giọng nói mới – gpt-realtime – là mô hình giọng nói tiên tiến nhất, sẵn sàng cho sản xuất của chúng tôi. Chúng tôi đã đào tạo mô hình này với sự hợp tác chặt chẽ với khách hàng để nổi bật trong các tác vụ thực tế như hỗ trợ khách hàng, hỗ trợ cá nhân và giáo dục – điều chỉnh mô hình theo cách các nhà phát triển xây dựng và triển khai các trợ lý thoại. Mô hình cho thấy cải thiện về chất lượng âm thanh, trí tuệ, tuân theo hướng dẫn và gọi hàm.

Chất lượng âm thanh

Cuộc trò chuyện nghe tự nhiên là yếu tố then chốt để triển khai các trợ lý thoại trong thế giới thực. Các mô hình cần nói với ngữ điệu, cảm xúc và nhịp độ của con người để tạo ra trải nghiệm thú vị và khuyến khích cuộc trò chuyện liên tục với người dùng. Chúng tôi đã đào tạo gpt-realtime để tạo ra giọng nói chất lượng cao hơn nghe tự nhiên hơn và có thể tuân theo các hướng dẫn chi tiết, chẳng hạn như “nói nhanh và chuyên nghiệp” hoặc “nói với sự đồng cảm với giọng Pháp”.

Chúng tôi đang phát hành hai giọng nói mới trong API là Marin và Cedar với những cải tiến đáng kể nhất cho giọng nói nghe tự nhiên. Chúng tôi cũng đang cập nhật tám giọng nói hiện có để được hưởng lợi từ những cải tiến này.

Trí tuệ và khả năng nhận thức

gpt-realtime cho thấy trí tuệ cao hơn và có thể hiểu âm thanh bản ngữ với độ chính xác cao hơn. Mô hình có thể nắm bắt các tín hiệu phi ngôn ngữ (như tiếng cười), chuyển đổi ngôn ngữ giữa câu và điều chỉnh giọng nói (“nhanh chóng và chuyên nghiệp” so với “tốt bụng và đồng cảm”). Theo đánh giá nội bộ, mô hình cũng cho thấy hiệu suất chính xác hơn trong việc phát hiện các chuỗi ký tự số chữ cái (như số điện thoại, VIN, v.v.) trong các ngôn ngữ khác, bao gồm tiếng Tây Ban Nha, Trung Quốc, Nhật Bản và Pháp. Đề thi đo lường khả năng suy luận Big Bench Audio, gpt-realtime đạt độ chính xác 82,8% – vượt qua mô hình trước của chúng tôi vào tháng 12 năm 2024, đạt 65,6%.

Tuân theo hướng dẫn

Khi xây dựng ứng dụng chuyển giọng nói thành giọng nói, các nhà phát triển đưa ra một tập hợp các hướng dẫn cho mô hình về cách hành xử, bao gồm cách nói, điều gì cần nói trong một tình huống cụ thể và điều nên làm hoặc không nên làm. Chúng tôi đã tập trung cải thiện việc tuân thủ các hướng dẫn này, để ngay cả những hướng dẫn nhỏ cũng mang lại nhiều tín hiệu hơn cho mô hình. Đề thi đo lường độ chính xác tuân theo hướng dẫn MultiChallenge, gpt-realtime đạt 30,5%, một cải tiến đáng kể so với mô hình trước của chúng tôi vào tháng 12 năm 2024, đạt 20,6%.

Gọi hàm

Để xây dựng một trợ lý thoại có khả năng với mô hình chuyển giọng nói thành giọng nói, mô hình cần có khả năng gọi đúng công cụ vào đúng thời điểm để hữu ích trong môi trường sản xuất. Chúng tôi đã cải thiện việc gọi hàm trên ba trục: gọi các hàm liên quan, gọi hàm vào thời điểm phù hợp và gọi hàm với các đối số phù hợp (tạo ra độ chính xác cao hơn). Đề thi đo lường hiệu suất gọi hàm ComplexFuncBench, gpt-realtime đạt 66,5%, trong khi mô hình trước của chúng tôi vào tháng 12 năm 2024 đạt 49,7%.

Chúng tôi cũng đã cải thiện việc gọi hàm bất đồng bộ. Các cuộc gọi hàm chạy lâu sẽ không còn làm gián đoạn luồng của một phiên – mô hình có thể tiếp tục cuộc trò chuyện trôi chảy trong khi chờ kết quả. Tính năng này có sẵn tự nhiên trong gpt-realtime, vì vậy các nhà phát triển không cần cập nhật mã của họ.

Tính năng mới trong API Thời Gian Thực

Hỗ trợ máy chủ MCP từ xa

Bạn có thể bật hỗ trợ MCP trong một phiên API Thời Gian Thực bằng cách chuyển URL của máy chủ MCP từ xa vào cấu hình phiên. Sau khi kết nối, API sẽ tự động xử lý các lệnh gọi công cụ cho bạn, vì vậy không cần kết nối tích hợp thủ công.

Cài đặt này làm cho việc mở rộng trợ lý của bạn với các khả năng mới trở nên dễ dàng – chỉ cần trỏ phiên đến một máy chủ MCP khác và các công cụ đó sẽ ngay lập tức có sẵn. Để tìm hiểu thêm về cách cấu hình MCP với API Thời Gian Thực, hãy xem hướng dẫn này.

Đầu vào hình ảnh

Với việc hỗ trợ đầu vào hình ảnh trong gpt-realtime, bạn có thể thêm hình ảnh, ảnh chụp và ảnh chụp màn hình cùng với âm thanh hoặc văn bản vào một phiên API Thời Gian Thực. Bây giờ mô hình có thể định hướng cuộc trò chuyện dựa trên những gì người dùng thực sự đang nhìn thấy, cho phép người dùng đặt câu hỏi như “bạn thấy gì?” hoặc “đọc văn bản trong ảnh chụp màn hình này”.

Thay vì đối xử với hình ảnh như một luồng video trực tiếp, hệ thống đối xử với nó giống như thêm một bức ảnh vào cuộc trò chuyện. Ứng dụng của bạn có thể quyết định chia sẻ哪些 hình ảnh với mô hình và khi nào chia sẻ chúng. Cách này, bạn kiểm soát được những gì mô hình nhìn thấy và khi nào nó phản hồi.

Khả năng bổ sung

Chúng tôi đã thêm một số tính năng khác để làm cho API Thời Gian Thực dễ tích hợp hơn và linh hoạt hơn cho việc sử dụng sản xuất.

Hỗ trợ Giao thức Khởi tạo Phiên (SIP): Kết nối ứng dụng của bạn với mạng điện thoại công cộng, hệ thống PBX, điện bàn và các điểm cuối SIP khác với hỗ trợ trực tiếp trong API Thời Gian Thực.
Hướng dẫn có thể tái sử dụng: Bạn hiện có thể lưu và tái sử dụng các hướng dẫn – bao gồm tin nhắn của nhà phát triển, công cụ, biến và ví dụ tin nhắn người dùng/trợ lý – trên các phiên API Thời Gian Thực, giống như trong API Phản hồi.

Bảo mật & quyền riêng tư

API Thời Gian Thực tích hợp nhiều lớp biện pháp bảo vệ và giảm thiểu để giúp ngăn chặn lạm dụng. Bạn có thể tìm hiểu thêm về cách tiếp cận bảo mật và chi tiết thẻ hệ thống của chúng tôi trong bài blog công bố bản beta. Chúng tôi sử dụng các bộ phân loại hoạt động trên các phiên API Thời Gian Thực, có nghĩa là một số cuộc trò chuyện có thể bị dừng nếu chúng được phát hiện vi phạm các hướng dẫn nội dung có hại của chúng tôi. Các nhà phát triển cũng có thể dễ dàng thêm các rào cản bảo mật bổ sung của riêng họ bằng using SDK Trợ lý.

Chính sách sử dụng của chúng tôi cấm sử dụng lại hoặc phân phối đầu ra từ các dịch vụ của chúng tôi cho spam, lừa đảo hoặc các mục đích có hại khác. Các nhà phát triển cũng phải làm rõ cho người dùng cuối khi họ đang tương tác với AI, trừ khi điều đó đã rõ ràng từ ngữ cảnh. API Thời Gian Thực sử dụng các giọng nói được đặt trước để giúp ngăn chặn các tác nhân độc hại mạo danh người khác.

API Thời Gian Thực hoàn toàn hỗ trợ Chỗ ở Dữ liệu EU cho các ứng dụng dựa trên EU và được bao phủ bởi các cam kết riêng tư doanh nghiệp của chúng tôi.

Giá cả & khả dụng

API Thời Gian Thực chính thức và mô hình gpt-realtime mới có sẵn cho tất cả các nhà phát triển bắt đầu từ hôm nay. Chúng tôi đang giảm giá cho gpt-realtime 20% so với gpt-4o-realtime-preview – 32 USD / 1M token âm thanh đầu vào (0,40 USD cho token đầu vào được lưu vào bộ nhớ cache) và 64 USD / 1M token âm thanh đầu ra (xem bảng giá chi tiết). Chúng tôi cũng đã thêm kiểm soát chi tiết cho ngữ cảnh cuộc trò chuyện để cho phép các nhà phát triển đặt giới hạn token thông minh và cắt bớt nhiều lượt cùng một lúc, làm giảm đáng kể chi phí cho các phiên dài.

Để bắt đầu, hãy truy cập tài liệu API Thời Gian Thực của chúng tôi, thử nghiệm mô hình mới trong Sân chơi, và xem hướng dẫn nhắc nhở API Thời Gian Thực của chúng tôi.

API Thời Gian Thực: GPT-Runtime Ra Mắt

Tầm quan trọng của API Thời Gian Thực