香港手機遊戲網 GameApps.hk

OpenAI三款即時語音模型上線 支援翻譯與字幕

1小時 503
OpenAI三款即時語音模型上線 支援翻譯與字幕
OpenAI 宣布透過 Realtime API 推出三款全新即時語音模型,包括 GPT-Realtime-2、GPT-Realtime-Translate 以及 GPT-Realtime-Whisper,並確認 Realtime API 已結束 Beta 階段,正式開放予生產環境使用。

今次焦點模型 GPT-Realtime-2,是 OpenAI 首款建基於 GPT-5 級推理能力的語音模型。與一般需要先轉錄、再生成回應的語音系統不同,GPT-Realtime-2 可持續處理音訊串流,讓模型能在對話進行期間理解語音並作出回應,減少語音互動中的等待空檔。

GPT-Realtime-2 支援 128K token 上下文視窗,較上一代 32K 大幅提升,令更長時間的語音對話及多步驟代理流程變得更可行。模型亦支援工具調用前的語音提示、平行工具調用、錯誤回復,以及根據場景調整語氣。

OpenAI 表示,GPT-Realtime-2 在 Big Bench Audio 音訊推理基準上較 GPT-Realtime-1.5 高出 15.2%,在 Audio Multichallenger 指令跟隨測試中亦高出 13.8%。Zillow 測試亦顯示,在經過提示詞優化後,GPT-Realtime-2 於最困難的對抗性基準中,通話成功率由 69% 提升至 95%。

另外,GPT-Realtime-Translate 主打即時語音翻譯,可連續處理語音輸入並即時輸出翻譯,支援超過 70 種輸入語言及 13 種輸出語言。GPT-Realtime-Whisper 則將 Whisper 語音識別技術延伸至串流場景,可在說話期間即時產生字幕,適用於會議、法庭記錄、新聞轉錄及無障礙工具。

三款模型現已透過 OpenAI API 及開發者 Playground 開放使用。今次更新亦為 Realtime API 加入 MCP server 支援、圖片輸入能力及 SIP 電話通話整合,進一步擴展企業電話及語音代理應用場景。

分享文章

Advertisement

最新人氣下載

Loading...

遊戲APK下載搜尋

聯絡我們 | Legal | Privacy Policy | Terms of Use | Sitemap
© 香港手機遊戲網 GameApps.hk 2013-2026