OpenAI เปิด GPT-Realtime-2 พร้อมโมเดลแปลและถอดเสียงสด

OpenAI เปิด 3 voice models ใหม่ใน Realtime API: GPT-Realtime-2, Translate และ Whisper สำหรับ production voice agents ราคาลดลง 20%

โลโก้ OpenAI — กดเพื่อเปิดประกาศ Realtime API

OpenAI ประกาศโมเดลเสียงรุ่นใหม่ใน Realtime API จำนวน 3 ตัวเมื่อวันที่ 7 พฤษภาคม 2026 เปลี่ยน production voice agent จากของยากเป็นของที่ developer ทั่วไปสร้างได้ (รายละเอียดบน openai.com)

สามโมเดล สามหน้าที่

GPT-Realtime-2 เป็น native speech-to-speech รุ่นใหม่ที่มี reasoning ระดับ GPT-5 รองรับ tool use แบบ parallel เรียกหลาย API พร้อมกันได้ มี preamble ให้ agent พูด "เดี๋ยวขอเช็คก่อนนะ" ระหว่างกำลังเรียก tool เพื่อไม่ให้ผู้ใช้ฟังเสียงเงียบ context window ขยายเป็น 128K token (ใหญ่กว่ารุ่นก่อน 4 เท่า) ราคา $32 ต่อ 1M audio input token, $0.40 สำหรับ cached input และ $64 ต่อ 1M audio output — รวมแล้วลดลง 20% เทียบกับ gpt-4o-realtime-preview

GPT-Realtime-Translate เป็น live translation model แปลเสียงสดจากกว่า 70 ภาษา input เป็น 13 ภาษา output โดยตามจังหวะของผู้พูดแบบไม่หน่วง คิดราคา $0.034 ต่อนาที

GPT-Realtime-Whisper เป็น streaming speech-to-text รุ่นใหม่ที่ถอดเสียงระหว่างคนพูดยังพูดอยู่ (ไม่ต้องรอจบประโยค) เหมาะกับ live caption, meeting note, summary แบบ real-time คิด $0.017 ต่อนาที

ราคาและ go-to-market

ทั้งสามโมเดลใช้งานผ่าน Realtime API ตัวเดียวกัน developer ที่เคยเชื่อมต่อ gpt-4o-realtime-preview อยู่แล้วเปลี่ยน model id อย่างเดียวก็ใช้ได้ทันที OpenAI ยังเพิ่ม fine-grained control สำหรับ conversation context ให้ตั้ง intelligent token limit และ truncate หลาย turn พร้อมกัน ช่วยลดต้นทุน session ยาวๆ ลงได้มาก

Take ของ BoomBigNose

ถ้าคุณทำ n8n workflow ที่รับ inbound call หรือ voice message จากลูกค้าไทย — Translate + Whisper เปิดตลาดใหม่ทันที โดยเฉพาะ use case แบบ "ลูกค้าพูดไทย, AI agent ฟัง, แล้วตอบกลับเป็นภาษาที่ลูกค้าเข้าใจ" หรือ workflow ที่ summarize call ของ Sales team ทันทีที่วางสาย แทนการจ้างคนถอดเทป

สำหรับคนสอน automation — content ใหม่ที่น่าทำในเดือนนี้คือ "build a Thai voice agent ใน n8n ที่ทักกลับลูกค้าโดยใช้ GPT-Realtime-2" เพราะคนไทยมองหา voice automation เพิ่มขึ้นมาก แต่ tutorial ภาษาไทยยังหายาก ใครเขียนก่อนก็ปักธงตลาดนี้ได้ก่อน