External Publication

Gpt-realtime-2 splits acknowledgment + next-step into separate turns, causing 5-20s caller silence (rollback to gpt-realtime-1.5 confirmed as A/B fix)

OpenAI Developer Community May 28, 2026

We are experiencing similar but worse issues with the gpt-realtime-2 model. After swapping to the new model, it at times stop mid sentence. According to all events, this is not caused by barge-in/VAD or loss of connection but simply that the model thinks its done speaking. The result is that both audio and transcript is incomplete. The audio most often doesn’t get as far as the transcript, stopping a few words before. It seems it stops abruptly on “output_audio_buffer.stopped”. This occurs quite often on the new model and I have found no workaround except rolling back to 1.5 which has no issue like this.

Example of logs. I log ALL events. Note the ‘unhandled’ is simply the events which I don’t currently handle: “”" [voice] unhandled event: conversation.item.added [voice] unhandled event: conversation.item.done [voice] unhandled event: response.created [voice] output_item added [voice] unhandled event: conversation.item.added [voice] unhandled event: response.content_part.added [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: output_audio_buffer.started [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] unhandled event: response.output_audio_transcript.delta [voice] output_audio done: [voice] output_audio_transcript done [assistant transcript]: I kan komme i gang med opsætningen ret hurtigt, for eksempel via Google Tag Manager på få minutter. Der findes også [voice] unhandled event: response.content_part.done [voice] unhandled event: conversation.item.done [voice] output_item done [voice] response done [voice] unhandled event: output_audio_buffer.stopped “”"

I have even seen the transcript stop with an unfinished word

Discussion in the ATmosphere