5. 实时对话(Real-time)


功能介绍

实时对话功能由 Gemini 3.1 Flash Live Preview 模型驱动,支持低延迟的音频到音频(audio-to-audio)实时交互。用户可以通过麦克风与 Gemini 进行实时语音对话,也可以分享屏幕或摄像头画面,让 Gemini 看到用户正在做什么并进行实时讨论。

当前可用模型:

模型名称状态说明
Gemini 3.1 Flash Live Preview免费低延迟音频到音频模型,支持声学细微差别检测、数字精度和多模态感知

这是 Google AI Studio 中体验感最强的功能之一,它让 AI 交互从"打字聊天"升级为"面对面对话",在声调识别、多模态理解方面表现突出。

使用方法

image-20260330172514128

在 Playground 主页点击「Real-time(实时对话)」卡片。

image-20260330172525479

选择模型。

image-20260330172633808

页面显示「Talk to Gemini live(与 Gemini 实时对话)」界面。

选择交互模式:

  • 「 Talk(语音对话)」:仅通过麦克风进行语音交互
  • 「 Webcam(摄像头)」:开启摄像头,让 Gemini 看到用户的画面并对话
  • 「 Share Screen(分享屏幕)」:分享桌面画面,让 Gemini 看到用户的屏幕内容

image-20260330172706738

点击任一模式按钮即可开始实时对话。

右侧设置面板(实时对话专属配置)

image-20260330172720926

  • 「System instructions(系统指令)」:设定对话中的行为和角色
  • 「Voice(语音)」:下拉选择 AI 回复的音色
  • 「Media resolution(媒体分辨率)」:下拉选择,默认 258 tokens / image
  • 「Thinking level(思考级别)」:默认为 No Thinking(无思考),追求最低延迟
  • 「Session Context(会话上下文)」:下拉展开,管理会话记忆范围

底部输入栏除文本输入外,还提供以下快捷按钮:

  • 麦克风按钮:开启语音输入
  • 摄像头按钮:开启摄像头
  • 屏幕分享按钮:分享桌面

提示:实时对话模式默认将思考级别设为 No Thinking,以确保最低的响应延迟。如果用户需要更深度的推理分析,可以切换回普通对话模式使用 Gemini 3.1 Pro。

核心能力

  • 实时语音对话:低延迟的双向语音交流
  • 屏幕分享:分享用户的桌面,让 AI 看到用户正在操作的内容
  • 摄像头接入:通过摄像头展示实物,让 AI 识别并给出建议
  • 打断与自然对话:支持随时打断 AI 的回答,进行自然的对话交互

使用技巧

  • 确保在安静的环境中使用,减少背景噪音干扰
  • 说话时尽量清晰,使用完整句子效果更好
  • 屏幕分享时,Gemini 可以帮用户分析代码、文档或界面设计
  • 摄像头模式适合识别植物、产品、食物等实物

应用场景

场景使用方式
语言学习用目标语言与 AI 进行口语练习
代码调试分享屏幕,让 AI 实时查看代码并给出修改建议
设计评审展示 UI 设计稿,让 AI 提供改进意见
植物识别用摄像头对准植物,AI 自动识别并介绍养护方法
口语模拟面试用英语进行模拟面试对话练习

示例

示例一:语言学习

Let's practice English conversation. I want to prepare for a job interview at a tech company. Please act as the interviewer and ask me common interview questions. After each of my answers, give me feedback on grammar and expression.

示例二:屏幕分享调试

我正在分享我的屏幕,这是一个 React 项目。页面上的按钮点击后没有反应,请帮我看看代码哪里有问题。

示例三:摄像头识别

我正在对准摄像头展示我的盆栽植物,请帮我识别这是什么植物,并告诉我它的养护要点,比如浇水频率、光照需求和适宜温度。

示例四:烹饪指导

我正在厨房准备做菜,请通过摄像头看我的食材,帮我推荐一道简单快手的菜谱,然后一步一步指导我完成烹饪。

示例五:即兴演讲练习

请作为演讲教练,我接下来会用中文做一段3分钟的即兴演讲。请在我讲完后从内容组织、语言表达、逻辑清晰度三个方面给我打分和建议。

评论

0
还没有评论,来写第一条吧