5. 实时对话（Real-time）

功能介绍

实时对话功能由 Gemini 3.1 Flash Live Preview 模型驱动，支持低延迟的音频到音频（audio-to-audio）实时交互。用户可以通过麦克风与 Gemini 进行实时语音对话，也可以分享屏幕或摄像头画面，让 Gemini 看到用户正在做什么并进行实时讨论。

当前可用模型：

模型名称	状态	说明
Gemini 3.1 Flash Live Preview	免费	低延迟音频到音频模型，支持声学细微差别检测、数字精度和多模态感知

这是 Google AI Studio 中体验感最强的功能之一，它让 AI 交互从"打字聊天"升级为"面对面对话"，在声调识别、多模态理解方面表现突出。

使用方法

在 Playground 主页点击「Real-time（实时对话）」卡片。

选择模型。

页面显示「Talk to Gemini live（与 Gemini 实时对话）」界面。

选择交互模式：

「 Talk（语音对话）」：仅通过麦克风进行语音交互
「 Webcam（摄像头）」：开启摄像头，让 Gemini 看到用户的画面并对话
「 Share Screen（分享屏幕）」：分享桌面画面，让 Gemini 看到用户的屏幕内容

点击任一模式按钮即可开始实时对话。

右侧设置面板（实时对话专属配置）：

「System instructions（系统指令）」：设定对话中的行为和角色
「Voice（语音）」：下拉选择 AI 回复的音色
「Media resolution（媒体分辨率）」：下拉选择，默认 258 tokens / image
「Thinking level（思考级别）」：默认为 No Thinking（无思考），追求最低延迟
「Session Context（会话上下文）」：下拉展开，管理会话记忆范围

底部输入栏除文本输入外，还提供以下快捷按钮：

麦克风按钮：开启语音输入
摄像头按钮：开启摄像头
屏幕分享按钮：分享桌面

提示：实时对话模式默认将思考级别设为 No Thinking，以确保最低的响应延迟。如果用户需要更深度的推理分析，可以切换回普通对话模式使用 Gemini 3.1 Pro。

核心能力

实时语音对话：低延迟的双向语音交流
屏幕分享：分享用户的桌面，让 AI 看到用户正在操作的内容
摄像头接入：通过摄像头展示实物，让 AI 识别并给出建议
打断与自然对话：支持随时打断 AI 的回答，进行自然的对话交互

使用技巧

确保在安静的环境中使用，减少背景噪音干扰
说话时尽量清晰，使用完整句子效果更好
屏幕分享时，Gemini 可以帮用户分析代码、文档或界面设计
摄像头模式适合识别植物、产品、食物等实物

应用场景

场景	使用方式
语言学习	用目标语言与 AI 进行口语练习
代码调试	分享屏幕，让 AI 实时查看代码并给出修改建议
设计评审	展示 UI 设计稿，让 AI 提供改进意见
植物识别	用摄像头对准植物，AI 自动识别并介绍养护方法
口语模拟面试	用英语进行模拟面试对话练习

示例

示例一：语言学习

Let's practice English conversation. I want to prepare for a job interview at a tech company. Please act as the interviewer and ask me common interview questions. After each of my answers, give me feedback on grammar and expression.

示例二：屏幕分享调试

我正在分享我的屏幕，这是一个 React 项目。页面上的按钮点击后没有反应，请帮我看看代码哪里有问题。

示例三：摄像头识别

我正在对准摄像头展示我的盆栽植物，请帮我识别这是什么植物，并告诉我它的养护要点，比如浇水频率、光照需求和适宜温度。

示例四：烹饪指导

我正在厨房准备做菜，请通过摄像头看我的食材，帮我推荐一道简单快手的菜谱，然后一步一步指导我完成烹饪。

示例五：即兴演讲练习

请作为演讲教练，我接下来会用中文做一段3分钟的即兴演讲。请在我讲完后从内容组织、语言表达、逻辑清晰度三个方面给我打分和建议。

0 条

登录后可以参与评论。

还没有评论，来写第一条吧

#5. 实时对话（Real-time）

#功能介绍

#使用方法

#核心能力

#使用技巧

#应用场景

#示例

评论