1. 图片问答


讯飞星火支持将图片作为对话输入,结合文字提问,实现"看图说话"的多模态交互。

支持的图片格式

JPG、PNG、WEBP、GIF(静态帧)等主流格式,单张图片建议不超过 20MB。

核心能力

能力说明
图片内容描述识别并描述图片中的人物、物体、场景
文字提取(OCR)识别图片中的印刷体或手写文字
图表解读分析柱状图、折线图、饼图等图表数据
公式识别识别数学公式、化学结构式
错误排查上传代码截图或错误提示截图进行分析
产品识别识别商品外观、猜测品牌和型号
风格分析分析设计稿、摄影作品的风格特点

示例

示例一:提取试卷题目

(上传一张手写试卷的照片)
请识别这张图片中的所有题目,
整理为可编辑的文字格式,保留题号和格式结构。

示例二:分析数据图表

(上传一张年度销售折线图截图)
请分析这张图表:
1. 整体趋势如何?
2. 哪个月份出现了明显的异常波动?
3. 根据图表数据,预测下一个季度的走势。

示例三:拍照解题

(拍照上传一道物理题)
请帮我解答图片中的这道题,
要求写出完整的解题步骤和公式推导过程。

示例四:设计反馈

(上传一张 UI 设计稿截图)
请以一位资深 UX 设计师的角度评价这个界面设计:
1. 视觉层级是否清晰?
2. 配色和字体是否合理?
3. 给出3条具体的改进建议。

提示:拍照时保持画面清晰、光线充足,倾斜角度不超过 30°,可显著提升识别准确率。