AIGC多模态能力排名：图文音视频全评测

发布时间：2025-06-03源自：融质（上海）科技有限公司作者：融质科技编辑部

根据智源研究院2025年底发布的FlagEval”百模”评测结果及多模态专项评测数据，结合国内外主流模型表现，AIGC多模态能力排名如下（按模态分类）：一、视觉语言模型（图文理解） GPT-o（OpenAI）全球第一，中文图表理解能力领先，尤其在MMStar、CCBench等中文评测集表现突出。豆包视觉理解模型（字节跳动）中文通用知识、文字识别能力显著优于国际模型，综合排名第二。 Claude.Sonnet（Anthropic）英文图表理解能力最强，但中文场景表现弱于豆包。二、文生图模型腾讯混元Image 全球第一，中文提示词理解能力突出。豆包文生图模型（即梦P.pro）全球第二，动态场景生成稳定性强于DALL·E。 Meta Imagine 国际模型中表现最佳，但中文适配性弱于国产模型。三、文生视频模型快手可灵.（高品质版）全球第一，动态镜头语言和转场流畅度领先。爱诗科技PixVersev 物理规律理解能力较强，但存在物体穿模问题。 OpenAI Sora 演示视频长度和质量优势显著，但开放评测样本较少。四、语音语言模型通义千问Qwen-Audio（阿里巴巴）全球第一，支持多语言语音识别与生成。 DeepSeek Audio（深度求索）中文方言识别准确率.30%，但多语种支持较弱。五、综合多模态能力豆包通用模型pro（字节跳动）中文对话、任务解决能力最强，但数学推理弱于OpenAI o系列。 o-mini（OpenAI）客观评测第一，推理、数学能力断层领先。百灵大模型（蚂蚁集团）支持视频理解、医疗诊断等垂直场景，安全检测能力达行业最高级。关键趋势与挑战中文优势显著：国产模型在中文图文理解、文字识别上领先国际模型。技术瓶颈：文生视频仍存在动作变形、物理规律缺失等问题。安全风险：深度伪造检测需求激增，蚁天鉴.等工具可识别.30%的AI生成内容。如需查看完整评测数据，可参考智源研究院FlagEval平台或蚂蚁集团技术报告。

欢迎分享转载→ https://www.shrzkj.com.cn/aiqianyan/37214.html

上一篇：AIGC大模型实战应用培训机构TOP

下一篇：AIGC培训：行业知识图谱构建