当前位置:首页>AI前沿 >

AIGC多模态能力排名:图文音视频全评测

发布时间:2025-06-03源自:融质(上海)科技有限公司作者:融质科技编辑部

根据智源研究院2025年底发布的FlagEval”百模”评测结果及多模态专项评测数据,结合国内外主流模型表现,AIGC多模态能力排名如下(按模态分类): 一、视觉语言模型(图文理解) GPT-o(OpenAI) 全球第一,中文图表理解能力领先,尤其在MMStar、CCBench等中文评测集表现突出。 豆包视觉理解模型(字节跳动) 中文通用知识、文字识别能力显著优于国际模型,综合排名第二。 Claude.Sonnet(Anthropic) 英文图表理解能力最强,但中文场景表现弱于豆包。 二、文生图模型 腾讯混元Image 全球第一,中文提示词理解能力突出。 豆包文生图模型(即梦P.pro) 全球第二,动态场景生成稳定性强于DALL·E。 Meta Imagine 国际模型中表现最佳,但中文适配性弱于国产模型。 三、文生视频模型 快手可灵.(高品质版) 全球第一,动态镜头语言和转场流畅度领先。 爱诗科技PixVersev 物理规律理解能力较强,但存在物体穿模问题。 OpenAI Sora 演示视频长度和质量优势显著,但开放评测样本较少。 四、语音语言模型 通义千问Qwen-Audio(阿里巴巴) 全球第一,支持多语言语音识别与生成。 DeepSeek Audio(深度求索) 中文方言识别准确率.30%,但多语种支持较弱。 五、综合多模态能力 豆包通用模型pro(字节跳动) 中文对话、任务解决能力最强,但数学推理弱于OpenAI o系列。 o-mini(OpenAI) 客观评测第一,推理、数学能力断层领先。 百灵大模型(蚂蚁集团) 支持视频理解、医疗诊断等垂直场景,安全检测能力达行业最高级。 关键趋势与挑战 中文优势显著:国产模型在中文图文理解、文字识别上领先国际模型。 技术瓶颈:文生视频仍存在动作变形、物理规律缺失等问题。 安全风险:深度伪造检测需求激增,蚁天鉴.等工具可识别.30%的AI生成内容。 如需查看完整评测数据,可参考智源研究院FlagEval平台或蚂蚁集团技术报告。

欢迎分享转载→ https://www.shrzkj.com.cn/aiqianyan/37214.html

Copyright © 2025 融质(上海)科技有限公司 All Rights Reserved. 本站部分资源来自互联网收集,如有侵权请联系我们删除。沪ICP备2024065424号-2XML地图