阿里巴巴的钱文模型加入大型AI模型“过年地摊”。 2月16日除夕夜,阿里巴巴开启全新一代Qwen 3.5-Plus大型号。其性能可与Gemini 3 Pro相媲美,成为全球最强大的开源机型。钱文3.5对底层模型架构带来全面创新。 Qwen3.5-Plus版本有3970亿个总参数,但只有170亿个激活。小胜大,Qwen3-Max模型的性能超过万亿参数。实现内存占用降低60%,推理效率大幅提升,峰值推理性能提升19倍。 Qwen3.5-Plus的API价格低至0.8元/百万代币,仅为Gemini 3 Pro的1/18。此外,高性能旗舰车型“Qwen 3.5-Max”也即将推出,以进行改进。与上一代Qianwen大规模语言模型不同,Qianwen 3.5做出了从纯文本模型到原生多模态模型的代际飞跃。钱文3采用纯文本token进行预训练,而钱文3.5则采用视觉和文本混合token进行预训练,大幅增加了中英文、多语言、STEM和推理数据,让大规模模型睁开“眼睛”,更深入地学习世界知识和推理逻辑。它以不到 40% 的参数实现了超过 10 亿个基于 Qwen3-Max 的模型的最高性能,并在包括推理、调度和代理智能在内的端到端基准测试中提供了卓越的性能。阿里巴巴开源的Qwen3.5-Plus性能与Gemini 3 Pro相当。通过原生多模态训练,钱文3的视觉能力5也得到了显着提升。多模态推理 (MathVison)、通用视觉 VQA 问答 (RealWorldQA)、文本识别和文档理解 (CC_OCR)、空间智能 (RefCOCO-avg) 和视频理解 (M)LVU),钱问3.5在多项可靠评测中取得了最佳性能。据了解,钱问3.5性能飞跃的背后,是经典Transformer架构的重要革命性进步。钱文团队自主研发的门技术在全球最大的人工智能会议NeurIPS 2025上获得最佳论文奖。这项尖端技术被集成到Qianwen 3.5的创新混合架构中。该团队将线性注意力机制与混合稀疏专家 MoE 模型架构相结合,仅实现了仅 170 亿个参数激活和 3970 亿个参数的最大模型效率。同时,钱文3.5通过训练稳定了优化和多代币。通过预测等一整套技术,Qwen3.5的性能与Qwen3-Max模型相当,并进一步提高了推理效率。在常用的32K上下文场景下,Qwen3.5可以改进推理性能提升8.6倍。针对256K超长上下文,Qwen3.5的推理性能提升高达19倍,推理效率大幅提升。钱文3.5的推理效率显着提升,最高性能提升19倍。钱问3.5中的原生多模态训练如下: 在阿里云的AI基础设施上高效完成。得益于一系列基础性创新,钱问3.5对于文本、图像、视频等混合数据的训练性能几乎100%等于纯文本模型训练的性能,并且原生多模态训练的难度阈值大幅提升。同时,精心设计的 FP8 和 FP32 高精度应用策略,在训练规模不断扩大到百亿级 token 时,激活内存减少约 50%,训练速度提升 10%,进一步节省模型训练成本,提高训练效率。艾宁效率。钱文3.5也基于最佳的视觉特性,从代理框架到代理应用取得了新的进展。钱文3.5可以独立操作手机和电脑,高效完成日常任务。移动端支持更常规的应用程序和命令,PC端可以处理更复杂的多步骤操作,例如应用程序之间的cdata分层和流程的自动执行,从而大大提高了操作效率。同时,Qianwen团队创建了一个可扩展的代理异步强化学习框架,可以实现3-5倍的端到端加速,并可扩展代理支持至数百万个附加代理。连日来,国产大型车型纷纷推出新车型,称霸“AI春节档”。 2月14日,字节跳动宣布推出豆宝大模型2.0系列。豆宝2.0针对大范围的使用需求进行了系统优化le生产环境,旨在更好地完成现实世界中的复杂任务。 2月13日,MiniMax发布新一代文本模型MiniMax M2.5后,正式宣布该模型全球开源,并支持本地化实现。字节跳动之前已推出 Seedance 2.0。由于其逼真的图形和电影镜头的运动,它最近几天引发了激烈的争论。阿里巴巴还正式推出了新一代图像生成和编辑模型Qwen-Image-2.0。 DeepSeek应用程序更新至1.7.4版本,网站也同时更新。削减了额叶内部情报,并从新生成的 MiniCPM-o 4.5 模型徽章中获得了所有模型徽章。采访及撰稿:南都N视频记者 林文琪
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅y 提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。