不日,超大领域的 MoE 模子(搀杂专家模子)通义千问 Qwen2.5-Max 正式上线,通义千问团队行使进步 20 万亿 token 的预磨练数据及细心计划的后磨练计划举行磨练。
通义千问团队显示,“即日,咱们很兴奋能给大师分享 Qwen2.5-Max 目前所博得的劳绩。大师能够正在Qwen Chat 直接体验,或是通过阿里云百炼平台挪用 API 效劳。”
同时,通义千问还将 Qwen2.5-Max 与业界当先的模子(无论是闭源照样开源)正在一系列广受闭怀的基准测试进取行了比拟评估。这些基准测试包含测试大学程度学问的 MMLU-Pro、评估编程本领的 LiveCodeBench,周详评估归纳本领的 LiveBench,以及近似人类偏好的 Arena-Hard。评估结果涵盖了基座模子和指令模子的功能得分。
起首,通义千问直接比拟了指令模子的功能发扬。指令模子即咱们平日行使的能够直接对话的模子。通义千问将 Qwen2.5-Max 与业界当先的模子(包含 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet)的功能结果举行了比拟。
通义千问的基座模子正在公多半基准测试中都显映现了明显的上风。“咱们自信,跟着后磨练手艺的不竭先进,下一个版本的 Qwen2.5-Max 将会到达更高的程度。”
通义千问显示,将赓续擢升数据领域和模子参数领域不妨有用擢升模子的智能程度。“接下来,咱们将赓续追求,除了正在预磨练的 scaling 无间追求表,将大肆参加加强研习的 scaling,希冀能告竣超越人类的智能,驱动 AI 追求未知之境。”