某机构Qwen团队发布了开源编程大模型Qwen3-Coder-480B-A35B-Instruct。这款专注于软件开发辅助的大型语言模型采用Apache 2.0开源许可,能够处理复杂的多步骤编程工作流,在数秒至数分钟内生成完整可运行的应用程序。

模型架构与能力

Qwen3-Coder采用混合专家(MoE)架构,包含4800亿总参数,每查询激活350亿参数,从160个专家中选择8个激活。模型原生支持256K令牌上下文长度,通过YaRN技术可扩展至100万令牌。作为因果语言模型,它具有62层网络结构,查询使用96个注意力头,键值对使用8个注意力头。

卓越性能

在多项代理评估套件中表现领先:

  • SWE-bench Verified: 67.0%(标准)/69.6%(500轮)
    • 对比GPT-4.1: 54.6%
    • 对比Claude Sonnet-4: 70.4%

工具与集成

随模型开源了Qwen Code CLI工具,支持函数调用和结构化提示。集成选项包括:

  • 通过DashScope代理或路由定制连接Claude Code
    • 作为OpenAI兼容后端接入Cline
    • 支持Ollama、LMStudio等本地运行方案

训练技术

除在7.5万亿令牌(70%代码)上预训练外,还采用:

  • 代码强化学习(Code RL):针对可验证代码任务
    • 长程代理RL:训练多轮交互中的规划能力

企业应用

特别适用于:

  • 代码库级理解
    • 自动化PR工作流
    • 工具集成与编排
    • 数据驻留与成本控制

开发者建议

最佳使用参数:

  • temperature=0.7, top_p=0.8
    • 最大输出长度65,536令牌
    • 需Transformers 4.51.0+版本 模型已在Hugging Face、GitHub等平台发布,技术社区反馈积极,被认为在专业编程任务中超越了通用模型的表现。团队表示未来将推出更多尺寸版本以降低部署成本。 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)