百度文心 ERNIE 4.5 开源:开启中国多模态大模型开源新时代

百度文心 ERNIE 4.5 开源:开启中国多模态大模型开源新时代

随着DeepSeek-R1的横空出示,越来越多大公司开始开源模型,像DeepSeek R1发布的时候Kimi同步开源了技术文档,随着R1推动着思维链推理技术的发展,开源社区也出现了越来越多开源推理大模型,比如前段时间开源的Qwen3,开始使用MOE架构并且能自由切换思维模式,以及Kimi也开源了一些模型,比如Kimi-VL多模态模型,也适用了思维链R1的方式应用到多模态大模型中。最近冲浪中,我又发现百度也开始进行开源了,6.30号的时候刚刚发布了开源模型,也就是文心大模型 ERNIE 4.5系列,现在在huggingface已经可以下载开源的权重了 https://huggingface.co/baidu。

这次百度也是真的大气,一口气开源了很多个模型,包括了 47B、3B 激活参数的混合专家(MoE)模型,以及 0.3B 参数的稠密型模型,共计 10 款模型,实现了预训练权重和推理代码的完全开源。最惊讶的是同时开源了多模态推理大模型,之前Seed-VL公开技术报告的时候我惊艳了一波,但是字节并没有开源,百度这波开源的正是时候,而且是一个424B的大模型,也具有切换思考模模式的能力,也拥有Qwen3的语言模型能力。

同时从现有全球主流大模型开源维度上来看,现在百度开源的大模型无论是覆盖类型以及开源模型的数量,不仅包括基础模型,也包括多模态模型,这些都处于领先地位,并且主要的是开源协议是 Apache 协议,是开源进行商用的,依托这种趋势,未来肯定会有更多的大模型进行开源。

这次比较有意思是的,这次百度不仅仅开源了模型权重,同时也发布了技术报告和训练推理代码,能够让我们快速的了解这次开源的文心系列 ERNIE 4.5大模型,本次大模型还针对 MoE 架构,百度提出了一种创新性的多模态异构模型结构,这种范式在保留文本任务性能的基础上,还显著的增强多模态理解能力;同时百度的多模态MOE预训练和针对多模态后训练等关键技术,让他们在各个文本和多模态基准测试中脱颖而出,能够和 Qwen3/DeepSeekV3 的一较高下,比如ERNIE 4.5在 28 个基准测试中的 20+个指标上 上超越了 DeepSeek-V3-671B-A37B-Base,达到 SOTA 水平。这也可能是为什么百度能够开源高达424B的多模态大模型的原因,像这么大的多模态推理大模型暂时在国内还没有人进行开源,百度不论是在技术还是开源都走在了中国的前列。

最后意思的还是ERNIE 4.5系列中的多模态后训练模型,可支持思考,这次开源两个模型,一个是平价版本的28B的VL大模型,一个是超大版本的424B的大模型,可以看出来文心的大模型已经在多个基准上都超过了OpenAI-o1的水准了,而且也是为数不多开源的多模态推理大模型,性能也是数一数二,未来可能会有更多的文章和开源项目来follow 文心大模型了。这一部分也是最让我惊艳的,就算是关闭思考的模型也在通用环境中展现超强的能力,超过了Qwen2.5-VL,同样在多个领域都达到了SOTA。

并且在海外的twitter中,我也关注到,huggingface上到 CEO、创始人和众多工程师都对这次百度的开源一致好评,ERNIE 4.5是 DeepSeek以来中国最大的开源模型发布,同时文心的基准测试展现出很强的模型技术能力,可与Qwen3/DeepSeekv3等开源大模型竞争,并且参数量喜人,涵盖从0.3B到424B。

这次百度开源的时候也同时开源了训练代码,ERNIE 4.5模型使用飞桨(PaddlePaddle)框架进行训练,不仅仅有paddle的模型,也有pytorch模型。

同时配套一个微调的框架,也就是ERNIEKit,他 是一个面向 ERNIE 4.5 的产业级开发套件。它提供了模型训练和压缩功能,包括预训练,SFT,LoRA, DPO,量化感知训练(QAT)和训练后量化(PTQ)等技术。

使用示例:

# Download modelhuggingface-cli download baidu/ERNIE-4.5-300B-A47B-Base-Paddle \--local-dir baidu/ERNIE-4.5-300B-A47B-Base-Paddle
# SFTerniekit train examples/configs/ERNIE-4.5-300B-A47B/sft/run_sft_wint8mix_lora_8k.yaml \model_name_or_path=baidu/ERNIE-4.5-300B-A47B-Base-Paddle
# DPOerniekit train examples/configs/ERNIE-4.5-300B-A47B/dpo/run_dpo_wint8mix_lora_8k.yaml \model_name_or_path=baidu/ERNIE-4.5-300B-A47B-Base-Paddle

于此同时还提供了基于飞桨的大模型高效部署套件FastDeploy,使用接口兼容vLLM和OpenAI协议,针对ERNIE模型进行了优化,支持low bit推理,上下文缓存等加速技术,这里就不过多阐述了,以下是示例代码。

本地推理示例:

from fastdeploy import LLM, SamplingParams
prompt = "Write me a poem about large language model."sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(model="baidu/ERNIE-4.5-0.3B-Paddle", max_model_len=32768)
outputs = llm.generate(prompt, sampling_params)

服务部署示例:

python -m fastdeploy.entrypoints.openai.api_server \--model "baidu/ERNIE-4.5-0.3B-Paddle" \--max-model-len 32768 \--port 9904

有关详细文档、安装指南和高级配置选项,请参考ERNIEKit和 FastDeploy 仓库,这里我就不多说了。

现在大模型越来越卷了,不仅仅有开源和闭源之争,也有中美AI之争,OpenAI和谷歌大模型也在不断的发布,Open AI 以前的的闭源态度发生了明显转变,也开始打出 “开源 + 免费” 的组合拳,还开源了Agent框架以及DeepResearch,这无不显示中国的开源大模型的策略,已对 OpenAI 形成了强大的压力,迫使其不得不做出改变。现在大模型在技术层面逐渐向多模态方向发展,生态层面则愈发重视开源,而这次百度文心大模型 4.5 系列的开源,是中国 AI 发展历程中的一座重要里程碑,它向世界展示了中国 AI 的强大实力,也为中国 AI 开源生态的发展注入了强大动力。百度其实也一直在路上,百度有自研paddle飞桨框架以及千帆大模型平台,这次又开源了ERNIE 4.5,性价比拉满,同时给开源社区注入活力,后续我会尝试体验文心模型,看看github上的代码,共建开源社区,为开源贡献一份力量。

参考

  • ERNIE 4.5 模型系列正式开源:https://ernie.baidu.com/blog/zh/posts/ernie4.5/
  • https://x.com/eliebakouch/status/1939512373007765666
  • https://x.com/Xianbao_QIAN/status/1939506694838714530
  • https://x.com/ClementDelangue/status/1939516209172480141

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.tpcf.cn/bicheng/87472.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

22、企业项目管理(Project)全体系构建:从基础框架到智能防呆的完整解决方案

项目管理能力——企业VUCA战略落地的核心枢纽 在VUCA(乌卡时代,即VUCA时代,是指人们生活在一个不稳定性、不确定性、复杂性、模糊性的时代、境况或者世界中。vuca是volatility(易变性VUCA),uncertainty&am…

分布式定时任务:Elastic-Job-Lite

Elastic-Job-Lite 是一款由 Apache 开源的轻量级分布式任务调度框架,属于 ShardingSphere 生态体系的一部分。它专注于分布式任务调度,支持弹性伸缩、分片处理、高可用等特性,且不依赖中心化架构。 一、基础 (一)核心特…

记录一次生产环境ActiveMQ无法启动的问题

这次遇到一个问题,是ActiveMQ无法启动的,跟以往的现象不一样。这次是在服务器重启后出异常。 1、启动ActiveMQ时提示:activemq/data/kahadb/db.data(输入输出错误),NotFoundFileException异常 2、想着不应该…

大型语言模型幻觉检测相关综述

背景 1.1 幻觉检测的定义与范围 大型语言模型(LLMs)中的幻觉检测 是指系统性地识别由LLMs生成的事实错误或无意义输出的任务,而无需依赖外部证据 [Li et al., 2024; Zhang et al., 2024]。这项任务对于确保LLM生成内容的可靠性和可信度至关…

Python爬虫与数据可视化教程

对于经常写爬虫的技术来说了,可视化大大的提高工作效率,可以让获取的数据更直观的展示在面前,下面我将通过具体实操给大家展示下多种可视化具体教程,希望能都帮助大家。 下面是一个完整的Python爬虫和数据可视化解决方案&#xff…

【GHS】Green Hills软件MULTI-IDE的安装教程

前言:MULTI-IDE作为一款Green Hills开发的支持C/C、Ada等语言的嵌入式开发环境,由于其优异的性能,所以在汽车电子软件的开发中占有重要地位。但是这款IDE需要付费使用,对于个人学习而言不太友好,所以这里介绍一款PJ版本…

Web攻防-文件上传黑白名单MIMEJS前端执行权限编码解析OSS存储分域名应用场景

知识点: 1、WEB攻防-文件上传-前端&黑白名单&MIME&文件头等 2、WEB攻防-文件上传-执行权限&解码还原&云存储&分站等 3、WEB攻防-文件上传-JS提取&特定漏洞&第三方编辑器 4、WEB攻防-文件上传-思维导图形成 常规文件上传&#xff1a…

Odoo系统大型业务优化实战

目录 背景说明ORM与模型优化数据量处理策略接口与报表优化系统架构优化监控与诊断工具项目实战总结(案例)后续优化建议性能优化检查清单总结 一、背景说明 在 Odoo 项目中,随着业务不断扩展,系统常常面临如下挑战: …

【2.4 漫画SpringBoot实战】

🚀 漫画SpringBoot实战 🎯 学习目标:掌握SpringBoot企业级开发,从零到一构建现代化Java应用 📋 目录 SpringBoot核心特性自动配置原理Web开发实战数据访问与事务监控与部署🎭 漫画引言 小明: “为什么SpringBoot这么受欢迎?” 架构师老王: “SpringBoot就像全自动…

美国站群服务器的优势和应用与选择指南

在当今数字化时代,互联网业务的蓬勃发展促使各类企业和个人不断寻求高效、稳定且功能强大的网络解决方案。美国站群服务器作为一种备受瞩目的网络基础设施,正逐渐成为众多从事跨境电商、搜索引擎优化(SEO)、内容分发、数据采集等业…

智能合约基础:Solidity语法速成

目录 智能合约基础:Solidity语法速成引言:区块链的可编程世界1. Solidity基础语法1.1 合约结构1.2 数据类型2. 核心概念详解2.1 可见性修饰符2.2 状态可变性2.3 错误处理2.4 事件与日志3. 高级特性3.1 继承与接口3.2 修饰器3.3 委托调用与代理合约4. 完整DeFi质押合约实现5. …

SmartDV推出先进的H.264和H.265视频编码器和解码器IP

向全球市场提供灵活、高度可配置、可定制的半导体设计知识产权(IP)和验证IP(VIP)的开发商SmartDV™ Technologies近日宣布:公司现已提供即刻可用的H.264和H.265视频编码器和解码器IP解决方案。针对每一种技术&#xff…

数据结构学习day8---strstr+symlink+remove+rename+link+truncate

一、strstr 1.头文件 #include <string.h> 2.函数原型 char *strstr(const char *haystack, const char *needle);3.功能 在一个字符串haystack中查找另一个字符串needle的第一次出现&#xff0c;并返回该位置的指针&#xff0c;如果找不到&#xff0c;则返回NULL。 …

智能设备远程管理:基于OpenAI风格API的自动化实践

在数字化转型的浪潮中&#xff0c;智能设备的远程管理功能变得越来越重要。通过API接口实现对智能设备的自动化操作&#xff0c;不仅可以提高工作效率&#xff0c;还可以增强系统的灵活性和可扩展性。本文将详细介绍如何利用Python和openai库&#xff0c;结合一个类似OpenAI风格…

数字电路工作原理

1、数字电路的分类 2、基本结构和特点 3、电路特性 4、电路互连 5、电路选型基本原则 1、数字电路的分类 GaAs 该电路类型 速度快,功耗大,原料剧毒,至今尚未被大量应用 硅 出现了单极型 PMOS NMOS CMOS 双极性 TTL STTL、LSTTL、ALSTTL、FTTL、LVTTL ECL MEC…

C# 进行音视频编解码开发

一、音视频编解码基础 1.1 基本概念 音视频编解码是数字媒体处理的核心技术,主要涉及将原始音视频数据进行压缩编码以便存储和传输,以及将压缩数据解码为可播放的原始格式。在 C# 环境下开发音视频编解码器,需要先了解几个关键概念: 编码 (Encoding):将原始音视频数据转…

YOLOv11深度解析:Ultralytics新一代目标检测王者的创新与实践(附网络结构图+训练/推理/导出全流程代码详解)

🔥 一、YOLOv11为何成为新标杆? 2024年底,Ultralytics正式推出YOLOv11,在COCO数据集上以更少参数量(减少22%) 实现了超越YOLOv8的精度,成为边缘设备与云端部署的新宠。其核心创新在于: 轻量化设计:深度可分离卷积(DWConv)大幅降低计算量注意力增强:C2PSA模块提升…

live server插件vscode的配置

安装完其实就可以直接使用了&#xff0c;一般来说不必手动配置&#xff0c;点击右下角的go live按钮就可以运行。默认端口是5500 好的&#xff0c;为你详细说明如何在 VS Code 中配置 Live Server 插件。这是一个非常有用的插件&#xff0c;我们不仅会讲如何安装和使用&#x…

基于MATLAB的风力发电机无人机巡检路径优化研究

基于MATLAB的风力发电机无人机巡检路径优化研究 摘要 本文针对风力发电机无人机巡检路径优化问题,提出了一种基于三维参数建模与智能优化算法的解决方案。通过建立风力发电机的三维几何模型,综合考虑无人机的飞行约束条件和巡检任务需求,设计了多目标优化函数,并采用改进…

经纬度哈希编码实现方式

背景&#xff1a;在大数据数仓建设的过程中&#xff0c;有时会遇到经纬度类型的数据信息&#xff0c;但在进行关联分析和数仓建设的时候用经纬度去关联&#xff0c;难免不够便捷&#xff0c;于是我们可以开发UDF使用地理经纬度信息哈希编码的方案进行开发&#xff0c;非常有效 …