spaCy v2.3发布:新增5种语言模型与性能优化
spaCy自然语言处理库的2.3版本新增了五种语言的预训练模型:中文、日语、丹麦语、波兰语和罗马尼亚语。所有15个模型家族均更新了词向量并提升准确率,同时减少了带向量模型的体积和加载时间。
新增语言支持
- 中文模型:采用pkuseg进行分词,默认支持jieba,分词准确率达94.6%
-
- 日语模型:改用SudachiPy实现分词和词性标注,安装仅需
pip install spacy[ja]
- 日语模型:改用SudachiPy实现分词和词性标注,安装仅需
模型性能优化
- 词向量改进:大模型(lg)包含50万唯一向量,中模型(md)保留2万高频词向量
-
- 训练数据更新:基于Universal Dependencies v2.5语料库,标注和解析准确率提升3-5%
-
- 体积缩减:中型模型体积减少50%,英文大模型缩小120MB
-
- 加载加速:带向量模型的加载速度提升2-4倍
技术细节
- 自定义训练FastText词向量(CBOW, 300维,5字符n-grams)
-
- 移除了可推导的lexeme属性以减小模型体积
-
- 新增细粒度词性标签(如法语ADP_DET合并标签)
兼容性说明
v2.2训练的模型需重新训练以适应新版本,可通过python -m spacy validate
检查兼容性。
配套资源更新
- 在线课程《Advanced NLP with spaCy》新增日语、德语和西班牙语版本
-
- 新增实体链接和规则匹配等实战教程视频
该版本是spaCy v2的最终主要更新,v3版本将重点改进训练流程和配置系统,预计近期发布预览版。 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)