spaCy v2.3发布:新增5种语言模型与性能优化

spaCy自然语言处理库的2.3版本新增了五种语言的预训练模型:中文、日语、丹麦语、波兰语和罗马尼亚语。所有15个模型家族均更新了词向量并提升准确率,同时减少了带向量模型的体积和加载时间。

新增语言支持

  • 中文模型:采用pkuseg进行分词,默认支持jieba,分词准确率达94.6%
    • 日语模型:改用SudachiPy实现分词和词性标注,安装仅需pip install spacy[ja]

模型性能优化

  • 词向量改进:大模型(lg)包含50万唯一向量,中模型(md)保留2万高频词向量
    • 训练数据更新:基于Universal Dependencies v2.5语料库,标注和解析准确率提升3-5%
    • 体积缩减:中型模型体积减少50%,英文大模型缩小120MB
    • 加载加速:带向量模型的加载速度提升2-4倍

技术细节

  • 自定义训练FastText词向量(CBOW, 300维,5字符n-grams)
    • 移除了可推导的lexeme属性以减小模型体积
    • 新增细粒度词性标签(如法语ADP_DET合并标签)

兼容性说明

v2.2训练的模型需重新训练以适应新版本,可通过python -m spacy validate检查兼容性。

配套资源更新

  • 在线课程《Advanced NLP with spaCy》新增日语、德语和西班牙语版本
    • 新增实体链接和规则匹配等实战教程视频

该版本是spaCy v2的最终主要更新,v3版本将重点改进训练流程和配置系统,预计近期发布预览版。 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)