【Elasticsearch】BM25的discount_overlaps参数

`discount_overlaps` 是 Elasticsearch/Lucene 相似度模型(Similarity)里的一个布尔参数,用来决定:

> 在计算文档长度归一化因子(norm)时,是否忽略“重叠 token”(即位置增量 positionIncrement=0 的 token)。

---

✅ 默认值与含义

参数值 含义 

`true`(默认) 重叠 token 不计入文档长度,不影响 norm 

`false` 重叠 token 会计入文档长度,参与 norm 计算 

---

✅ 使用场景举例

- 如果你使用了 同义词过滤器(synonym filter),多个同义词可能会落在 同一位置,这些 token 的 `positionIncrement=0`。

- 默认 `discount_overlaps=true` 会让这些 token 不影响文档长度,从而避免重复同义词“人为”拉长文档。

- 如果你希望这些 token 也参与长度计算,可设为 `false`。

---

✅ 配置示例(BM25)

```json

PUT /my_index

{

  "settings": {

    "index": {

      "similarity": {

        "my_bm25": {

          "type": "BM25",

          "k1": 1.2,

          "b": 0.75,

          "discount_overlaps": false

        }

      }

    }

  },

  "mappings": {

    "properties": {

      "title": {

        "type": "text",

        "similarity": "my_bm25"

      }

    }

  }

}

```

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.tpcf.cn/bicheng/90345.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux | LVS--Linux虚拟服务器知识点(上)

一. 集群与分布式1.1 系统性能扩展方式当系统面临性能瓶颈时,通常有以下两种主流扩展思路:Scale Up(向上扩展):通过增强单台服务器的硬件配置来提升性能,这种方式简单直接,但受限于硬件物理极限…

【Linux-云原生-笔记】keepalived相关

一、概念Keepalived 是一个用 C 语言编写的、轻量级的高可用性和负载均衡解决方案软件。 它的主要目标是在基于 Linux 的系统上提供简单而强大的故障转移功能,并可以结合 Linux Virtual Server 提供负载均衡。1、Keepalived 主要提供两大功能:高可用性&a…

计算机网络:概述层---计算机网络的组成和功能

🌐 计算机网络基础全景梳理:组成、功能与核心机制 📅 更新时间:2025年7月21日 🏷️ 标签:计算机网络 | 网络组成 | 分布式 | 负载均衡 | 资源共享 | 网络可靠性 | 计网基础 文章目录前言一、组成1.从组成部…

Linux中scp命令传输文件到服务器报错

上传本地文件到Linux服务器使用scp命令报错解决办法使用scp命令报错 Could not resolve hostname e: Name or service not known 解决办法 不使用登录服务器的工具传输,打开本地cmd,使用scp命令传输即可。 scp E:\dcm-admin.jar root127.0.0.1:/

历史数据分析——国药现代

医药板块走势分析: 从月线级别来看 2008年11月到2021年2月,月线上走出了两个震荡中枢的月线级别2085-20349的上涨段; 2021年2月到2024年9月,月线上走出了20349-6702的下跌段; 目前月线级别放巨量,总体还在震荡区间内,后续还有震荡和上涨的概率。 从周线级别来看 从…

#Linux内存管理# 在一个播放系统中同时打开几十个不同的高清视频文件,发现播放有些卡顿,打开视频文件是用mmap函数,请简单分析原因。

在播放系统中同时使用mmap打开几十个高清视频文件出现卡顿,主要原因如下:1. 内存映射(mmap)的缺页中断开销按需加载机制:mmap将文件映射到虚拟地址空间,但实际数据加载由“缺页中断(Page Fault&…

AI黑科技:GAN如何生成逼真人脸

GAN的概念 GAN(Generative Adversarial Network,生成对抗网络)是一种深度学习模型,由生成器(Generator)和判别器(Discriminator)两部分组成。生成器负责生成 synthetic data(如假图像、文本等),判别器则试图区分生成数据和真实数据。两者通过对抗训练不断优化,最终…

FireFox一些设置

firefox后台打开新的链接,例如中键打开一个链接 地址栏输入about:config 找到下面三项,全部设为true browser.tabs.loadInBackground browser.tabs.loadDivertedInBackground browser.tabs.loadBookmarksInBackground 参考:FireFox/chrome…

【黑马SpringCloud微服务开发与实战】(六)分布式事务

1. 什么是分布式事务下单失败,购物车还被清理了。不符合一致性。2. seata的架构和原理3. 部署TC服务docker network ls docker inspect mysql mysql 在hm-net下,这里我的ncaos不是跟着视频配的,因此需要。 docker network connect hm-net nac…

【力扣】第15题:三数之和

原文链接:15. 三数之和 - 力扣(LeetCode) 思路解析 双指针: (1)头尾指针对应值相加如果大于目标值(target),那么只能尾指针-1;如果小于target,那么只能头指针1。 &#x…

Linux PCI总线子系统

The Linux Kernel Archives Linux PCI总线子系统 — The Linux Kernel documentation

LeetCode热题100--24. 两两交换链表中的节点--中等

1. 题目 给你一个链表,两两交换其中相邻的节点,并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题(即,只能进行节点交换)。 示例 1: 输入:head [1,2,3,4] 输出&#x…

京东视觉算法面试30问全景精解

京东视觉算法面试30问全景精解 ——零售智能 供应链创新 工业落地:京东视觉算法面试核心考点全览 前言 京东作为中国领先的零售科技企业,在智能物流、供应链管理、智能仓储、商品识别、工业质检等领域持续推动视觉AI的创新与大规模落地。京东视觉算法岗位面试不仅关注候…

【设计模式】观察者模式 (发布-订阅模式,模型-视图模式,源-监听器模式,从属者模式)

观察者模式(Observer Pattern)详解一、观察者模式简介 观察者模式(Observer Pattern) 是一种 行为型设计模式(对象行为型模式),它定义了一种一对多的依赖关系,让多个观察者对象同时监…

Linux的`<< EOF`(Here-Document)详解多回答笔记250722

Linux的<< EOF(Here-Document)详解多回答笔记250722 Linux 中的 << EOF 结构称为 Here Document&#xff08;立即文档或嵌入文档&#xff09;&#xff0c;它是一种在 Shell 脚本中直接嵌入多行文本输入流&#xff08;通常作为命令的标准输入&#xff09;的方式。E…

Go语言实战案例-简单配置文件(INI格式)解析器

以下是《Go语言100个实战案例》中的 文件与IO操作篇 - 案例20&#xff1a;简单配置文件&#xff08;INI格式&#xff09;解析器 的完整内容&#xff0c;适合入门学习如何用 Go 语言解析常见的 .ini 配置文件格式。&#x1f3af; 案例目标使用 Go 语言解析一个 .ini 格式的配置文…

用 PyTorch 实现全连接网络识别 MNIST 手写数字

目录 一、什么是全连接网络 二、代码实现步骤 1. 导入必要的库 2. 数据准备 3. 定义网络结构 4. 模型训练 5. 模型保存和加载 6. 预测单张图片 7. 主函数 三、运行结果说明 四、小结 一、什么是全连接网络 全连接神经网络&#xff08;Fully Connected Neural Networ…

vscode怎么安装MINGW

下载&#xff1a; 第一步选择MINGW官网&#xff1a;MinGW-w64 - for 32 and 64 bit Windows - SourceForge.net 点击Files 点击Toolchains targetting Win64 点击第一个 Personal Builds 点击mingw-builds 选择8.1.0 点击第二个 threads-posix 点击第二个seh 最后左键点击下…

CSS图片分层设置

在CSS中实现图片分层效果&#xff0c;主要通过定位属性和层叠上下文控制。以下是核心实现方法和示例&#xff1a; 一、核心实现原理定位方式 使用 position: relative/absolute/fixed 使图片脱离文档流 .layer {position: absolute; /* 关键属性 */top: 0;left: 0; }层叠控制 通…

GEMINUS 和 Move to Understand a 3D Scene

论文链接&#xff1a;https://arxiv.org/abs/2507.14456 代码链接&#xff1a;https://github.com/newbrains1/GEMINUS 端到端自动驾驶的挑战 端到端自动驾驶是一种“一站式”方法&#xff1a;模型直接从传感器输入&#xff08;如摄像头图像&#xff09;生成驾驶轨迹或控制信号…