null - 程序员宅基地

Elasticsearch 5.0 中term 查询和match 查询（text和keyword）_es中keyword字段如何进行term查询-程序员宅基地

最近项目中使用了ElasticSearch, 在使用基本的查询功能的时候，遇到些头疼的事情，有时候数据明明存在，用term查询就是查不到，用match才可以。有时候缺可以，差点就把es整成玄学了。后来阅读各种博客后，我想我明白其中的原理了。

1. term&match

term: 精确查询，对查询的值不分词,直接进倒排索引去匹配。
match; 模糊查询，对查询的值分词，对分词的结果一一进入倒排索引去匹配

2. text&keyword

text: 在写入时，对写入的值进行分词，然后一一插入到倒排索引。
keyword: 在写入时，将整个值插入到倒排索引中，不进行分词。

3. 实例分析

写入值为 hello world,
查询值为 hello world

查询类型	写入类型	结果
term	text	无
term	keyword	有
match	text	有
match	keyword	有

一、基本情况

前言：term query和match query牵扯的东西比较多，例如分词器、mapping、倒排索引等。我结合官方文档中的一个实例，谈谈自己对此处的理解

string类型在es5.*分为text和keyword。text是要被分词的，整个字符串根据一定规则分解成一个个小写的term，keyword类似es2.3中not_analyzed的情况。

string数据put到elasticsearch中，默认是text。

NOTE:默认分词器为standard analyzer。”Quick Brown Fox!”会被分解成[quick,brown,fox]写入倒排索引

term query会去倒排索引中寻找确切的term，它并不知道分词器的存在。这种查询适合keyword 、numeric、date
match query知道分词器的存在。并且理解是如何被分词的

总的来说有如下：
- term query 查询的是倒排索引中确切的term
- match query 会对filed进行分词操作，然后在查询

二、测试（1）

准备数据：

POST /termtest/termtype/1
{
  "content":"Name"
}
POST /termtest/termtype/2
{
  "content":"name city"
}

查看数据是否导入

GET /termtest/_search
{
  "query":
  {
    "match_all": {}
  }
}

结果

{
  "took": 1,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 2,
    "max_score": 1,
    "hits": [
      {
        "_index": "termtest",
        "_type": "termtype",
        "_id": "2",
        "_score": 1,
        "_source": {
          "content": "name city"
        }
      },
      {
        "_index": "termtest",
        "_type": "termtype",
        "_id": "1",
        "_score": 1,
        "_source": {
          "content": "Name"
        }
      }
    ]
  }
}

如上说明，数据已经被导入。该处字符串类型是text，也就是默认被分词了

做如下查询：

POST /termtest/_search
{
  "query":{
    "term":{
      "content":"Name"
    }
  }
}

结果

{
  "took": 1,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 0,
    "max_score": null,
    "hits": []
  }
}

分析结果：因为是默认被standard analyzer分词器分词，大写字母全部转为了小写字母，并存入了倒排索引以供搜索。term是确切查询，
必须要匹配到大写的Name。所以返回结果为空

POST /termtest/_search
{
  "query":{
    "match":{
      "content":"Name"
    }
  }
}

结果

{
  "took": 2,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 2,
    "max_score": 0.2876821,
    "hits": [
      {
        "_index": "termtest",
        "_type": "termtype",
        "_id": "1",
        "_score": 0.2876821,
        "_source": {
          "content": "Name"
        }
      },
      {
        "_index": "termtest",
        "_type": "termtype",
        "_id": "2",
        "_score": 0.25811607,
        "_source": {
          "content": "name city"
        }
      }
    ]
  }
}

分析结果: 原因（1）：默认被standard analyzer分词器分词，大写字母全部转为了小写字母，并存入了倒排索引以供搜索，
原因（2）：match query先对filed进行分词，分词为”name”,再去匹配倒排索引中的term

三、测试（2）

下面是官网实例官网实例
1. 导入数据

PUT my_index
{
  "mappings": {
    "my_type": {
      "properties": {
        "full_text": {
          "type":  "text" 
        },
        "exact_value": {
          "type":  "keyword" 
        }
      }
    }
  }
}
 
PUT my_index/my_type/1
{
  "full_text":   "Quick Foxes!", 
  "exact_value": "Quick Foxes!"  
}

先指定类型，再导入数据

full_text: 指定类型为text，是会被分词
exact_value: 指定类型为keyword，不会被分词
full_text：会被standard analyzer分词为如下terms [quick,foxes],存入倒排索引
exact_value：只有[Quick Foxes!]这一个term会被存入倒排索引

做如下查询

GET my_index/my_type/_search
{
  "query": {
    "term": {
      "exact_value": "Quick Foxes!" 
    }
  }
}

结果：

{
  "took": 1,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 0.2876821,
    "hits": [
      {
        "_index": "my_index",
        "_type": "my_type",
        "_id": "1",
        "_score": 0.2876821,
        "_source": {
          "full_text": "Quick Foxes!",
          "exact_value": "Quick Foxes!"
        }
      }
    ]
  }
}

exact_value包含了确切的Quick Foxes!，因此被查询到

GET my_index/my_type/_search
{
  "query": {
    "term": {
      "full_text": "Quick Foxes!" 
    }
  }
}

结果：

{
  "took": 4,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 0,
    "max_score": null,
    "hits": []
  }
}

full_text被分词了，倒排索引中只有quick和foxes。没有Quick Foxes!

GET my_index/my_type/_search
{
  "query": {
    "term": {
      "full_text": "foxes" 
    }
  }
}

结果：

{
  "took": 2,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 0.25811607,
    "hits": [
      {
        "_index": "my_index",
        "_type": "my_type",
        "_id": "1",
        "_score": 0.25811607,
        "_source": {
          "full_text": "Quick Foxes!",
          "exact_value": "Quick Foxes!"
        }
      }
    ]
  }
}

full_text被分词，倒排索引中只有quick和foxes，因此查询foxes能成功

GET my_index/my_type/_search
{
  "query": {
    "match": {
      "full_text": "Quick Foxes!" 
    }
  }
}

结果：

{
  "took": 3,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 0.51623213,
    "hits": [
      {
        "_index": "my_index",
        "_type": "my_type",
        "_id": "1",
        "_score": 0.51623213,
        "_source": {
          "full_text": "Quick Foxes!",
          "exact_value": "Quick Foxes!"
        }
      }
    ]
  }
}

match query会先对自己的query string进行分词。也就是”Quick Foxes!”先分词为quick和foxes。然后在去倒排索引中查询，此处full_text是text类型，被分词为quick和foxes
因此能匹配上

本文链接：https://blog.csdn.net/z69183787/article/details/105080396

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

css中hover属性的使用技巧_css hover的用法-程序员宅基地

文章浏览阅读2.3w次，点赞15次，收藏63次。hover属性用不同的书写方式，来改变不同关系的元素样式。元素:hover 表示聚焦后改变自己元素:hover 元素表示聚焦后改变其子元素元素:hover + 元素表示聚焦后改变其指定的“亲兄弟”（条件是该兄弟元素与其相邻）元素元素:hover ~ 元素表示聚焦后改变其指定的兄弟元素，两个元素相不相邻都行。示例：.first:hover {color: white;}/* 聚焦我改变自己 */.three:hover .three-son {font-size: 20px._css hover的用法

coursera-斯坦福-机器学习-吴恩达-第8周笔记-无监督学习_pca反向压缩-程序员宅基地

文章浏览阅读6k次，点赞3次，收藏15次。coursera-斯坦福-机器学习-吴恩达-第8周笔记-无监督学习coursera-斯坦福-机器学习-吴恩达-第8周笔记-无监督学习1聚类算法clutering1聚类算法简介2K-means21kmeans的目标函数22随机初始化23选择类别数3考试quiz维数约减 dimensionality reduction1数据压缩2数据可视化3维度约简-主成分分析法PCA1 PCA_pca反向压缩

vim插件安装及常用技巧_bxbx.vim-程序员宅基地

文章浏览阅读5.2k次。一、插件安装Vundle是vim的一个插件管理器，同时它本身也是vim的一个插件。插件管理器用于方便、快速的安装、删除、Vim更新插件。mkdir -p ~/.vim/bundlegit clone https://github.com/gmarik/Vundle.vim.git ~/.vim/bundle/Vundle.vim管理器安装完成后，vim ~/.vimrc命令创建.vimrc文件syntax on" tab宽度和缩进同样设置为4set tabstop=4set softta_bxbx.vim

java.lang.ClassNotFoundException：如何解决-程序员宅基地

文章浏览阅读7.2w次，点赞10次，收藏41次。本文适用于当前面临java.lang.ClassNotFoundException挑战的Java初学者。它将为您提供此常见Java异常的概述，这是一个示例Java程序，可支持您的学习过程和解决策略。如果您对与更高级的类加载器相关的问题感兴趣，我建议您复习有关java.lang.NoClassDefFoundError的文章系列，因为这些Java异常密切相关。 java.lang..._java.lang.classnotfoundexception:

串口通信数据帧_一帧数据-程序员宅基地

文章浏览阅读1.2k次，点赞9次，收藏17次。不同的设备间建立连接往往需要通信，而串口通信是十分常用的一种。UART串口通信需要两根线来实现，一根用于串口发送，另外一更用于串口接收。UART串口发送或者接收过程中一帧数据包括1位起始位、8位数据位、1位停止位，为了提高数据的可靠性可以在停止位前加上1位奇偶校验位。串口通信虽然十分简单，但是在不同设备间发送的数据往往不止1个字节，往往需要多个字节组成的数据包。当我们按照数据包发送时我们需要考虑到以及，因此我们可以采用定义数据帧的方式解决上述两个问题。_一帧数据

代码编辑快捷键使用说明_改代码快捷键-程序员宅基地

文章浏览阅读1.4k次。1、Ctrl+←或→ ：跳过（左边或右边）一个光标相邻的单词或词组(标点符号相当于一个单词)。点击前光标位置：点击后光标位置：2、Shift+←或→：选中（左边或右边）一个光标相邻的字符。点击前显示：点击后显示： 3、Shift+Ctrl+←或→：选中（左边或右边）一个光标相邻的单词或词组(标点符号相当于一个单词)。点击前显示：点击后显示：4、Home/End：光标定位到当前行的行头/行尾。点击前:点击Home后:点击End后:5、Ctrl+Home/End：从光标所在位置直接回到当前文件开头/结尾。点击前_改代码快捷键

随便推点

问题解决：shared_ptr Assertion px != 0 failed 及debug经验分享_typename boost::detail::sp_dereference<t>::type bo-程序员宅基地

文章浏览阅读6.8k次，点赞11次，收藏18次。问题解决：shared_ptr Assertion px != 0 failed及debug经验分享问题详细描述：/usr/include/boost/smart_ptr/shared_ptr.hpp:646: typename boost::detail::sp_dereference::type boost::shared_ptr::operator*() const [with T = pcl::PointCloudpcl::pointxyz; typename boost::detail::sp_typename boost::detail::sp_dereference::type boost::shared_ptr::operat

看不见的“网” ,一文读懂阿里云基础设施网络_阿里云网络基线理解-程序员宅基地

文章浏览阅读553次。编者按：在这个万物智联的时代，无论是在线网络购物，还是网络强国、数字中国建设，都离不开一张“看不见的网”——基础设施网络。2009年，首届双11每秒交易订单创建峰值400；2021年，双11每秒交易订单创建峰值58.3万，12年交易数字量猛增的背后，是阿里云在庞大分布式系统上计算和IO能力的飞跃，更离不开阿里云基础设施底层网络技术的支撑。图｜阿里云全球基础设施网络系统作为阿里云基础设施的重要组成部分，阿里云基础设施网络团队负责整个阿里云全球基础设施网络，包括大规模高性能数据中心网络，全球数据中心互联_阿里云网络基线理解

TCP/UDP常见端口参考_怎么查看端口映射的是tcp还是udp-程序员宅基地

文章浏览阅读1.7k次。端口列表一览端口号码 / 层名称注释 1 tcpmux TCP 端口服务多路复用 5 rje 远程作业入口 7 echo Echo 服务 9 discard 用于连接测试的空服务 11 systat 用于列举连接了的端口的系统状态 13 daytime 给请求主机发送日期和时间 17 qotd 给连接了的主机发送每日格言 18 msp 消息发送协议 19 _怎么查看端口映射的是tcp还是udp

优化微信小程序音频播放，实现多音频同时播放，互不干扰。_微信小游戏 inneraudiocontext 数量限制-程序员宅基地

文章浏览阅读1.1w次。_微信小游戏 inneraudiocontext 数量限制

android JSBridge 漏洞挖掘_adnroid jsbridge 不安全的资源引用-程序员宅基地

文章浏览阅读825次。一、概述1. JSBridge介绍什么是JSBridge主要是给 JavaScript 提供调用 Native 功能的接口，让混合开发中的前端部分可以方便地使用 Native 的功能（例如：地址位置、摄像头）。而且 JSBridge 的功能不止调用 Native 功能这么简单宽泛。实际上，JSBridge 就像其名称中的Bridge的意义一样，是 Native 和非 Native 之间的桥梁，它的核心是构建 Native 和非 Native 间消息通信的通道，而且这个通信的通道是双向的。双向通信的通_adnroid jsbridge 不安全的资源引用

OpenCV+Mediapipe+UDP+Unity挥手电子书翻页_unity opencv 虚拟翻书-程序员宅基地

文章浏览阅读2k次，点赞13次，收藏43次。OpenCV+Mediapipe+UDP+Unity挥手翻页_unity opencv 虚拟翻书