阅读ngram文档

2025-02-24 18:52:34 +08:00
parent d2d901b37c
commit 838ec5ccc8
1 changed files with 65 additions and 0 deletions
--- a/mysql/mysql文档/mysql_索引.md
+++ b/mysql/mysql文档/mysql_索引.md
@@ -77,6 +77,12 @@
      - [配置`ngram_token_size`](#配置ngram_token_size)
      - [使用ngram parser创建fulltext Index](#使用ngram-parser创建fulltext-index)
      - [ngram parser space handling](#ngram-parser-space-handling)
+    - [ngram handle stop word](#ngram-handle-stop-word)
+      - [natural language mode](#natural-language-mode)
+      - [boolean mode](#boolean-mode)
+    - [ngram  parser wildcard Search](#ngram--parser-wildcard-search)
+      - [前缀小于ngram token size](#前缀小于ngram-token-size)
+      - [前缀大于ngram token size](#前缀大于ngram-token-size)


 # innodb索引与算法
@@ -931,5 +937,64 @@ ngram parser在处理时消除空格，示例如下：
 - `ab cd`会被转化为`ab`和`cd` 
 - `a bc`会被转化为`bc`

+示例如下：
+```sql
+create table ngram_t (
+    id bigint auto_increment not null,
+    c1 text,
+    c2 text,
+    primary key(id),
+    fulltext `idx_ft_c1_c2` (c1, c2) with parser ngram
+);
+
+insert into ngram_t(c1, c2)
+values
+    ('突发！泽连斯基最新表态，称将与特朗普举行会谈', '与特朗普举行会谈'),
+    ('如能换取乌克兰加入北约愿立即辞职','乌克兰总统泽连斯基称将与美国总统特朗普举行会谈，如能换取乌克兰加入北约愿立即辞职');
+```
+执行上述语句后，执行如下语句，分词信息如下所示：
+```sql
+set global innodb_ft_aux_table='innodb_demo/ngram_t';
+select * from information_schema.INNODB_FT_INDEX_CACHE limit 20;
+```
+| WORD | FIRST\_DOC\_ID | LAST\_DOC\_ID | DOC\_COUNT | DOC\_ID | POSITION |
+| :--- | :--- | :--- | :--- | :--- | :--- |
+| ，如能换 | 3 | 5 | 2 | 3 | 118 |
+| ，如能换 | 3 | 5 | 2 | 5 | 118 |
+| ，称将与 | 2 | 4 | 2 | 2 | 33 |
+| ，称将与 | 2 | 4 | 2 | 4 | 33 |
+| ！泽连斯 | 2 | 4 | 2 | 2 | 6 |
+| ！泽连斯 | 2 | 4 | 2 | 4 | 6 |
+| 与特朗普 | 2 | 4 | 2 | 2 | 42 |
+| 与特朗普 | 2 | 4 | 2 | 2 | 25 |
+| 与特朗普 | 2 | 4 | 2 | 4 | 42 |
+| 与特朗普 | 2 | 4 | 2 | 4 | 25 |
+| 与美国总 | 3 | 5 | 2 | 3 | 82 |
+| 与美国总 | 3 | 5 | 2 | 5 | 82 |
+| 举行会谈 | 2 | 5 | 4 | 2 | 54 |
+| 举行会谈 | 2 | 5 | 4 | 2 | 25 |
+| 举行会谈 | 2 | 5 | 4 | 3 | 106 |
+| 举行会谈 | 2 | 5 | 4 | 4 | 54 |
+| 举行会谈 | 2 | 5 | 4 | 4 | 25 |
+| 举行会谈 | 2 | 5 | 4 | 5 | 106 |
+| 乌克兰加 | 3 | 5 | 2 | 3 | 12 |
+| 乌克兰加 | 3 | 5 | 2 | 3 | 121 |
+
+### ngram handle stop word 
+#### natural language mode
+对于natural language mode，`被搜索的词`将会被转化为ngram的并集，例如`abc`（假设ngram token size为2）将会被转化为`ab bc`。
+
+如果存在两个文档，一个文档包含`ab`，另一个文档包含`abc`，搜索词`ab bc`将会匹配两个文档。
+
+#### boolean mode 
+对于boolean mode，search item将会被转化为ngram phase search,例如`abc`将会被转化为`ab bc`，如果两个文档一个包含`ab`，另一个包含`abc`，那么phase `ab bc`只会匹配包含`abc`的文档。
+
+### ngram  parser wildcard Search 
+使用ngram praser时fulltext index只包含ngrams，使用通配符时会按照如下行为进行执行：
+#### 前缀小于ngram token size 
+如果前缀小于ngram token size，那么查询将会返回所有以prefix item开始的行。例如，当`ngram_token_size`为2时，查询`a*`将会返回所有以`a`开头的行
+#### 前缀大于ngram token size 
+如果前缀大于ngram token size,那么前缀将会转化为ngram phase，并且wildcard将会被忽略。例如，当`ngram_token_size`为2，查询`abc*`将会转换为`ab bc`
+