159
159
<emphasis>转换标记为<firstterm>词</></emphasis>。词是一个字符串,就像一个标记,但它已经<firstterm>标准化</>,
160
160
这样同一个词的不同形式是一样的。例如,标准化几乎总是包括可折叠的大写字母到小写字母,往往涉及删除后缀(如英语中
161
161
的<literal>s</> 或者<literal>es</> )。这允许搜索找到同一个词的不同形式,没有繁琐的输入所有可能的变种。同时,这一步
162
- 通常删除<firstterm>屏蔽词 </>,这是很常见的,他们对于搜索无用。(总之,标记是文档文本的原片段,而词汇被认
162
+ 通常删除<firstterm>干扰词 </>,这是很常见的,他们对于搜索无用。(总之,标记是文档文本的原片段,而词汇被认
163
163
为是有用的索引和搜索的词。)<productname>PostgreSQL</productname>使用<firstterm>词典</>执行这一步。提供各种标准词典,
164
164
以及为特定的需求创造的自定义词典。
165
165
</para>
203
203
</para>
204
204
-->
205
205
<para>
206
- 定义不被索引的屏蔽词 。
206
+ 定义不被索引的干扰词 。
207
207
</para>
208
208
</listitem>
209
209
@@ -509,7 +509,7 @@ text @@ text
509
509
</para>
510
510
-->
511
511
<para>
512
- 上面是所有简单文本搜索例子。如前所述,全文搜索功能还有能力做更多事情:忽略索引某个词(屏蔽词 ),
512
+ 上面是所有简单文本搜索例子。如前所述,全文搜索功能还有能力做更多事情:忽略索引某个词(干扰词 ),
513
513
过程同义词和使用复杂解析,比如:不仅仅基于空白格的解析。这些功能通过<firstterm>文本搜索配置</>控制。
514
514
<productname>PostgreSQL</>来自多语言的预先定义的配置,并且你也可以很容易的创建你自己的配置(<application>psql</>的<command>\dF</> 命令显示了
515
515
所有可用配置)。
@@ -580,7 +580,7 @@ text @@ text
580
580
</para>
581
581
-->
582
582
<para>
583
- <firstterm>文本搜索词典</>把标记转换成规范格式并且拒绝屏蔽词 。
583
+ <firstterm>文本搜索词典</>把标记转换成规范格式并且拒绝干扰词 。
584
584
</para>
585
585
</listitem>
586
586
@@ -1089,7 +1089,7 @@ SELECT to_tsvector('english', 'a fat cat sat on a mat - it ate a fat rats');
1089
1089
该<function>to_tsvector</function>函数内部调用一个分析器,将文档文本分解成记号并指定每个标记的类型。
1090
1090
为每个标记,参阅词典列表(节<xref linkend="textsearch-dictionaries">),列表因不同的标记类型而不同。
1091
1091
第一本词典<firstterm>识别</>标记发出一个或多个标准<firstterm>词汇</firstterm> 表示标记。例如,<literal>rats</literal>变成<literal>rat</literal>
1092
- 因为字典认为词<literal>rats</literal>是<literal>rat</literal>的复数形式。有些词被作为<firstterm>屏蔽词 </>(节<xref linkend="textsearch-stopwords">),
1092
+ 因为字典认为词<literal>rats</literal>是<literal>rat</literal>的复数形式。有些词被作为<firstterm>干扰词 </>(节<xref linkend="textsearch-stopwords">),
1093
1093
这样它们就会被忽略,因为它们出现得太过频繁以致于搜索中没有用处。在我们的例子中,它们是<literal>a</literal>, <literal>on</literal>和<literal>it</literal>。
1094
1094
如果列表中没有词典识别标记,那么它也被忽略。在这个例子中,发生在标点符号处<literal>-</literal>因为事实上没有词典分配给它的标记类型(<literal>空间符号</literal>),
1095
1095
意味着空间记号永远不会被索引。语法分析器的选择,词典和索引类型的标记是由选定的文本搜索配置决定(节<xref linkend="textsearch-configuration">)。
@@ -1205,7 +1205,7 @@ to_tsquery(<optional> <replaceable class="PARAMETER">config</replaceable> <type>
1205
1205
<function>to_tsquery</function>从<replaceable>querytext</replaceable>中创建一个<type>tsquery</>,它必须由布尔运算符<literal>&</literal> (AND),
1206
1206
<literal>|</literal> (OR)和<literal>!</literal> (NOT)分离的单个标记组成。这些运算符可以用圆括弧分组。换句话说,<function>to_tsquery</function>输入必须遵循<type>tsquery</>输入的一般规律,如节<xref
1207
1207
linkend="datatype-textsearch">所描述的。不同的是当基本<type>tsquery</>输入以标记表面值的时候,<function>to_tsquery</function>使用指定或默认配置规范每个标记到一个词,
1208
- 并丢弃所有标记依据配置的屏蔽词 。比如:
1208
+ 并丢弃所有标记依据配置的干扰词 。比如:
1209
1209
1210
1210
<screen>
1211
1211
SELECT to_tsquery('english', 'The & Fat & Rats');
@@ -1953,7 +1953,7 @@ FROM (SELECT id, body, q, ts_rank_cd(ti, q) AS rank
1953
1953
<type>tsvector</>连接操作符返回一个连接词的向量,以及作为参数给定的2个向量的位置信息。
1954
1954
在连接期间重新获得位置和权重标签。出现在右边向量位置通过左边向量提到的最大位置相抵消,
1955
1955
因此这个结果几乎等同于2个原始文档字符串连接中执行<function>to_tsvector</>的结果。(这个等价是不准确的,
1956
- 因为任何从左边参数中删除的屏蔽词不会影响结果 ,然而,如果使用文本连接,它们影响右边参数词的位置)。
1956
+ 因为任何从左边参数中删除的干扰词不会影响结果 ,然而,如果使用文本连接,它们影响右边参数词的位置)。
1957
1957
</para>
1958
1958
1959
1959
<!--
@@ -2172,7 +2172,7 @@ FROM (SELECT id, body, q, ts_rank_cd(ti, q) AS rank
2172
2172
-->
2173
2173
2174
2174
返回在一个<type>tsquery</>中节点的数目(词加操作符)。决定<replaceable>query</replaceable>是否有意义(返回> 0),
2175
- 或只包含屏蔽词 (返回0),这个函数是很有用的。例子:
2175
+ 或只包含干扰词 (返回0),这个函数是很有用的。例子:
2176
2176
2177
2177
<screen>
2178
2178
SELECT numnode(plainto_tsquery('the any'));
@@ -2211,7 +2211,7 @@ SELECT numnode('foo & bar'::tsquery);
2211
2211
or only negated terms. For example:
2212
2212
-->
2213
2213
2214
- 返回可用于搜索索引的<type>tsquery</>部分。此函数对检测未索引查询是有帮助的,例如那些只包含屏蔽词或否定术语 。比如:
2214
+ 返回可用于搜索索引的<type>tsquery</>部分。此函数对检测未索引查询是有帮助的,例如那些只包含干扰词或否定术语 。比如:
2215
2215
<screen>
2216
2216
SELECT querytree(to_tsquery('!defined'));
2217
2217
querytree
@@ -2995,8 +2995,8 @@ SELECT alias, description, token FROM ts_debug('http://example.com/stuff/index.h
2995
2995
</para>
2996
2996
-->
2997
2997
<para>
2998
- 词典用于删除那些不在搜索范围内的词(<firstterm>屏蔽词 </>),并且为了<firstterm>规范化</>,将匹配同一个词的不同形式。
2999
- 一个成功的规范化的词叫<firstterm>词位</>。除了提高检索质量外,屏蔽词的规范化和删除可以减少文档 <type>tsvector</type>形式的大小,
2998
+ 词典用于删除那些不在搜索范围内的词(<firstterm>干扰词 </>),并且为了<firstterm>规范化</>,将匹配同一个词的不同形式。
2999
+ 一个成功的规范化的词叫<firstterm>词位</>。除了提高检索质量外,干扰词的规范化和删除可以减少文档 <type>tsvector</type>形式的大小,
3000
3000
从而提高性能。规范化并不总是有语言学意义,通常取决于应用程序的环境。
3001
3001
</para>
3002
3002
@@ -3126,7 +3126,7 @@ SELECT alias, description, token FROM ts_debug('http://example.com/stuff/index.h
3126
3126
</para>
3127
3127
-->
3128
3128
<para>
3129
- 如果词典认为标记是空数组,但它是一个屏蔽词 。
3129
+ 如果词典认为标记是空数组,但它是一个干扰词 。
3130
3130
</para>
3131
3131
</listitem>
3132
3132
<listitem>
@@ -3178,7 +3178,7 @@ SELECT alias, description, token FROM ts_debug('http://example.com/stuff/index.h
3178
3178
<para>
3179
3179
文本搜索配置将解析器和处理解析器输出标记绑定在一起。为了每个标记类型,
3180
3180
返回解析器,单独的词典列表通过配置指定。当标记类型是由解析器发现时,
3181
- 列表中的每个字典依次查阅,直到一些词典作为一个已知的单词识别它。如果它被确定为一个屏蔽词 ,
3181
+ 列表中的每个字典依次查阅,直到一些词典作为一个已知的单词识别它。如果它被确定为一个干扰词 ,
3182
3182
或者如果没有词典识别标记,它将被丢弃,并且没有索引或搜索。通常,返回一个非-<literal>空</>输出的第一个词典将决定结果,
3183
3183
并且不查阅任何剩余的词典;但过滤词典可以替换带有修饰词的给定词,然后被传递给后继词典。
3184
3184
</para>
@@ -3233,7 +3233,7 @@ ALTER TEXT SEARCH CONFIGURATION astro_en
3233
3233
<!--
3234
3234
<title>Stop Words</title>
3235
3235
-->
3236
- <title>屏蔽词 </title>
3236
+ <title>干扰词 </title>
3237
3237
3238
3238
<!--
3239
3239
<para>
@@ -3269,8 +3269,8 @@ SELECT ts_rank_cd (to_tsvector('english','list stop words'), to_tsquery('list &a
3269
3269
</para>
3270
3270
-->
3271
3271
<para>
3272
- 屏蔽词是很常见的词 ,出现在几乎每一个文档中,并且没有区分值。因此,他们可以在全文搜索的环境中被忽视的。
3273
- 例如,每个英文文本包含像<literal>a</literal> 和 <literal>the</>的单词,因此它们在索引中存储无效。然而,屏蔽词影响在 <type>tsvector</type>中的位置,
3272
+ 干扰词是很常见的词 ,出现在几乎每一个文档中,并且没有区分值。因此,他们可以在全文搜索的环境中被忽视的。
3273
+ 例如,每个英文文本包含像<literal>a</literal> 和 <literal>the</>的单词,因此它们在索引中存储无效。然而,干扰词影响在 <type>tsvector</type>中的位置,
3274
3274
这反过来也影响相关度:
3275
3275
3276
3276
<screen>
@@ -3280,7 +3280,7 @@ SELECT to_tsvector('english','in the list of stop words');
3280
3280
'list':3 'stop':5 'word':6
3281
3281
</screen>
3282
3282
3283
- 丢失位置1,2,4是因为屏蔽词。带有和没有屏蔽词的文档排序计算是完全不同的 :
3283
+ 丢失位置1,2,4是因为干扰词。带有和没有干扰词的文档排序计算是完全不同的 :
3284
3284
3285
3285
<screen>
3286
3286
SELECT ts_rank_cd (to_tsvector('english','in the list of stop words'), to_tsquery('list & stop'));
@@ -3306,8 +3306,8 @@ SELECT ts_rank_cd (to_tsvector('english','list stop words'), to_tsquery('list &a
3306
3306
</para>
3307
3307
-->
3308
3308
<para>
3309
- 如何处理屏蔽词 ,它是由特定词典决定的。例如,<literal>ispell</literal>词典首先规范词,然后查看屏蔽词列表 ,
3310
- 而<literal>Snowball</literal>词干首先检查屏蔽词列表 。这个不同操作的原因是为了减少噪音。
3309
+ 如何处理干扰词 ,它是由特定词典决定的。例如,<literal>ispell</literal>词典首先规范词,然后查看干扰词列表 ,
3310
+ 而<literal>Snowball</literal>词干首先检查干扰词列表 。这个不同操作的原因是为了减少噪音。
3311
3311
</para>
3312
3312
3313
3313
</sect2>
@@ -3330,9 +3330,9 @@ SELECT ts_rank_cd (to_tsvector('english','list stop words'), to_tsquery('list &a
3330
3330
</para>
3331
3331
-->
3332
3332
<para>
3333
- <literal>simple</>字典模板通过转换输入标记为小写字母进行,并且屏蔽词文件前检查它 。
3333
+ <literal>simple</>字典模板通过转换输入标记为小写字母进行,并且干扰词文件前检查它 。
3334
3334
如果在文档中找到并返回空数组,则丢弃这个标记。如果没有,单词的小写字母形式作为归一化的词返回。
3335
- 另外,词典可以为报告未识别的非屏蔽词进行配置 ,允许将它们传递到列表中的后继词典中。
3335
+ 另外,词典可以为报告未识别的非干扰词进行配置 ,允许将它们传递到列表中的后继词典中。
3336
3336
</para>
3337
3337
3338
3338
@@ -3358,7 +3358,7 @@ CREATE TEXT SEARCH DICTIONARY public.simple_dict (
3358
3358
The file format is simply a list of words, one per line. Blank lines and trailing spaces are ignored,and upper case is folded to lower case, but no other processing is done
3359
3359
on the file contents.
3360
3360
-->
3361
- 在这里,<literal>english</literal>是一种屏蔽词文件的基础名称 。文档的全名为<filename>$SHAREDIR/tsearch_data/english.stop</>,
3361
+ 在这里,<literal>english</literal>是一种干扰词文件的基础名称 。文档的全名为<filename>$SHAREDIR/tsearch_data/english.stop</>,
3362
3362
这里的<literal>$SHAREDIR</>是<productname>PostgreSQL</productname>安装的共享数据目录,经常使用<filename>/usr/local/share/postgresql</>(如果你不确定,
3363
3363
则使用<command>pg_config --sharedir</>来决定)。文档格式是一个简单的单词列表,每行一个。忽略空白行和空格,
3364
3364
并且大写字母转换成小写字母,但对文档内容没有其他的处理方式。
@@ -3394,7 +3394,7 @@ SELECT ts_lexize('public.simple_dict','The');
3394
3394
selected by setting the dictionary's <literal>Accept</> parameter to
3395
3395
<literal>false</>. Continuing the example:
3396
3396
-->
3397
- 如果没在屏蔽词文件中找到 ,我们也可以选择返回<literal>NULL</>,而不是小写字母单词。
3397
+ 如果没在干扰词文件中找到 ,我们也可以选择返回<literal>NULL</>,而不是小写字母单词。
3398
3398
这种行为是通过设置字典的<literal>Accept</>参数为<literal>false</>选择的。继续例子:
3399
3399
3400
3400
<screen>
@@ -3436,7 +3436,7 @@ SELECT ts_lexize('public.simple_dict','The');
3436
3436
</para>
3437
3437
-->
3438
3438
<para>
3439
- 词典大部分类型依赖于配置文档,如屏蔽词文件 。这些文件<emphasis>必须</>存储在UTF-8编码中。
3439
+ 词典大部分类型依赖于配置文档,如干扰词文件 。这些文件<emphasis>必须</>存储在UTF-8编码中。
3440
3440
当他们读到服务器中,如果是不同的,他们将被转化为实际的数据库编码。
3441
3441
</para>
3442
3442
</caution>
@@ -3712,8 +3712,8 @@ more sample word(s) : more indexed word(s)
3712
3712
</para>
3713
3713
-->
3714
3714
<para>
3715
- 通过子词典识别的具体屏蔽词不能被指定 ;而使用<literal>?</>标记任何屏蔽词出现的位置 。
3716
- 例如,假设<literal>a</>和<literal>the</>是依据子词典的屏蔽词 :
3715
+ 通过子词典识别的具体干扰词不能被指定 ;而使用<literal>?</>标记任何干扰词出现的位置 。
3716
+ 例如,假设<literal>a</>和<literal>the</>是依据子词典的干扰词 :
3717
3717
3718
3718
<programlisting>
3719
3719
? one ? two : swsw
@@ -3751,7 +3751,7 @@ more sample word(s) : more indexed word(s)
3751
3751
-->
3752
3752
<para>
3753
3753
索引中使用词典,同义词词典的任何参数变化都<emphasis>需要</emphasis>重新索引。对于大多数其他词典类型,
3754
- 小的变化,比如添加或去除屏蔽词不强迫重新索引 。
3754
+ 小的变化,比如添加或去除干扰词不强迫重新索引 。
3755
3755
</para>
3756
3756
</caution>
3757
3757
@@ -3817,7 +3817,7 @@ CREATE TEXT SEARCH DICTIONARY thesaurus_simple (
3817
3817
-->
3818
3818
<para>
3819
3819
<literal>pg_catalog.english_stem</literal>是用于词规范化的子词典(这的Snowball英文词干)。
3820
- 注意,子词典将有自己的配置(例如,屏蔽词 ),不显示在这里。
3820
+ 注意,子词典将有自己的配置(例如,干扰词 ),不显示在这里。
3821
3821
</para>
3822
3822
</listitem>
3823
3823
</itemizedlist>
@@ -4059,8 +4059,8 @@ CREATE TEXT SEARCH DICTIONARY english_ispell (
4059
4059
</para>
4060
4060
-->
4061
4061
<para>
4062
- 这里,<literal>DictFile</>, <literal>AffFile</>和<literal>StopWords</>指定词典基础的名字,词缀,和屏蔽词文件 。
4063
- 屏蔽词文件具有和上面解释的 <literal>simple</>词典类型相同的格式。其它文件的格式不在这里指定,
4062
+ 这里,<literal>DictFile</>, <literal>AffFile</>和<literal>StopWords</>指定词典基础的名字,词缀,和干扰词文件 。
4063
+ 干扰词文件具有和上面解释的 <literal>simple</>词典类型相同的格式。其它文件的格式不在这里指定,
4064
4064
但可以从上面提到的网站获取。
4065
4065
</para>
4066
4066
@@ -4175,7 +4175,7 @@ CREATE TEXT SEARCH DICTIONARY english_stem (
4175
4175
site</ulink>)。
4176
4176
每个算法都知道如何改变词到基础,或词根,或其语言拼写的常见变异形式。
4177
4177
一个Snowball词典需要<literal>language</>参数标识要使用的词干,并且可以指定一个删除词的列表的<literal>stopword</>文件名。
4178
- (<productname>PostgreSQL</productname>的标准的屏蔽词列表也由Snowball项目提供 )例如,有一个等价的内置定义。
4178
+ (<productname>PostgreSQL</productname>的标准的干扰词列表也由Snowball项目提供 )例如,有一个等价的内置定义。
4179
4179
4180
4180
<programlisting>
4181
4181
CREATE TEXT SEARCH DICTIONARY english_stem (
@@ -4185,7 +4185,7 @@ CREATE TEXT SEARCH DICTIONARY english_stem (
4185
4185
);
4186
4186
</programlisting>
4187
4187
4188
- 屏蔽词的文件格式和已经解释过的一样 。
4188
+ 干扰词的文件格式和已经解释过的一样 。
4189
4189
</para>
4190
4190
4191
4191
<!--
@@ -4563,7 +4563,7 @@ ts_debug(<optional> <replaceable class="PARAMETER">config</replaceable> <type>re
4563
4563
</para>
4564
4564
-->
4565
4565
<para>
4566
- <replaceable>lexemes</> <type>text[]</> — 公认标记的词典产生的词(s),或者如果不做则为<literal>NULL</>;空数组(<literal>{}</>)意味着它是公认的屏蔽词 。
4566
+ <replaceable>lexemes</> <type>text[]</> — 公认标记的词典产生的词(s),或者如果不做则为<literal>NULL</>;空数组(<literal>{}</>)意味着它是公认的干扰词 。
4567
4567
</para>
4568
4568
</listitem>
4569
4569
</itemizedlist>
@@ -4678,7 +4678,7 @@ SELECT * FROM ts_debug('public.english','The Brightest supernovaes');
4678
4678
</para>
4679
4679
-->
4680
4680
<para>
4681
- 词<literal>The</literal>是由 <literal>english_ispell</literal>词典被公认为屏蔽词 (节<xref linkend="textsearch-stopwords">),不会被索引。
4681
+ 词<literal>The</literal>是由 <literal>english_ispell</literal>词典被公认为干扰词 (节<xref linkend="textsearch-stopwords">),不会被索引。
4682
4682
空间也被丢弃,因为该配置根本没有为它们提供词典。
4683
4683
</para>
4684
4684
@@ -4853,7 +4853,7 @@ ts_lexize(<replaceable class="PARAMETER">dict</replaceable> <type>regdictionary<
4853
4853
-->
4854
4854
<para>
4855
4855
如果输入<replaceable>token</replaceable>为词典已知的,那么<function>ts_lexize</>返回词的数组,如果这个token对词典是已知的,
4856
- 但它是一个屏蔽词 ,则返回空数组。如果它是一个未知的词则返回<literal>NULL</literal>。
4856
+ 但它是一个干扰词 ,则返回空数组。如果它是一个未知的词则返回<literal>NULL</literal>。
4857
4857
</para>
4858
4858
4859
4859
@@ -5616,7 +5616,7 @@ Parser: "pg_catalog.default"
5616
5616
</para>
5617
5617
-->
5618
5618
<para>
5619
- 在词库的配置文件中,屏蔽词必须用 <literal>?</>标记。
5619
+ 在词库的配置文件中,干扰词必须用 <literal>?</>标记。
5620
5620
</para>
5621
5621
</listitem>
5622
5622
</itemizedlist>
0 commit comments