Skip to content

Commit 5f176d2

Browse files
committed
Stop word的术语统一翻译为“干扰词”。原来被翻译为"停用词"和"屏蔽词"
1 parent c986c59 commit 5f176d2

File tree

2 files changed

+37
-37
lines changed

2 files changed

+37
-37
lines changed

postgresql/doc/src/sgml/ref/create_tsdictionary.sgml

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -178,7 +178,7 @@ CREATE TEXT SEARCH DICTIONARY <replaceable class="parameter">name</replaceable>
178178
</para>
179179
-->
180180
<para>
181-
下面的示例命令用停用词的非标准列表创建了一个基于snowball的字典
181+
下面的示例命令用干扰词的非标准列表创建了一个基于snowball的字典
182182
</para>
183183

184184
<programlisting>

postgresql/doc/src/sgml/textsearch.sgml

Lines changed: 36 additions & 36 deletions
Original file line numberDiff line numberDiff line change
@@ -159,7 +159,7 @@
159159
<emphasis>转换标记为<firstterm>词</></emphasis>。词是一个字符串,就像一个标记,但它已经<firstterm>标准化</>,
160160
这样同一个词的不同形式是一样的。例如,标准化几乎总是包括可折叠的大写字母到小写字母,往往涉及删除后缀(如英语中
161161
的<literal>s</> 或者<literal>es</> )。这允许搜索找到同一个词的不同形式,没有繁琐的输入所有可能的变种。同时,这一步
162-
通常删除<firstterm>屏蔽词</>,这是很常见的,他们对于搜索无用。(总之,标记是文档文本的原片段,而词汇被认
162+
通常删除<firstterm>干扰词</>,这是很常见的,他们对于搜索无用。(总之,标记是文档文本的原片段,而词汇被认
163163
为是有用的索引和搜索的词。)<productname>PostgreSQL</productname>使用<firstterm>词典</>执行这一步。提供各种标准词典,
164164
以及为特定的需求创造的自定义词典。
165165
</para>
@@ -203,7 +203,7 @@
203203
</para>
204204
-->
205205
<para>
206-
定义不被索引的屏蔽词
206+
定义不被索引的干扰词
207207
</para>
208208
</listitem>
209209

@@ -509,7 +509,7 @@ text @@ text
509509
</para>
510510
-->
511511
<para>
512-
上面是所有简单文本搜索例子。如前所述,全文搜索功能还有能力做更多事情:忽略索引某个词(屏蔽词),
512+
上面是所有简单文本搜索例子。如前所述,全文搜索功能还有能力做更多事情:忽略索引某个词(干扰词),
513513
过程同义词和使用复杂解析,比如:不仅仅基于空白格的解析。这些功能通过<firstterm>文本搜索配置</>控制。
514514
<productname>PostgreSQL</>来自多语言的预先定义的配置,并且你也可以很容易的创建你自己的配置(<application>psql</>的<command>\dF</> 命令显示了
515515
所有可用配置)。
@@ -580,7 +580,7 @@ text @@ text
580580
</para>
581581
-->
582582
<para>
583-
<firstterm>文本搜索词典</>把标记转换成规范格式并且拒绝屏蔽词
583+
<firstterm>文本搜索词典</>把标记转换成规范格式并且拒绝干扰词
584584
</para>
585585
</listitem>
586586

@@ -1089,7 +1089,7 @@ SELECT to_tsvector('english', 'a fat cat sat on a mat - it ate a fat rats');
10891089
该<function>to_tsvector</function>函数内部调用一个分析器,将文档文本分解成记号并指定每个标记的类型。
10901090
为每个标记,参阅词典列表(节<xref linkend="textsearch-dictionaries">),列表因不同的标记类型而不同。
10911091
第一本词典<firstterm>识别</>标记发出一个或多个标准<firstterm>词汇</firstterm> 表示标记。例如,<literal>rats</literal>变成<literal>rat</literal>
1092-
因为字典认为词<literal>rats</literal>是<literal>rat</literal>的复数形式。有些词被作为<firstterm>屏蔽词</>(节<xref linkend="textsearch-stopwords">),
1092+
因为字典认为词<literal>rats</literal>是<literal>rat</literal>的复数形式。有些词被作为<firstterm>干扰词</>(节<xref linkend="textsearch-stopwords">),
10931093
这样它们就会被忽略,因为它们出现得太过频繁以致于搜索中没有用处。在我们的例子中,它们是<literal>a</literal>, <literal>on</literal>和<literal>it</literal>。
10941094
如果列表中没有词典识别标记,那么它也被忽略。在这个例子中,发生在标点符号处<literal>-</literal>因为事实上没有词典分配给它的标记类型(<literal>空间符号</literal>),
10951095
意味着空间记号永远不会被索引。语法分析器的选择,词典和索引类型的标记是由选定的文本搜索配置决定(节<xref linkend="textsearch-configuration">)。
@@ -1205,7 +1205,7 @@ to_tsquery(<optional> <replaceable class="PARAMETER">config</replaceable> <type>
12051205
<function>to_tsquery</function>从<replaceable>querytext</replaceable>中创建一个<type>tsquery</>,它必须由布尔运算符<literal>&amp;</literal> (AND),
12061206
<literal>|</literal> (OR)和<literal>!</literal> (NOT)分离的单个标记组成。这些运算符可以用圆括弧分组。换句话说,<function>to_tsquery</function>输入必须遵循<type>tsquery</>输入的一般规律,如节<xref
12071207
linkend="datatype-textsearch">所描述的。不同的是当基本<type>tsquery</>输入以标记表面值的时候,<function>to_tsquery</function>使用指定或默认配置规范每个标记到一个词,
1208-
并丢弃所有标记依据配置的屏蔽词。比如:
1208+
并丢弃所有标记依据配置的干扰词。比如:
12091209

12101210
<screen>
12111211
SELECT to_tsquery('english', 'The &amp; Fat &amp; Rats');
@@ -1953,7 +1953,7 @@ FROM (SELECT id, body, q, ts_rank_cd(ti, q) AS rank
19531953
<type>tsvector</>连接操作符返回一个连接词的向量,以及作为参数给定的2个向量的位置信息。
19541954
在连接期间重新获得位置和权重标签。出现在右边向量位置通过左边向量提到的最大位置相抵消,
19551955
因此这个结果几乎等同于2个原始文档字符串连接中执行<function>to_tsvector</>的结果。(这个等价是不准确的,
1956-
因为任何从左边参数中删除的屏蔽词不会影响结果,然而,如果使用文本连接,它们影响右边参数词的位置)。
1956+
因为任何从左边参数中删除的干扰词不会影响结果,然而,如果使用文本连接,它们影响右边参数词的位置)。
19571957
</para>
19581958

19591959
<!--
@@ -2172,7 +2172,7 @@ FROM (SELECT id, body, q, ts_rank_cd(ti, q) AS rank
21722172
-->
21732173

21742174
返回在一个<type>tsquery</>中节点的数目(词加操作符)。决定<replaceable>query</replaceable>是否有意义(返回&gt; 0),
2175-
或只包含屏蔽词(返回0),这个函数是很有用的。例子:
2175+
或只包含干扰词(返回0),这个函数是很有用的。例子:
21762176

21772177
<screen>
21782178
SELECT numnode(plainto_tsquery('the any'));
@@ -2211,7 +2211,7 @@ SELECT numnode('foo &amp; bar'::tsquery);
22112211
or only negated terms. For example:
22122212
-->
22132213

2214-
返回可用于搜索索引的<type>tsquery</>部分。此函数对检测未索引查询是有帮助的,例如那些只包含屏蔽词或否定术语。比如:
2214+
返回可用于搜索索引的<type>tsquery</>部分。此函数对检测未索引查询是有帮助的,例如那些只包含干扰词或否定术语。比如:
22152215
<screen>
22162216
SELECT querytree(to_tsquery('!defined'));
22172217
querytree
@@ -2995,8 +2995,8 @@ SELECT alias, description, token FROM ts_debug('http://example.com/stuff/index.h
29952995
</para>
29962996
-->
29972997
<para>
2998-
词典用于删除那些不在搜索范围内的词(<firstterm>屏蔽词</>),并且为了<firstterm>规范化</>,将匹配同一个词的不同形式。
2999-
一个成功的规范化的词叫<firstterm>词位</>。除了提高检索质量外,屏蔽词的规范化和删除可以减少文档<type>tsvector</type>形式的大小,
2998+
词典用于删除那些不在搜索范围内的词(<firstterm>干扰词</>),并且为了<firstterm>规范化</>,将匹配同一个词的不同形式。
2999+
一个成功的规范化的词叫<firstterm>词位</>。除了提高检索质量外,干扰词的规范化和删除可以减少文档<type>tsvector</type>形式的大小,
30003000
从而提高性能。规范化并不总是有语言学意义,通常取决于应用程序的环境。
30013001
</para>
30023002

@@ -3126,7 +3126,7 @@ SELECT alias, description, token FROM ts_debug('http://example.com/stuff/index.h
31263126
</para>
31273127
-->
31283128
<para>
3129-
如果词典认为标记是空数组,但它是一个屏蔽词
3129+
如果词典认为标记是空数组,但它是一个干扰词
31303130
</para>
31313131
</listitem>
31323132
<listitem>
@@ -3178,7 +3178,7 @@ SELECT alias, description, token FROM ts_debug('http://example.com/stuff/index.h
31783178
<para>
31793179
文本搜索配置将解析器和处理解析器输出标记绑定在一起。为了每个标记类型,
31803180
返回解析器,单独的词典列表通过配置指定。当标记类型是由解析器发现时,
3181-
列表中的每个字典依次查阅,直到一些词典作为一个已知的单词识别它。如果它被确定为一个屏蔽词
3181+
列表中的每个字典依次查阅,直到一些词典作为一个已知的单词识别它。如果它被确定为一个干扰词
31823182
或者如果没有词典识别标记,它将被丢弃,并且没有索引或搜索。通常,返回一个非-<literal>空</>输出的第一个词典将决定结果,
31833183
并且不查阅任何剩余的词典;但过滤词典可以替换带有修饰词的给定词,然后被传递给后继词典。
31843184
</para>
@@ -3233,7 +3233,7 @@ ALTER TEXT SEARCH CONFIGURATION astro_en
32333233
<!--
32343234
<title>Stop Words</title>
32353235
-->
3236-
<title>屏蔽词</title>
3236+
<title>干扰词</title>
32373237

32383238
<!--
32393239
<para>
@@ -3269,8 +3269,8 @@ SELECT ts_rank_cd (to_tsvector('english','list stop words'), to_tsquery('list &a
32693269
</para>
32703270
-->
32713271
<para>
3272-
屏蔽词是很常见的词,出现在几乎每一个文档中,并且没有区分值。因此,他们可以在全文搜索的环境中被忽视的。
3273-
例如,每个英文文本包含像<literal>a</literal> 和 <literal>the</>的单词,因此它们在索引中存储无效。然而,屏蔽词影响在<type>tsvector</type>中的位置,
3272+
干扰词是很常见的词,出现在几乎每一个文档中,并且没有区分值。因此,他们可以在全文搜索的环境中被忽视的。
3273+
例如,每个英文文本包含像<literal>a</literal> 和 <literal>the</>的单词,因此它们在索引中存储无效。然而,干扰词影响在<type>tsvector</type>中的位置,
32743274
这反过来也影响相关度:
32753275

32763276
<screen>
@@ -3280,7 +3280,7 @@ SELECT to_tsvector('english','in the list of stop words');
32803280
'list':3 'stop':5 'word':6
32813281
</screen>
32823282

3283-
丢失位置1,2,4是因为屏蔽词。带有和没有屏蔽词的文档排序计算是完全不同的
3283+
丢失位置1,2,4是因为干扰词。带有和没有干扰词的文档排序计算是完全不同的
32843284

32853285
<screen>
32863286
SELECT ts_rank_cd (to_tsvector('english','in the list of stop words'), to_tsquery('list &amp; stop'));
@@ -3306,8 +3306,8 @@ SELECT ts_rank_cd (to_tsvector('english','list stop words'), to_tsquery('list &a
33063306
</para>
33073307
-->
33083308
<para>
3309-
如何处理屏蔽词,它是由特定词典决定的。例如,<literal>ispell</literal>词典首先规范词,然后查看屏蔽词列表
3310-
而<literal>Snowball</literal>词干首先检查屏蔽词列表。这个不同操作的原因是为了减少噪音。
3309+
如何处理干扰词,它是由特定词典决定的。例如,<literal>ispell</literal>词典首先规范词,然后查看干扰词列表
3310+
而<literal>Snowball</literal>词干首先检查干扰词列表。这个不同操作的原因是为了减少噪音。
33113311
</para>
33123312

33133313
</sect2>
@@ -3330,9 +3330,9 @@ SELECT ts_rank_cd (to_tsvector('english','list stop words'), to_tsquery('list &a
33303330
</para>
33313331
-->
33323332
<para>
3333-
<literal>simple</>字典模板通过转换输入标记为小写字母进行,并且屏蔽词文件前检查它
3333+
<literal>simple</>字典模板通过转换输入标记为小写字母进行,并且干扰词文件前检查它
33343334
如果在文档中找到并返回空数组,则丢弃这个标记。如果没有,单词的小写字母形式作为归一化的词返回。
3335-
另外,词典可以为报告未识别的非屏蔽词进行配置,允许将它们传递到列表中的后继词典中。
3335+
另外,词典可以为报告未识别的非干扰词进行配置,允许将它们传递到列表中的后继词典中。
33363336
</para>
33373337

33383338

@@ -3358,7 +3358,7 @@ CREATE TEXT SEARCH DICTIONARY public.simple_dict (
33583358
The file format is simply a list of words, one per line. Blank lines and trailing spaces are ignored,and upper case is folded to lower case, but no other processing is done
33593359
on the file contents.
33603360
-->
3361-
在这里,<literal>english</literal>是一种屏蔽词文件的基础名称。文档的全名为<filename>$SHAREDIR/tsearch_data/english.stop</>,
3361+
在这里,<literal>english</literal>是一种干扰词文件的基础名称。文档的全名为<filename>$SHAREDIR/tsearch_data/english.stop</>,
33623362
这里的<literal>$SHAREDIR</>是<productname>PostgreSQL</productname>安装的共享数据目录,经常使用<filename>/usr/local/share/postgresql</>(如果你不确定,
33633363
则使用<command>pg_config &#045;-sharedir</>来决定)。文档格式是一个简单的单词列表,每行一个。忽略空白行和空格,
33643364
并且大写字母转换成小写字母,但对文档内容没有其他的处理方式。
@@ -3394,7 +3394,7 @@ SELECT ts_lexize('public.simple_dict','The');
33943394
selected by setting the dictionary's <literal>Accept</> parameter to
33953395
<literal>false</>. Continuing the example:
33963396
-->
3397-
如果没在屏蔽词文件中找到,我们也可以选择返回<literal>NULL</>,而不是小写字母单词。
3397+
如果没在干扰词文件中找到,我们也可以选择返回<literal>NULL</>,而不是小写字母单词。
33983398
这种行为是通过设置字典的<literal>Accept</>参数为<literal>false</>选择的。继续例子:
33993399

34003400
<screen>
@@ -3436,7 +3436,7 @@ SELECT ts_lexize('public.simple_dict','The');
34363436
</para>
34373437
-->
34383438
<para>
3439-
词典大部分类型依赖于配置文档,如屏蔽词文件。这些文件<emphasis>必须</>存储在UTF-8编码中。
3439+
词典大部分类型依赖于配置文档,如干扰词文件。这些文件<emphasis>必须</>存储在UTF-8编码中。
34403440
当他们读到服务器中,如果是不同的,他们将被转化为实际的数据库编码。
34413441
</para>
34423442
</caution>
@@ -3712,8 +3712,8 @@ more sample word(s) : more indexed word(s)
37123712
</para>
37133713
-->
37143714
<para>
3715-
通过子词典识别的具体屏蔽词不能被指定;而使用<literal>?</>标记任何屏蔽词出现的位置
3716-
例如,假设<literal>a</>和<literal>the</>是依据子词典的屏蔽词
3715+
通过子词典识别的具体干扰词不能被指定;而使用<literal>?</>标记任何干扰词出现的位置
3716+
例如,假设<literal>a</>和<literal>the</>是依据子词典的干扰词
37173717

37183718
<programlisting>
37193719
? one ? two : swsw
@@ -3751,7 +3751,7 @@ more sample word(s) : more indexed word(s)
37513751
-->
37523752
<para>
37533753
索引中使用词典,同义词词典的任何参数变化都<emphasis>需要</emphasis>重新索引。对于大多数其他词典类型,
3754-
小的变化,比如添加或去除屏蔽词不强迫重新索引
3754+
小的变化,比如添加或去除干扰词不强迫重新索引
37553755
</para>
37563756
</caution>
37573757

@@ -3817,7 +3817,7 @@ CREATE TEXT SEARCH DICTIONARY thesaurus_simple (
38173817
-->
38183818
<para>
38193819
<literal>pg_catalog.english_stem</literal>是用于词规范化的子词典(这的Snowball英文词干)。
3820-
注意,子词典将有自己的配置(例如,屏蔽词),不显示在这里。
3820+
注意,子词典将有自己的配置(例如,干扰词),不显示在这里。
38213821
</para>
38223822
</listitem>
38233823
</itemizedlist>
@@ -4059,8 +4059,8 @@ CREATE TEXT SEARCH DICTIONARY english_ispell (
40594059
</para>
40604060
-->
40614061
<para>
4062-
这里,<literal>DictFile</>, <literal>AffFile</>和<literal>StopWords</>指定词典基础的名字,词缀,和屏蔽词文件
4063-
屏蔽词文件具有和上面解释的<literal>simple</>词典类型相同的格式。其它文件的格式不在这里指定,
4062+
这里,<literal>DictFile</>, <literal>AffFile</>和<literal>StopWords</>指定词典基础的名字,词缀,和干扰词文件
4063+
干扰词文件具有和上面解释的<literal>simple</>词典类型相同的格式。其它文件的格式不在这里指定,
40644064
但可以从上面提到的网站获取。
40654065
</para>
40664066

@@ -4175,7 +4175,7 @@ CREATE TEXT SEARCH DICTIONARY english_stem (
41754175
site</ulink>)。
41764176
每个算法都知道如何改变词到基础,或词根,或其语言拼写的常见变异形式。
41774177
一个Snowball词典需要<literal>language</>参数标识要使用的词干,并且可以指定一个删除词的列表的<literal>stopword</>文件名。
4178-
(<productname>PostgreSQL</productname>的标准的屏蔽词列表也由Snowball项目提供)例如,有一个等价的内置定义。
4178+
(<productname>PostgreSQL</productname>的标准的干扰词列表也由Snowball项目提供)例如,有一个等价的内置定义。
41794179

41804180
<programlisting>
41814181
CREATE TEXT SEARCH DICTIONARY english_stem (
@@ -4185,7 +4185,7 @@ CREATE TEXT SEARCH DICTIONARY english_stem (
41854185
);
41864186
</programlisting>
41874187

4188-
屏蔽词的文件格式和已经解释过的一样
4188+
干扰词的文件格式和已经解释过的一样
41894189
</para>
41904190

41914191
<!--
@@ -4563,7 +4563,7 @@ ts_debug(<optional> <replaceable class="PARAMETER">config</replaceable> <type>re
45634563
</para>
45644564
-->
45654565
<para>
4566-
<replaceable>lexemes</> <type>text[]</> &mdash; 公认标记的词典产生的词(s),或者如果不做则为<literal>NULL</>;空数组(<literal>{}</>)意味着它是公认的屏蔽词
4566+
<replaceable>lexemes</> <type>text[]</> &mdash; 公认标记的词典产生的词(s),或者如果不做则为<literal>NULL</>;空数组(<literal>{}</>)意味着它是公认的干扰词
45674567
</para>
45684568
</listitem>
45694569
</itemizedlist>
@@ -4678,7 +4678,7 @@ SELECT * FROM ts_debug('public.english','The Brightest supernovaes');
46784678
</para>
46794679
-->
46804680
<para>
4681-
词<literal>The</literal>是由 <literal>english_ispell</literal>词典被公认为屏蔽词(节<xref linkend="textsearch-stopwords">),不会被索引。
4681+
词<literal>The</literal>是由 <literal>english_ispell</literal>词典被公认为干扰词(节<xref linkend="textsearch-stopwords">),不会被索引。
46824682
空间也被丢弃,因为该配置根本没有为它们提供词典。
46834683
</para>
46844684

@@ -4853,7 +4853,7 @@ ts_lexize(<replaceable class="PARAMETER">dict</replaceable> <type>regdictionary<
48534853
-->
48544854
<para>
48554855
如果输入<replaceable>token</replaceable>为词典已知的,那么<function>ts_lexize</>返回词的数组,如果这个token对词典是已知的,
4856-
但它是一个屏蔽词,则返回空数组。如果它是一个未知的词则返回<literal>NULL</literal>。
4856+
但它是一个干扰词,则返回空数组。如果它是一个未知的词则返回<literal>NULL</literal>。
48574857
</para>
48584858

48594859

@@ -5616,7 +5616,7 @@ Parser: "pg_catalog.default"
56165616
</para>
56175617
-->
56185618
<para>
5619-
在词库的配置文件中,屏蔽词必须用<literal>?</>标记。
5619+
在词库的配置文件中,干扰词必须用<literal>?</>标记。
56205620
</para>
56215621
</listitem>
56225622
</itemizedlist>

0 commit comments

Comments
 (0)