Stop word的术语统一翻译为“干扰词”。原来被翻译为"停用词"和"屏蔽词"

ChenHuajun · ChenHuajun · commit 5f176d2ee66e · 2015-10-12T01:22:57.000+08:00
diff --git a/postgresql/doc/src/sgml/ref/create_tsdictionary.sgml b/postgresql/doc/src/sgml/ref/create_tsdictionary.sgml
@@ -178,7 +178,7 @@ CREATE TEXT SEARCH DICTIONARY <replaceable class="parameter">name</replaceable>
   </para>
 -->
 <para>
-下面的示例命令用停用词的非标准列表创建了一个基于snowball的字典。
+下面的示例命令用干扰词的非标准列表创建了一个基于snowball的字典。
 </para>
 
 <programlisting>
diff --git a/postgresql/doc/src/sgml/textsearch.sgml b/postgresql/doc/src/sgml/textsearch.sgml
@@ -159,7 +159,7 @@
 <emphasis>转换标记为<firstterm>词</></emphasis>。词是一个字符串，就像一个标记，但它已经<firstterm>标准化</>，
 这样同一个词的不同形式是一样的。例如，标准化几乎总是包括可折叠的大写字母到小写字母，往往涉及删除后缀（如英语中
 的<literal>s</> 或者<literal>es</> ）。这允许搜索找到同一个词的不同形式，没有繁琐的输入所有可能的变种。同时，这一步
-通常删除<firstterm>屏蔽词</>，这是很常见的，他们对于搜索无用。（总之，标记是文档文本的原片段，而词汇被认
+通常删除<firstterm>干扰词</>，这是很常见的，他们对于搜索无用。（总之，标记是文档文本的原片段，而词汇被认
 为是有用的索引和搜索的词。）<productname>PostgreSQL</productname>使用<firstterm>词典</>执行这一步。提供各种标准词典，
 以及为特定的需求创造的自定义词典。
 </para>
@@ -203,7 +203,7 @@
     </para>
 -->
 <para>
-定义不被索引的屏蔽词。
+定义不被索引的干扰词。
 </para>
    </listitem>
 
@@ -509,7 +509,7 @@ text @@ text
    </para>
 -->
 <para>
-上面是所有简单文本搜索例子。如前所述，全文搜索功能还有能力做更多事情：忽略索引某个词（屏蔽词），
+上面是所有简单文本搜索例子。如前所述，全文搜索功能还有能力做更多事情：忽略索引某个词（干扰词），
 过程同义词和使用复杂解析，比如：不仅仅基于空白格的解析。这些功能通过<firstterm>文本搜索配置</>控制。
 <productname>PostgreSQL</>来自多语言的预先定义的配置，并且你也可以很容易的创建你自己的配置（<application>psql</>的<command>\dF</> 命令显示了
 所有可用配置）。
@@ -580,7 +580,7 @@ text @@ text
     </para>
 -->
 <para>
-<firstterm>文本搜索词典</>把标记转换成规范格式并且拒绝屏蔽词。
+<firstterm>文本搜索词典</>把标记转换成规范格式并且拒绝干扰词。
 </para>
    </listitem>
 
@@ -1089,7 +1089,7 @@ SELECT to_tsvector('english', 'a fat  cat sat on a mat - it ate a fat rats');
     该<function>to_tsvector</function>函数内部调用一个分析器，将文档文本分解成记号并指定每个标记的类型。
 为每个标记，参阅词典列表（节<xref linkend="textsearch-dictionaries">），列表因不同的标记类型而不同。
 第一本词典<firstterm>识别</>标记发出一个或多个标准<firstterm>词汇</firstterm> 表示标记。例如，<literal>rats</literal>变成<literal>rat</literal>
-因为字典认为词<literal>rats</literal>是<literal>rat</literal>的复数形式。有些词被作为<firstterm>屏蔽词</>（节<xref linkend="textsearch-stopwords">），
+因为字典认为词<literal>rats</literal>是<literal>rat</literal>的复数形式。有些词被作为<firstterm>干扰词</>（节<xref linkend="textsearch-stopwords">），
 这样它们就会被忽略，因为它们出现得太过频繁以致于搜索中没有用处。在我们的例子中，它们是<literal>a</literal>, <literal>on</literal>和<literal>it</literal>。
 如果列表中没有词典识别标记，那么它也被忽略。在这个例子中，发生在标点符号处<literal>-</literal>因为事实上没有词典分配给它的标记类型（<literal>空间符号</literal>），
 意味着空间记号永远不会被索引。语法分析器的选择，词典和索引类型的标记是由选定的文本搜索配置决定（节<xref linkend="textsearch-configuration">）。
@@ -1205,7 +1205,7 @@ to_tsquery(<optional> <replaceable class="PARAMETER">config</replaceable> <type>
  <function>to_tsquery</function>从<replaceable>querytext</replaceable>中创建一个<type>tsquery</>，它必须由布尔运算符<literal>&amp;</literal> (AND),
     <literal>|</literal> (OR)和<literal>!</literal> (NOT)分离的单个标记组成。这些运算符可以用圆括弧分组。换句话说，<function>to_tsquery</function>输入必须遵循<type>tsquery</>输入的一般规律，如节<xref
     linkend="datatype-textsearch">所描述的。不同的是当基本<type>tsquery</>输入以标记表面值的时候，<function>to_tsquery</function>使用指定或默认配置规范每个标记到一个词，
-并丢弃所有标记依据配置的屏蔽词。比如：
+并丢弃所有标记依据配置的干扰词。比如：
 
 <screen>
 SELECT to_tsquery('english', 'The &amp; Fat &amp; Rats');
@@ -1953,7 +1953,7 @@ FROM (SELECT id, body, q, ts_rank_cd(ti, q) AS rank
      <type>tsvector</>连接操作符返回一个连接词的向量，以及作为参数给定的2个向量的位置信息。
  在连接期间重新获得位置和权重标签。出现在右边向量位置通过左边向量提到的最大位置相抵消，
  因此这个结果几乎等同于2个原始文档字符串连接中执行<function>to_tsvector</>的结果。（这个等价是不准确的，
- 因为任何从左边参数中删除的屏蔽词不会影响结果，然而，如果使用文本连接，它们影响右边参数词的位置）。
+ 因为任何从左边参数中删除的干扰词不会影响结果，然而，如果使用文本连接，它们影响右边参数词的位置）。
 </para>
 
       <!--
@@ -2172,7 +2172,7 @@ FROM (SELECT id, body, q, ts_rank_cd(ti, q) AS rank
    -->
    
     返回在一个<type>tsquery</>中节点的数目（词加操作符）。决定<replaceable>query</replaceable>是否有意义（返回&gt; 0），
-   或只包含屏蔽词（返回0），这个函数是很有用的。例子：
+   或只包含干扰词（返回0），这个函数是很有用的。例子：
 
 <screen>
 SELECT numnode(plainto_tsquery('the any'));
@@ -2211,7 +2211,7 @@ SELECT numnode('foo &amp; bar'::tsquery);
        or only negated terms.  For example:
    -->
         
-返回可用于搜索索引的<type>tsquery</>部分。此函数对检测未索引查询是有帮助的，例如那些只包含屏蔽词或否定术语。比如:
+返回可用于搜索索引的<type>tsquery</>部分。此函数对检测未索引查询是有帮助的，例如那些只包含干扰词或否定术语。比如:
 <screen>
 SELECT querytree(to_tsquery('!defined'));
  querytree
@@ -2995,8 +2995,8 @@ SELECT alias, description, token FROM ts_debug('http://example.com/stuff/index.h
   </para>
 -->
 <para>
-   词典用于删除那些不在搜索范围内的词（<firstterm>屏蔽词</>），并且为了<firstterm>规范化</>，将匹配同一个词的不同形式。
-   一个成功的规范化的词叫<firstterm>词位</>。除了提高检索质量外，屏蔽词的规范化和删除可以减少文档<type>tsvector</type>形式的大小，
+   词典用于删除那些不在搜索范围内的词（<firstterm>干扰词</>），并且为了<firstterm>规范化</>，将匹配同一个词的不同形式。
+   一个成功的规范化的词叫<firstterm>词位</>。除了提高检索质量外，干扰词的规范化和删除可以减少文档<type>tsvector</type>形式的大小，
    从而提高性能。规范化并不总是有语言学意义，通常取决于应用程序的环境。
 </para>
 
@@ -3126,7 +3126,7 @@ SELECT alias, description, token FROM ts_debug('http://example.com/stuff/index.h
      </para>
 -->
 <para>
-     如果词典认为标记是空数组，但它是一个屏蔽词。
+     如果词典认为标记是空数组，但它是一个干扰词。
 </para>
     </listitem>
     <listitem>
@@ -3178,7 +3178,7 @@ SELECT alias, description, token FROM ts_debug('http://example.com/stuff/index.h
 <para>
      文本搜索配置将解析器和处理解析器输出标记绑定在一起。为了每个标记类型，
  返回解析器，单独的词典列表通过配置指定。当标记类型是由解析器发现时，
- 列表中的每个字典依次查阅，直到一些词典作为一个已知的单词识别它。如果它被确定为一个屏蔽词，
+ 列表中的每个字典依次查阅，直到一些词典作为一个已知的单词识别它。如果它被确定为一个干扰词，
  或者如果没有词典识别标记，它将被丢弃，并且没有索引或搜索。通常，返回一个非-<literal>空</>输出的第一个词典将决定结果，
  并且不查阅任何剩余的词典；但过滤词典可以替换带有修饰词的给定词，然后被传递给后继词典。
 </para>
@@ -3233,7 +3233,7 @@ ALTER TEXT SEARCH CONFIGURATION astro_en
   <!--
    <title>Stop Words</title>
     -->
-<title>屏蔽词</title>
+<title>干扰词</title>
 
    <!--
 <para>
@@ -3269,8 +3269,8 @@ SELECT ts_rank_cd (to_tsvector('english','list stop words'), to_tsquery('list &a
    </para>
 -->
 <para>
-    屏蔽词是很常见的词，出现在几乎每一个文档中，并且没有区分值。因此，他们可以在全文搜索的环境中被忽视的。
-例如，每个英文文本包含像<literal>a</literal> 和 <literal>the</>的单词，因此它们在索引中存储无效。然而，屏蔽词影响在<type>tsvector</type>中的位置，
+    干扰词是很常见的词，出现在几乎每一个文档中，并且没有区分值。因此，他们可以在全文搜索的环境中被忽视的。
+例如，每个英文文本包含像<literal>a</literal> 和 <literal>the</>的单词，因此它们在索引中存储无效。然而，干扰词影响在<type>tsvector</type>中的位置，
 这反过来也影响相关度：
 
 <screen>
@@ -3280,7 +3280,7 @@ SELECT to_tsvector('english','in the list of stop words');
  'list':3 'stop':5 'word':6
 </screen>
 
-    丢失位置1,2,4是因为屏蔽词。带有和没有屏蔽词的文档排序计算是完全不同的：
+    丢失位置1,2,4是因为干扰词。带有和没有干扰词的文档排序计算是完全不同的：
 
 <screen>
 SELECT ts_rank_cd (to_tsvector('english','in the list of stop words'), to_tsquery('list &amp; stop'));
@@ -3306,8 +3306,8 @@ SELECT ts_rank_cd (to_tsvector('english','list stop words'), to_tsquery('list &a
    </para>
 -->
 <para>
-    如何处理屏蔽词，它是由特定词典决定的。例如，<literal>ispell</literal>词典首先规范词，然后查看屏蔽词列表，
-而<literal>Snowball</literal>词干首先检查屏蔽词列表。这个不同操作的原因是为了减少噪音。
+    如何处理干扰词，它是由特定词典决定的。例如，<literal>ispell</literal>词典首先规范词，然后查看干扰词列表，
+而<literal>Snowball</literal>词干首先检查干扰词列表。这个不同操作的原因是为了减少噪音。
 </para>
 
   </sect2>
@@ -3330,9 +3330,9 @@ SELECT ts_rank_cd (to_tsvector('english','list stop words'), to_tsquery('list &a
    </para>
 -->
 <para>
-     <literal>simple</>字典模板通过转换输入标记为小写字母进行，并且屏蔽词文件前检查它。
+     <literal>simple</>字典模板通过转换输入标记为小写字母进行，并且干扰词文件前检查它。
  如果在文档中找到并返回空数组，则丢弃这个标记。如果没有，单词的小写字母形式作为归一化的词返回。
- 另外，词典可以为报告未识别的非屏蔽词进行配置，允许将它们传递到列表中的后继词典中。
+ 另外，词典可以为报告未识别的非干扰词进行配置，允许将它们传递到列表中的后继词典中。
 </para>
 
    
@@ -3358,7 +3358,7 @@ CREATE TEXT SEARCH DICTIONARY public.simple_dict (
     The file format is simply a list of words, one per line.  Blank lines and trailing spaces are ignored,and upper case is folded to lower case, but no other processing is done
     on the file contents.
 -->
-在这里，<literal>english</literal>是一种屏蔽词文件的基础名称。文档的全名为<filename>$SHAREDIR/tsearch_data/english.stop</>，
+在这里，<literal>english</literal>是一种干扰词文件的基础名称。文档的全名为<filename>$SHAREDIR/tsearch_data/english.stop</>，
 这里的<literal>$SHAREDIR</>是<productname>PostgreSQL</productname>安装的共享数据目录，经常使用<filename>/usr/local/share/postgresql</>（如果你不确定，
 则使用<command>pg_config &#045;-sharedir</>来决定）。文档格式是一个简单的单词列表，每行一个。忽略空白行和空格，
 并且大写字母转换成小写字母，但对文档内容没有其他的处理方式。
@@ -3394,7 +3394,7 @@ SELECT ts_lexize('public.simple_dict','The');
     selected by setting the dictionary's <literal>Accept</> parameter to
     <literal>false</>.  Continuing the example:
 -->
-如果没在屏蔽词文件中找到，我们也可以选择返回<literal>NULL</>，而不是小写字母单词。
+如果没在干扰词文件中找到，我们也可以选择返回<literal>NULL</>，而不是小写字母单词。
    这种行为是通过设置字典的<literal>Accept</>参数为<literal>false</>选择的。继续例子：
 
 <screen>
@@ -3436,7 +3436,7 @@ SELECT ts_lexize('public.simple_dict','The');
     </para>
 -->
 <para>
-      词典大部分类型依赖于配置文档，如屏蔽词文件。这些文件<emphasis>必须</>存储在UTF-8编码中。
+      词典大部分类型依赖于配置文档，如干扰词文件。这些文件<emphasis>必须</>存储在UTF-8编码中。
   当他们读到服务器中，如果是不同的，他们将被转化为实际的数据库编码。
 </para>
    </caution>
@@ -3712,8 +3712,8 @@ more sample word(s) : more indexed word(s)
    </para>
 -->
 <para>
-    通过子词典识别的具体屏蔽词不能被指定；而使用<literal>?</>标记任何屏蔽词出现的位置。
-例如，假设<literal>a</>和<literal>the</>是依据子词典的屏蔽词：
+    通过子词典识别的具体干扰词不能被指定；而使用<literal>?</>标记任何干扰词出现的位置。
+例如，假设<literal>a</>和<literal>the</>是依据子词典的干扰词：
 
 <programlisting>
 ? one ? two : swsw
@@ -3751,7 +3751,7 @@ more sample word(s) : more indexed word(s)
 -->
 <para>
      索引中使用词典，同义词词典的任何参数变化都<emphasis>需要</emphasis>重新索引。对于大多数其他词典类型，
- 小的变化，比如添加或去除屏蔽词不强迫重新索引。
+ 小的变化，比如添加或去除干扰词不强迫重新索引。
 </para>
    </caution>
 
@@ -3817,7 +3817,7 @@ CREATE TEXT SEARCH DICTIONARY thesaurus_simple (
 -->
 <para>
      <literal>pg_catalog.english_stem</literal>是用于词规范化的子词典（这的Snowball英文词干）。
- 注意，子词典将有自己的配置（例如，屏蔽词），不显示在这里。
+ 注意，子词典将有自己的配置（例如，干扰词），不显示在这里。
 </para>
      </listitem>
     </itemizedlist>
@@ -4059,8 +4059,8 @@ CREATE TEXT SEARCH DICTIONARY english_ispell (
    </para>
 -->
 <para>
-    这里，<literal>DictFile</>, <literal>AffFile</>和<literal>StopWords</>指定词典基础的名字，词缀，和屏蔽词文件。
-屏蔽词文件具有和上面解释的<literal>simple</>词典类型相同的格式。其它文件的格式不在这里指定，
+    这里，<literal>DictFile</>, <literal>AffFile</>和<literal>StopWords</>指定词典基础的名字，词缀，和干扰词文件。
+干扰词文件具有和上面解释的<literal>simple</>词典类型相同的格式。其它文件的格式不在这里指定，
 但可以从上面提到的网站获取。
 </para>
 
@@ -4175,7 +4175,7 @@ CREATE TEXT SEARCH DICTIONARY english_stem (
     site</ulink>）。
  每个算法都知道如何改变词到基础，或词根，或其语言拼写的常见变异形式。
  一个Snowball词典需要<literal>language</>参数标识要使用的词干，并且可以指定一个删除词的列表的<literal>stopword</>文件名。
- （<productname>PostgreSQL</productname>的标准的屏蔽词列表也由Snowball项目提供）例如，有一个等价的内置定义。
+ （<productname>PostgreSQL</productname>的标准的干扰词列表也由Snowball项目提供）例如，有一个等价的内置定义。
  
 <programlisting>
 CREATE TEXT SEARCH DICTIONARY english_stem (
@@ -4185,7 +4185,7 @@ CREATE TEXT SEARCH DICTIONARY english_stem (
 );
 </programlisting>
 
-    屏蔽词的文件格式和已经解释过的一样。
+    干扰词的文件格式和已经解释过的一样。
 </para>
 
    <!--
@@ -4563,7 +4563,7 @@ ts_debug(<optional> <replaceable class="PARAMETER">config</replaceable> <type>re
       </para>
 -->
 <para>
-      <replaceable>lexemes</> <type>text[]</> &mdash; 公认标记的词典产生的词（s），或者如果不做则为<literal>NULL</>；空数组（<literal>{}</>）意味着它是公认的屏蔽词。
+      <replaceable>lexemes</> <type>text[]</> &mdash; 公认标记的词典产生的词（s），或者如果不做则为<literal>NULL</>；空数组（<literal>{}</>）意味着它是公认的干扰词。
 </para>
      </listitem>
     </itemizedlist>
@@ -4678,7 +4678,7 @@ SELECT * FROM ts_debug('public.english','The Brightest supernovaes');
   </para>
 -->
 <para>
-    词<literal>The</literal>是由 <literal>english_ispell</literal>词典被公认为屏蔽词（节<xref linkend="textsearch-stopwords">），不会被索引。
+    词<literal>The</literal>是由 <literal>english_ispell</literal>词典被公认为干扰词（节<xref linkend="textsearch-stopwords">），不会被索引。
 空间也被丢弃，因为该配置根本没有为它们提供词典。
 </para>
 
@@ -4853,7 +4853,7 @@ ts_lexize(<replaceable class="PARAMETER">dict</replaceable> <type>regdictionary<
 -->
 <para>
     如果输入<replaceable>token</replaceable>为词典已知的，那么<function>ts_lexize</>返回词的数组，如果这个token对词典是已知的，
-但它是一个屏蔽词，则返回空数组。如果它是一个未知的词则返回<literal>NULL</literal>。
+但它是一个干扰词，则返回空数组。如果它是一个未知的词则返回<literal>NULL</literal>。
 </para>
 
    
@@ -5616,7 +5616,7 @@ Parser: "pg_catalog.default"
        </para>
 -->
 <para>
-        在词库的配置文件中，屏蔽词必须用<literal>?</>标记。
+        在词库的配置文件中，干扰词必须用<literal>?</>标记。
 </para>
       </listitem>
      </itemizedlist>