Skip to content

Commit d6748ee

Browse files
committed
增加了两个模型。分别用于。大词和小词。可能不会在对maven进行更新
1 parent 7b0f528 commit d6748ee

File tree

15 files changed

+873
-506
lines changed

15 files changed

+873
-506
lines changed

README.md

Lines changed: 3 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -64,6 +64,9 @@ https://github.com/ansjsun/mvn-repo/tree/gh-pages/org/ansj/tree_split
6464
----
6565
##大事记要
6666

67+
#2014年1月21日
68+
* 增加了crf模型的解析。用crf来做未登录词的识别。取得了不错的效果,增加了对长词的进一步解析。将颗粒度防到最低。但是随之而来的影响造成了。分词jar包过大。大约有500多m,无法很顺利发布到git 和 maven库中。试了oschina的maven库也是不可以。如果没有很好的方案。ansj决定放弃maven支持。对于这方面需求的朋友只能说非常抱歉了。我不想因为担心项目的庞大。而畏首畏尾。当然对于jar包的发布可能选择云盘的方案。对于用于搜索的朋友。不建议跟着更新。因为index分词没有作更多的改变。祝好。剩下今年的时间(阴历),有下面几个打算。重构代码。优化里面的关键性算法。完善文档。随缘
69+
6770
#2013年12月12日
6871
* 把由字构词的方式加到了分词中,对未登录词有了很大的提高。对外国人名的识别做了特定的优化。目前正在测试中。新增了httpserver 的控制台。可以直接方便调用分词结果
6972

src/main/java/org/ansj/app/crf/SplitWord.java

Lines changed: 0 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -35,7 +35,6 @@ public class SplitWord {
3535
*/
3636
public SplitWord(Model model) {
3737
this.model = model;
38-
3938
tagConver = new int[model.template.tagNum];
4039
revTagConver = new int[model.template.tagNum];
4140
Set<Entry<String, Integer>> entrySet = model.template.statusMap.entrySet();

src/main/java/org/ansj/app/web/AnsjServlet.java

Lines changed: 7 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -16,7 +16,7 @@
1616
public class AnsjServlet {
1717

1818
private enum AnsjMethod {
19-
TO, NLP, BASE, KEYWORD ,INDEX
19+
TO, NLP, BASE, KEYWORD ,INDEX ,MIN_NLP
2020
}
2121

2222
public static String processRequest(String input, String strMethod, String strNature)
@@ -40,6 +40,12 @@ public static String processRequest(String input, String strMethod, String strNa
4040
case NLP:
4141
terms = NlpAnalysis.parse(input);
4242
break;
43+
case MIN_NLP:
44+
terms = NlpAnalysis.parse(input);
45+
String str = terms.toString() ;
46+
if(str.length()>4){
47+
return str.substring(1,str.length()-2) ;
48+
}
4349
case KEYWORD:
4450
KeyWordComputer keyWordComputer = new KeyWordComputer(10);
4551
keyWords = keyWordComputer.computeArticleTfidf(input);

src/main/java/org/ansj/dic/LearnTool.java

Lines changed: 0 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -47,10 +47,6 @@ public class LearnTool {
4747
* @param graph
4848
*/
4949
public void learn(Graph graph) {
50-
// 机构名识别
51-
// if (isCompany) {
52-
// findCompany(graph);
53-
// }
5450

5551
// 亚洲人名识别
5652
if (isAsianName) {

0 commit comments

Comments
 (0)