基于文本检索的轻量级搜索引擎
- 使用针对中文文档的simhash算法库进行网页去重
- 使用cppjieba进行中文分词
- 使用tinyxml2解析和保存网页库
- 通过TF-IDF算法建立网页库的倒排索引
- 服务端框架采用了Reactor + 线程池的网络库
- 对查找到的网页进行排序采用了余弦相似度算法
- 将查询结果封装成
json
字符串发送给前端 - 使用
Redis
作为缓存系统 - 使用
log4cpp
作为日志系统
-
JsonCpp (version = 1.8.3 is recommended)
-
Redis
sudo apt install redis-server git clone git@github.com:redis/hiredis.git cd hiredis make ./test.sh sudo make install
-
cd offline mkdir bin make ./bin/offline.exe
-
cd .. mkdir bin make ./bin/SearchEngine.exe
-
sudo apt-get update sudo apt-get upgrade sudo apt-get install apache2 sudo apt-get install php7.2 libapache2-mod-php7.2 sudo cp php_TCP /var/www/html/
离线部分
在线部分