Skip to content

iovz/SearchEnigine

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

24 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Search Enigine

简介

基于文本检索的轻量级搜索引擎

特性

  • 使用针对中文文档的simhash算法库进行网页去重
  • 使用cppjieba进行中文分词
  • 使用tinyxml2解析和保存网页库
  • 通过TF-IDF算法建立网页库的倒排索引
  • 服务端框架采用了Reactor + 线程池的网络库
  • 对查找到的网页进行排序采用了余弦相似度算法
  • 将查询结果封装成json字符串发送给前端
  • 使用Redis作为缓存系统
  • 使用log4cpp作为日志系统

依赖

用法

  • 离线部分
    cd offline
    mkdir bin
    make
    ./bin/offline.exe
  • 在线部分
    cd ..
    mkdir bin
    make
    ./bin/SearchEngine.exe
  • 前端搭建
    sudo apt-get update
    sudo apt-get upgrade
    sudo apt-get install apache2
    sudo apt-get install php7.2 libapache2-mod-php7.2
    sudo cp php_TCP /var/www/html/

    在浏览器中输入http://127.0.0.1/php_TCP/index.html

演示

离线部分

在线部分

About

基于文本检索的轻量级搜索引擎

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages