功能:
1.支持搜索存文本信息。
2.支持搜索结果按条目分页展示。
3.实现了关联度算法,把关联度高的信息优先展示。
技术栈:
1.分词采用开源的jieba分词库。首先将悟空数据集所有的文本数据进行分词创建倒排索引,并建立分词-文本关系表。
2.关联度算法直接采用tfidf(来自jieba分词库)。
3.使用布隆过滤、分表来进行简单优化。
原理:
1、将爬虫爬来的数据放入data表中,从data表中处理数据生成segment表
2、用data表和segment表生成data_segment_relation表
点击空白处退出提示









评论