门设计的网站建设,亚马逊图书网上商城,做网站违法吗,js与asp.net做的网站文章目录综述效果展示去标签化#xff0c;清理数据构建索引用户查询综述
该项目使用了BS架构#xff0c;实现了用户对Boost库进行站内搜索的功能#xff0c;
用户输入关键字使用http协议通过ajax将数据发送给后端服务器#xff0c;后端进行分词#xff0c;
通过倒排索引…
文章目录综述效果展示去标签化清理数据构建索引用户查询综述
该项目使用了BS架构实现了用户对Boost库进行站内搜索的功能
用户输入关键字使用http协议通过ajax将数据发送给后端服务器后端进行分词
通过倒排索引和正排索引获得若干个文档
每个文档按照一定权重进行排序拼接成一个网页反馈给用户
每个搜索结果包括文档标题简介URL并可以通过点击标题跳转到特定的网址中 效果展示 去标签化清理数据 将爬虫和下载的boost库的文件进行提炼去标签化保留里面的有效数据
提取html文件将提取到的html文件进行提炼有效数据将有效数据的集合写入到一个文件中
构建索引 根据将去标签化后构建的内容集合在内存中 构建正排索引形成对应的文档结构体将形成的文档结构体在内存中 构建倒排索引根据关键词找到对应的 倒排拉链一系列和该关键字相光的文档集合) 根据 Jieba分词对 title和 content进行分词同时划定权重构建倒排拉链 每个倒排索引中都包含权重之后我们就能够使用权重对文档优先级进行排序
用户查询 用户输入搜索关键字后先进行 JieBa分词通过 倒排索引获得对应的 倒排拉链在 倒排拉链中通过 正排索引获得对应一系列的文档内容根据索引中的权重按高到低进行排序组合成一个网页反馈给用户