【自然语言处理】补充：词项权重计算及向量空间模型

2026/5/20 22:39:07 来源：https://blog.csdn.net/Ausgelebt/article/details/142382863 浏览: 次关键词：【自然语言处理】补充：词项权重计算及向量空间模型

布尔检索的不足：结果过少或者过多
- 布尔查询常常会是过少（=0）或者过多（>1000）
- 在布尔检索中，需要大量技巧来生成一个可以获得合适规模结果的查询
排序式检索可以避免产生过多或者过少的结果：
- 大规模的返回结果可以通过排序技术来避免，只需要显示前10条结果，不会让用户感觉到信息太多
- 前提：排序算法真的有效，即相关度大的文档结果会排在相关度小的文档结果之前
排序式检索中的评分技术
- 我们希望，在同一查询下，文档集中相关度高的文档排名高于相关度低的文档
- 实现：通常做法是对每个查询-文档对赋一个[0, 1]之间的分值，该分值度量了文档和查询的匹配程度

二值关联矩阵
非二值关联矩阵
词袋模型
- 不考虑词在文档中出现的顺序（John is quicker than Mary 和 Mary is quicker than John 的表示结果是一样的），这称为一个词袋模型
- 在某种意思上说，这种表示方法是一种“倒退”，因为位置索引中能够区分上述两片文档
- （这里仅考虑词袋模型）
词项频率tf：词项t的词项频率tf(t, d)是指t在d中出现的次数
- 采用原始的tf值：不太合适，例如，某个词项在A文档中出现十次，即tf=10，在B文档中tf=1，那么A比B更相关，但是相关度不会相差十倍，相关度不会正比于此项频率tf
- 对数词频：

相关资讯