【自然语言处理】补充:词项权重计算及向量空间模型
2025/11/4 18:31:35 
来源:https://blog.csdn.net/Ausgelebt/article/details/142382863 
浏览: 
次
 
关键词:【自然语言处理】补充:词项权重计算及向量空间模型
【自然语言处理】补充:词项权重计算及向量空间模型
 
 
 文章目录
 - 【自然语言处理】补充:词项权重计算及向量空间模型
 - 1. 排序式检索
 - 2. 词项频率
 - 3. tf-idf权重计算
 - 4. 向量空间模型
 
 
 
  
 
1. 排序式检索
 
- 布尔检索的不足:结果过少或者过多 
- 布尔查询常常会是过少(=0)或者过多(>1000)
 - 在布尔检索中,需要大量技巧来生成一个可以获得合适规模结果的查询
 
  - 排序式检索可以避免产生过多或者过少的结果: 
- 大规模的返回结果可以通过排序技术来避免,只需要显示前10条结果,不会让用户感觉到信息太多
 - 前提:排序算法真的有效,即相关度大的文档结果会排在相关度小的文档结果之前
 
  - 排序式检索中的评分技术 
- 我们希望,在同一查询下,文档集中相关度高的文档排名高于相关度低的文档
 - 实现:通常做法是对每个查询-文档对赋一个[0, 1]之间的分值,该分值度量了文档和查询的匹配程度
 
  
 
2. 词项频率
 
- 二值关联矩阵
 
 - 非二值关联矩阵
 
 - 词袋模型 
- 不考虑词在文档中出现的顺序(John is quicker than Mary 和 Mary is quicker than John 的表示结果是一样的),这称为一个词袋模型
 - 在某种意思上说,这种表示方法是一种“倒退”,因为位置索引中能够区分上述两片文档
 - (这里仅考虑词袋模型)
 
  - 词项频率tf:词项t的词项频率
tf(t, d)是指t在d中出现的次数 - 采用原始的tf值:不太合适,例如,某个词项在A文档中出现十次,即tf=10,在B文档中tf=1,那么A比B更相关,但是相关度不会相差十倍,相关度不会正比于此项频率tf
 - 对数词频: