欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 焦点 > 【自然语言处理】补充:词项权重计算及向量空间模型

【自然语言处理】补充:词项权重计算及向量空间模型

2025/11/4 18:31:35 来源:https://blog.csdn.net/Ausgelebt/article/details/142382863  浏览:    关键词:【自然语言处理】补充:词项权重计算及向量空间模型

【自然语言处理】补充:词项权重计算及向量空间模型

文章目录

  • 【自然语言处理】补充:词项权重计算及向量空间模型
    • 1. 排序式检索
    • 2. 词项频率
    • 3. tf-idf权重计算
    • 4. 向量空间模型

1. 排序式检索

  • 布尔检索的不足:结果过少或者过多
    • 布尔查询常常会是过少(=0)或者过多(>1000)
    • 在布尔检索中,需要大量技巧来生成一个可以获得合适规模结果的查询
  • 排序式检索可以避免产生过多或者过少的结果:
    • 大规模的返回结果可以通过排序技术来避免,只需要显示前10条结果,不会让用户感觉到信息太多
    • 前提:排序算法真的有效,即相关度大的文档结果会排在相关度小的文档结果之前
  • 排序式检索中的评分技术
    • 我们希望,在同一查询下,文档集中相关度高的文档排名高于相关度低的文档
    • 实现:通常做法是对每个查询-文档对赋一个[0, 1]之间的分值,该分值度量了文档和查询的匹配程度

2. 词项频率

  • 二值关联矩阵
    在这里插入图片描述
  • 非二值关联矩阵
    在这里插入图片描述
  • 词袋模型
    • 不考虑词在文档中出现的顺序(John is quicker than Mary 和 Mary is quicker than John 的表示结果是一样的),这称为一个词袋模型
    • 在某种意思上说,这种表示方法是一种“倒退”,因为位置索引中能够区分上述两片文档
    • (这里仅考虑词袋模型)
  • 词项频率tf:词项t的词项频率tf(t, d)是指t在d中出现的次数
    • 采用原始的tf值:不太合适,例如,某个词项在A文档中出现十次,即tf=10,在B文档中tf=1,那么A比B更相关,但是相关度不会相差十倍,相关度不会正比于此项频率tf
    • 对数词频

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词