欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 健康 > 美食 > 【政策】正文关键词提取总结

【政策】正文关键词提取总结

2025/12/16 9:29:41 来源：https://blog.csdn.net/love254443233/article/details/143807760 浏览: 次关键词：【政策】正文关键词提取总结

附：样本构建流程：

候选样本圈选，这一步的目的是选出潜在的高质量样本，找到一部分高难度样本，并过滤掉可能的意图不明或无意义数据。样本圈选的方法见下文。
对圈选出的样本随机抽样一小部分进行人工标注。
利用少量的标注数据训练多个分类器（base尺寸的BERT fine-tune 很快，而且效果尚可，是一个不错的选择），之后通过投票的方式对未标注样本进行打标。
对预测结果进行人工判断，如果数据量较大可采样部分数据。（之所以让人工进行对错判断而不是标注意图类别，是因为当意图分类较多的时候意图类型标注很费时间，而对错判断快很多，能极大提升标注效率。）
将人工判断为对的样本当作训练数据重新训练模型。迭代3、4步，终止条件可选择固定轮数，或剩余未标注样本达到一定数量以下。
此时未具有正确标签的样本大部分数量将较少，且大概率属于高难度样本，这部分数据交给人工进行意图类型标注。
至此，我们便得到了一份质量较高的意图识别样本。

注*：上述方案中也可引入主动学习来优化流程。如果无标注人力，也可考虑通过数据增强的方式来扩充样本。

候选样本的圈选：

高频query：高质量样本，也是应该高保的数据
召回零少结果query：可能是意图不明、无意义或含有错别字的数据。也可能是由于物料供给不足导致
点击率低的query：说明未能提供满意的搜索结果，可能是高难度样本
用户行为分散的query：说明未能提供满意的搜索结果，可能是多意图query，或当前系统理解错误的高难度query

当然，为了解决低资源设置下模型学习的问题，除了从数据角度考虑之外还有其他途径，比如预训练迁移学习（预训练）、Few/Zero-shot learning、Prompt Learning、元学习、对抗训练等，大家都可以进行尝试。不过无论如何，在工业场景下数据还是第一位重要的。

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词