欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 健康 > 美食 > 【政策】正文关键词提取总结

【政策】正文关键词提取总结

2025/10/23 8:17:52 来源:https://blog.csdn.net/love254443233/article/details/143807760  浏览:    关键词:【政策】正文关键词提取总结

附:样本构建流程:

  1. 候选样本圈选,这一步的目的是选出潜在的高质量样本,找到一部分高难度样本,并过滤掉可能的意图不明或无意义数据。样本圈选的方法见下文。

  2. 对圈选出的样本随机抽样一小部分进行人工标注。

  3. 利用少量的标注数据训练多个分类器(base尺寸的BERT fine-tune 很快,而且效果尚可,是一个不错的选择),之后通过投票的方式对未标注样本进行打标。

  4. 对预测结果进行人工判断,如果数据量较大可采样部分数据。(之所以让人工进行对错判断而不是标注意图类别,是因为当意图分类较多的时候意图类型标注很费时间,而对错判断快很多,能极大提升标注效率。)

  5. 将人工判断为对的样本当作训练数据重新训练模型。迭代3、4步,终止条件可选择固定轮数,或剩余未标注样本达到一定数量以下。

  6. 此时未具有正确标签的样本大部分数量将较少,且大概率属于高难度样本,这部分数据交给人工进行意图类型标注。

  7. 至此,我们便得到了一份质量较高的意图识别样本。

注*:上述方案中也可引入主动学习来优化流程。如果无标注人力,也可考虑通过数据增强的方式来扩充样本。

候选样本的圈选:

  • 高频query:高质量样本,也是应该高保的数据

  • 召回零少结果query:可能是意图不明、无意义或含有错别字的数据。也可能是由于物料供给不足导致

  • 点击率低的query:说明未能提供满意的搜索结果,可能是高难度样本

  • 用户行为分散的query:说明未能提供满意的搜索结果,可能是多意图query,或当前系统理解错误的高难度query

当然,为了解决低资源设置下模型学习的问题,除了从数据角度考虑之外还有其他途径,比如预训练迁移学习(预训练)、Few/Zero-shot learning、Prompt Learning、元学习、对抗训练等,大家都可以进行尝试。不过无论如何,在工业场景下数据还是第一位重要的。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词