SIGformer: Sign-aware Graph Transformer for Recommendation---论文学习笔记

SIGIR 2024

用于推荐的符号感知图像转换器

摘要

在推荐系统中，大多数基于图的方法主要关注用户的正面反馈，而忽视了负面反馈的价值。而将正负反馈结合起来形成符号图可以更全面地理解用户偏好。然而，现有的尝试整合这俩种类型反馈的方法很少，并且面临两个主要局限性：

1）它们分别处理正负反馈，无法全面利用符号图中的协作信息；

2）它们依赖多层感知机（MLPs）或图神经网络（GNNs）从负面反馈中提取信息，这可能不是最有效的方式。

为了解决这些局限性，实验者引入了SIGformer，这是一种新的方法，它采用 transformer 架构来进行符号感知的图推荐。SIGformer融合了两种创新的位置编码，能够捕捉符号图的频谱属性和路径模式，从而充分利用整个图的信息。SIGformer在五个 real-world 数据集上的广泛实验表明，SIGformer优于现有方法。

1 Introduction

1.1 背景

现有的基于图的推荐系统方法主要关注用户的正面反馈（如购买、点赞等），而忽视了负面反馈（如低评分、跳过等）的价值。然而，负面反馈同样提供了重要的信息，能够帮助更全面地理解用户偏好。

1.2 解决方案

提出了一种新的方法SIGformer，它使用Transformer架构来实现符号感知的图推荐。SIGformer的主要创新点包括：

两种创新的位置编码：
- 符号感知频谱编码：（SSE,Sign-aware Spectral Encoding）: 利用符号图的拉普拉斯矩阵的低频特征向量作为位置编码，以捕捉整个图的结构。这种编码可以使具有正面反馈的用户-项目对之间的嵌入更接近，同时使具有负面反馈的对之间保持距离。
- 符号感知路径编码：（SPE,Sign-aware Path Encoding）: 通过考虑图中所有路径关系（而非仅是最短路径）来进一步捕获用户与项目之间的协作关系。不同的路径类型反映了节点之间不同程度的相似性。
通过这些位置编码，SIGformer能够在模型训练过程中有效地结合正负反馈，从而提升推荐的质量和准确性

SIGformer不仅解决了现有方法的局限性，还为如何更好地整合正负反馈以提高推荐系统的性能提供了一个新的途径。

2 Preliminary

这一节中，将介绍一些基本概念和符号，以便更好理解 SIGformer 的设计。

2.1 符号定义：

$V$ 和 $I$ 分别代表用户集合和项目集合。
$E^{+}$ 表示正反馈边的集合，即用户对项目的正面互动，如购买、点赞等。
$E^{-}$ 表示负反馈边的集合，即用户对项目的负面互动，如跳过、低评分等。
$G$ = （ $V$ ， $I$ ， $E^{+}$ ， $E^{-}$ ）是一个符号二部图，其中包含了用户与项目之间的正负交互信息。
初始嵌入向量 $E^{(0)}$ 包含了用户的初始嵌入向量 $e_{u1}^{(0)},...,e_{un}^{(0)}$ 以及项目的初始嵌入向量 $e_{i1}^{(0)},...,e_{im}^{(0)}$ ，这些初始嵌入向量可以是随机初始化或从预训练模型中获取。
对于变压器的第 $l$ 层， $Q^{(l)},K^{(l)},V^{(l)}$ 分别代表查询、键和值矩阵，它们都是由前一层的嵌入向量 $E^{(l-1)}$ 直接得到。
更新后的嵌入向量 $E^{(l)}$ 通过以下公式计算：

$E^{(l)}=\frac{1}{2}\left ( softmax(\frac{Q^{(l)}(K^{(l)})^{T}}{\sqrt{d}}+P_{s}^{(l)})+softmax(P_{p}^{(l)}) \right )V^{(l)}$

其中， $d$ 是嵌入向量的维度， $P_{s}^{(l)}$ 和 $P_{p}^{(l)}$ 分别是频谱位置编码和路径位置编码，用来明确编码符号图的信息，为了减轻这两种位置编码幅度差异的影响，我们把它放在不同的softmax函数中。

2.2 预测模块：

经过 $L$ 层变压器后，最终的嵌入向量 $E$ 通过聚合每一层的嵌入向量来生成：

$E=\frac{1}{L+1}\sum_{0\leq l\leq L}E^{l}$

模型的预测结果 $\hat{y}_{ui}$ 由最终嵌入向量通过内积计算得出，这是现有方法广泛采用的一种方式：

$\hat{y}_{ui}=e_{u}^{T}e_{i}$

2.3 符号感知频谱编码（SSE，Sign-aware Spectral Encoding）：

受到图谱理论的有效性启发，我们提出利用谱特征来增强我们的符号感知变压器模型。首先，我们将正图和负图的拉普拉斯矩阵结合如下：

$L=(1-\alpha )L^{+}-\alpha L^{-}$

其中， $\alpha$ 是一个灵活的超参数，控制负图的影响程度。

符号图的拉普拉斯矩阵的特征向量为:

$L=H^{T}\Lambda H, H=[h_{1},h_{2},...,h_{n+m}]^T$

其中， $H$ 和 $\Lambda$ 分别对应特征向量和特征值。使用最小的 $d$ 个特征值对应的特征向量 $\tilde{H}$ 来编码符号图中的节点关系。

3 方法

SIGformer是一种符号感知图转换器，旨在通过同时考虑正面和负面反馈来提高推荐系统的性能。该方法的关键组成部分包括两种创新的位置编码、基于变压器的架构以及优化策略。

3.1 符号感知频谱位置编码（Sign-aware Spectral Positional Encoding，SSE）：

为了捕捉符号图的全局结构信息，SIGformer使用了符号感知频谱位置编码。这种方法基于符号图的拉普拉斯矩阵 $L$ ,它是正图 $L^{+}$ 和负图 $L^{-}$ 的线性组合：

$L=(1-\alpha )L^{+}-\alpha L^{-}$

其中 $\alpha$ 是一个超参数，用来平衡正图和负图的影响。通过对 $L$ 进行特征分解，可以得到特征向量 $H$ 和对应得特征值 $\Lambda$ 。最小的 $d$ 个特征值对应的特征向量被用作位置编码，从而在嵌入空间中反映出节点之间的关系。

3.2 符号感知路径位置编码（Sign-aware Path Positional Encoding, SPE）：

除了频谱位置编码外，SIGformer还引入了符号感知路径位置编码，以捕捉局部路径模式。这种编码是通过随机游走生成的，并且能够反映不同类型的路径对节点相似度的不同影响。具体来说，对于每个节点 $v$ ,从其邻居开始执行长度为 $L_{p}$ 的无环随机游走，采样一组与轨迹类型相关的节点 $S_{v}$ 。这些路径模式提供了关于节点之间连接方式的额外信息，有助于更精确地建模用户-项目交互。

3.3 基于Transfomer的架构：

SIGformer的核心是采用Transformer架构来处理符号图中的信息。在每一层中，查询 $Q{(l)}$ 、键 $K{(l)}$ 和值 $V{(l)}$ 矩阵由前一层的嵌入向量直接获得。更新后的嵌入向量 $E^{(l)}$ 通过结合频谱位置编码和路径位置编码计算得出：

$E^{(l)}=\frac{1}{2}\left ( softmax(\frac{Q^{(l)}(K^{(l)})^{T}}{\sqrt{d}}+P_{s}^{(l)})+softmax(P_{p}^{(l)}) \right )V^{(l)}$

这里， $P_{s}^{(l)}$ 和 $P_{p}^{(l)}$ 分别代表频谱位置编码和路径位置编码。通过这种方式，SIGformer能够在每层中有效地融合全局和局部的图结构信息。

3.4 损失函数：

为了优化SIGformer，采用了二部损失（BPR loss），它鼓励模型预测用户对未交互过的项目的偏好低于已知的正反馈项目。损失函数定义如下：

$L=-\sum_{(u,i)\epsilon E^{+}}ln \sigma (\hat{y}_{ui}-\hat{y}_{uj})-\beta \sum_{(u,i)\epsilon E^{-}}ln\sigma (\beta (\hat{y}_{ui}-\hat{y}_{uj}))$

其中， $\alpha$ 是Sigmoid函数， $\beta$ 是一个超参数，用于调整负面反馈的影响。对于每个正/负反馈 $(u,i)$ ，会从用户未交互过的项目集合中随机选择一个项目 $j$ 来参与损失计算。

4 实验

在本节中，进行了全面的实验来回答以下问题：

RQ1: SIGformer与现有方法相比表现如何？
RQ2: 重要组件（如两种位置编码、负反馈）对SIGformer的影响是什么？
RQ3: 超参数如何影响模型性能？
RQ4: 不同路径类型如何捕捉节点相似性？
RQ5: SIGformer的运行时间与现有方法相比如何？

4.1 实验设置

4.1.1 数据集

我们在五个包含正负反馈的真实世界数据集上进行了实验：

Amazon-CDs, Amazon-Music, 和 Epinions：这三个广泛使用的数据集包含了来自Amazon和Epinions平台的用户对项目的评分。我们参考了最近的工作，并将高评分（例如大于3.5）视为正面反馈，其余为负面。
KuaiRec：记录了Kuai App中的用户行为。对于KuaiRec，我们关注的是密集数据集，并基于用户观看时长与视频总时长的比例来分类正负反馈。具体来说，比例等于或超过4的被视为正面反馈，低于0.1的则被视为负面反馈。
KuaiRand：同样记录了Kuai App中的用户行为。对于KuaiRand，我们使用了纯版本的数据，并利用“is_click”属性来分类正负数据。

我们采用了常规的5-core设置，并以7:1:2的比例随机将数据集划分为训练集、验证集和测试集。表1展示了各数据集的统计信息，包括用户数量、项目数量、交互次数以及正负交互的比例。

表1：数据集统计信息，”Pos/Neg“表示正负交互的比例

数据集	用户数	项目数	交互次数	Pos/Neg
Amazon-CDs	51,267	46.464	895,266	1:0.22
Amazon-Music	3,472	2,498	49,875	1:0.25
Epinions	17,894	17,660	413,774	1:0.37
KuaiRec	1,411	3,327	253,983	1:5.95
KuaiRand	16,974	4,373	263,100	1:1.25

4.1.2 评价指标

我们使用了两个广泛使用的指标Recall@K和NDCG@K来评估推荐的准确性。在这项工作中，我们将K设为20，这是基于近期关于基于图推荐的研究[3, 24, 67]的建议。

4.1.3 基线方法

为了全面分析SIGformer的性能，我们将其与多种基于图的基线方法进行了比较：

无符号图的推荐方法：

LightGCN [24]：一种经典的基于图的方法，利用线性图神经网络进行推荐。
LightGCL [3], XSimGCL [67]：这些是最先进的基于图的方法，通过对比学习增强了LightGCN。
GFormer [37]：最先进的方法，它结合了变压器架构来自动生成自监督增强。

4.2 实验结果

RQ1: SIGformer与现有方法的性能对比

我们的实验结果显示，SIGformer在所有五个数据集上都优于现有的先进方法。具体而言，在Recall@20和NDCG@20指标上，SIGformer分别比最佳基线方法提高了显著的百分比。

RQ2: 重要组件对SIGformer的影响

我们通过消融实验（ablation study）来评估两种位置编码和负反馈对SIGformer性能的影响。结果表明，两种位置编码和负反馈的整合对于SIGformer的性能提升至关重要。特别是，频谱位置编码能够有效捕捉全局结构信息，而路径位置编码则有助于捕捉局部路径模式。

RQ3: 超参数对模型性能的影响

我们研究了超参数α和β对SIGformer性能的影响。实验结果表明，适当调整这些超参数可以进一步提高模型的性能。我们还提供了超参数的最佳取值范围。

RQ4: 不同路径类型如何捕捉节点相似性

通过实验，我们发现不同的路径类型确实反映了节点之间不同程度的相似性。特定类型的路径在某些情况下更能准确地反映用户的偏好。

RQ5: SIGformer的运行时间与现有方法的比较

尽管SIGformer引入了额外的位置编码，但通过高效的采样策略，其运行时间与现有方法相当，甚至更快。这表明SIGformer不仅在推荐质量上有所提升，而且在效率上也具有竞争力。