抖音:Interest Clock 论文解读
抖音最近发布的 Paper 《Interest Clock: Time Perception in Real-Time Streaming Recommendation System》中,发现用户的偏好是动态的并且随时间波动。例如,在短视频平台中,用户可能会在早上喜欢新闻视频,而在晚上则喜欢娱乐视频。在音乐平台上,用户喜欢早上听DJ,晚上听催眠音乐。因此,使推荐模型能够感知时间信息,为用户提供时间感知的个性化服务,从而显着改善用户体验非常重要。
早期的推荐系统采用每日训练框架,收集一天的所有样本,并将其打乱进行训练。时间编码方法在日常训练框架中效果很好。但现代的推荐模型一般会采用实时训练,比如抖音是每分钟训练一次,这种训练方案下某一时刻的所有训练样本都具有相同的时间特征,而推荐系统每小时能够产生数千万个样本,这导致推荐模型只拟合当前的时间特征而忘记其他时间信息(常说的灾难性遗忘)。
如果将 24 小时的个性化用户兴趣编码到时钟中,在某一时刻,不同的用户有不同的时间感知偏好嵌入,可以覆盖整个特征空间。因此,该方法可以解决实时流式推荐系统中时间编码方法的周期性在线模式和不稳定问题。
论文选取的同类 or 参考的论文有:
时间编码相关,将一天中的小时和一周中的某一天编码为小时嵌入和日嵌入。然而,时间编码方法将时间转换为离散嵌入,这在现代实时流推荐系统中无法工作。:
- 《User Consumption Intention Prediction in Meituan》Yukun Ping, Chen Gao, Taichi Liu, Xiaoyi Du, Hengliang Luo, Depeng Jin, and Yong Li. 2021.
- 《Automatically Discovering User Consumption Intents in Meituan》Yinfeng Li, Chen Gao, Xiaoyi Du, Huazhou Wei, Hengliang Luo, Depeng Jin, and Yong Li. 2022.
时间段划分,将一天分为四个时段,包括早上、中午、晚上和昨晚,并针对不同时段使用不同的图模型,这在其他场景中很难部署。:
- 《Deep interest network for click-through rate prediction》Guorui Zhou, Xiaoqiang Zhu, Chenru Song, Ying Fan, Han Zhu, Xiao Ma, Yanghui Yan, Junqi Jin, Han Li, and Kun Gai. 2018.
工业领域采用顺序方法对时间间隙进行编码:
- 《Personalized top-n sequential recommendation via convolutional sequence embedding》Jiaxi Tang and Ke Wang. 2018.
- 《Deep interest network for click-through rate prediction》Guorui Zhou, Xiaoqiang Zhu, Chenru Song, Ying Fan, Han Zhu, Xiao Ma, Yanghui Yan, Junqi Jin, Han Li, and Kun Gai. 2018.
- 《Search-based user interest modeling with lifelong sequential behavior data for click-through rate prediction》Qi Pi, Guorui Zhou, Yujing Zhang, Zhe Wang, Lejian Ren, Ying Fan, Xiaoqiang Zhu, and Kun Gai. 2020.
- 《TWIN: TWo-stage Interest Network for Lifelong User Behavior Modeling in CTR Prediction at Kuaishou.》Jianxin Chang, Chenbin Zhang, Zhiyi Fu, Xiaoxue Zang, Lin Guan, Jing Lu, Yiqun Hui, Dewei Leng, Yanan Niu, Yang Song, et al. 2023.
这篇论文主要提出了一种兴趣时钟方法来感知流推荐系统中的时间信息:
- 将 24 小时按小时分割计算用户过去的兴趣,并将时间感知特征存储在样本中。
- 时间感知特征是离散的,一个特征对应于每一小时。
- 通常来说用户的兴趣不会突然改变,比如 7:59 和 8:01 之间不太可能出现显著差异,但如果突然大变很难进行处理。为了解决突变的问题还引入了经验高斯分布对24小时的利息时钟特征进行平滑和聚合。
论文中的实验主要是使用推荐领域常见的二分类任务(即点击或不点击),交叉熵损失常被用作二元分类的优化目标。Baseline 是未改进的基于 DCN-V2 的多任务模型。完成的模型是结合兴趣时钟和 DCN-V2 的多任务模型的新模型。离线评估中使用 AUC 和 UAUC 作为离线指标。
评估方式分为离线和在线评估:
- 离线评估,使用 DouyinMusic-20B:抖音提供音乐推荐服务,日活跃用户超过 1000 万。我们从印象日志中收集并获得一个数据集。该数据集包含超过 200 亿个样本,记为 DouyinMusic-20B。工业数据集的每个样本包含一百多个特征,包括非 ID 元特征(性别、年龄、流派、心情、场景等)和基于 ID 的个性化特征(用户 ID、物品 ID、艺术家 ID) ,交互的 ID 序列),它可以代表现实世界的场景。我们使用“完成”作为标签。 DouyinMusic-20B 数据集包含 2023 年 8 月到 9 月 8 周时间跨度的抖音音乐样本。然后,我们将前6周作为训练集,接下来的 1 周作为验证集,剩下的 1 周作为测试集。我们采用 AUC 和 UAUC 作为离线指标。我们使用 Naive、Adaptive 和 Gaussian Interest Clock 来替代基于在线基线 DCN-V2 的多任务模型中的时间编码方法。工业数据集上的实验结果如表2所示。结果进一步揭示了一些富有洞察力的观察结果。高斯兴趣时钟可以显着优于最佳基线。自适应时钟的 UAUC 比基线差,原因可能是流式推荐系统中时间信息的自适应权重很难学习。我们发现高斯时钟优于朴素时钟,这表明经验高斯权重是有效的。
- 在线评估,使用在线 A/B 测试 (EQ1)。为了验证 Interest Clock 给我们的系统带来的真正好处,我们针对抖音音乐 App 的排名任务进行了一个多月的在线 A/B 测试实验。我们根据两个主要指标(活跃天数和持续时间)评估模型性能。我们还采用其他指标来评估用户参与度,包括喜欢、完成、评论和播放,这些指标通常用作约束指标。我们将提出的兴趣时钟应用于基于 DCN-V2 的多任务模型(Wang 等人,2021),该模型部署在在线排名任务中。
低活跃度、中活跃度、高活跃度和整体用户的在线 A/B 结果如表 1 所示。对于主要指标活跃天数和持续时间,所提出的兴趣时钟实现了 +0.509% 和 +0.758 的大幅提升% 具有统计显着性的所有用户,考虑到生产算法的平均活跃天数和持续时间分别提高了 0.05% 和 0.1% 左右,这一点非常引人注目。此外,结果表明兴趣时钟可以提高不同活动级别用户的推荐性能。
为了分析时间信息对推荐系统的影响,我们将不同时间的音乐情绪标签的分布可视化,如图所示。结果进一步揭示了一些富有洞察力的观察结果。
- 推荐系统提供的内容分布随时间变化,这表明用户的偏好在一天内遵循动态模式。
- 整体内容分布符合我们的直觉。例如,悲伤歌曲在 0:00-8:00 的展示次数多于 12:00-20:00。
一些想法:
- 本文的高斯分布平滑方法适用于音乐/短视频等持续类推荐场景,但对于查询、新闻等场景可能需要不同的时间感知建模方式。
- 本文主要考虑了天内兴趣变化,但用户的基础兴趣也会随着时间推移而发生漂移,这种长期漂移可能需要不同的时间建模策略。
- 有没有其它更好的的时间编码和时间划分方式?