偶然看到一个数据集,觉得很有意思
它包含(深度)用户的12个反馈信号和
不知道以后会不会用到,先记录一下
【我们如何与计算机研究人员区分开,或者说我们如何让算法成为消费者行为分析的工具而不是替代者呢?】
【如何区分我倒有一个想法:形成比较优势——多数算法的突破是建立在资源质变的基础上的,而这对多数中小企业而言是不现实的;更好的应对环境突变和分布偏移问题也是一个目前比较好的点】
KuaiRand:快手提供的在标准推荐下插入了一些随机暴露项目的用户行为数据集
论文:KuaiRand: An Unbiased Sequential Recommendation Dataset with Randomly Exposed Videos1
数据获取
数据获取:由于《数据出境安全评估办法》且国家网信办尚未批准该项数据出境,暂时只向中国境内机构使用
KuaiRand: An Unbiased Sequential Recommendation Dataset with Randomly Exposed Videos
用途:推荐系统;其他
数据描述
采集对象
数据版本
KuaiRand提供了3个数据版本:
- KuaiRand-27K
- 完整数据集
- KuaiRand-1K
- 用户抽样精简版
- KuaiRand-Pure
- 全部用户&仅包含推荐候选池的视频
- 没有严格的顺序日志
字段
字段简单扫了一下,大致上重点看到了这么几个方面,以及一些奇奇怪怪的碎碎念orz
数据对象:短视频浏览者、短视频内容、干预策略
- 用户属性
- 特征
- 使用习惯
- 活跃度、是否在活跃周期(挺有意思的,不知道有没有搞一些理论)
- 发布特征(表达欲,也有点意思)
- 注册时长、设备……
- 社交属性
- 使用习惯
- 行为
- 点赞、关注、转发、讨厌……
- 停留时长
- 特征
- 视频属性
- 基本属性
- 视频基本属性
- 背景音乐(音乐模因?)
- 内容类别标签
- 播放统计
- 用户反应
- 基本属性
- 推荐系统属性
- 推荐/随机
-
Gao, C., Li, S., Zhang, Y., Chen, J., Li, B., Lei, W., Jiang, P., & He, X. (2022). KuaiRand: An Unbiased Sequential Recommendation Dataset with Randomly Exposed Videos. Proceedings of the 31st ACM International Conference on Information & Knowledge Management, 3953–3957. https://doi.org/10.1145/3511808.3557624 ↩