推荐系统应该如何保障推荐的多样性？第1页

lokinko 网友的相关建议:

0. 信息茧房 | 在信息媒介间 | 竖起了一道墙。

关于推荐系统信息茧房的问题，之前跟朋友吐槽过推荐系统

@Serendipity ：我觉得压根不需要算法，就纯推黄，如果有需要的话别人自然会搜别的；

@Serendipity ：当前推荐系统的拟合能力太强了，边缘内容会立即被剔除；

@平凡：人类的本质是喜欢黄色的复读机；

@Serendipity ：对于知乎这种很强调长尾效应的图文平台，不应该依赖于推荐模型，至少不应该过于依赖或者完全依赖，否则迟早走向平庸，小姐姐穿黑丝是比不过b站舞蹈区的。

事实上，在理解推荐系统本身的时候是默认用户不清楚它们要看什么、买什么、听什么内容的，因为有目的性的用户会善用搜索功能去检索。推荐系统的目的就是滑向最优解（最大限度吸引用户逗留 or 吸引更多点击），那么模型最简单的局部最优解就是互联网的黄（美色）赌（抽卡）毒（极端），但是局部最优解不是对用户最好的结果。

第一个吃螃蟹的人是天才，第一个尝毒草的人也是天才。探索未知的边界才能拓宽我们的人生道路，历史需要探索，人生需要探索，推荐系统自然也需要探索更大的边界。

1. 推荐系统 Explore & Exploit 问题

回到题目中，关于扩展推荐系统多样性的问题其实一直都有研究。Explore & Exploit 问题^[1]描述推荐系统中什么时候应该去探索用户可能有兴趣的偏好，什么时候应该基于已知的爱好进行推荐。

Spotify（一个流媒体音乐服务平台）2018年发布在RecSys'18 会议上的论文《Explore, exploit, and explain: personalizing explainable recommendations with bandits》^[2]上有分享过他们的推荐策略。

Explore 是指尝试给用户推荐的新鲜内容；Exploit 是指已知的用户比较确定的兴趣点；Ignore 是指被忽视的不关联内容；

对于高确定性的内容，如果跟个人兴趣强相关则属于能够放心推给你的内容（例如在你知乎推荐页/淘宝搜索/头条推荐中比较常见的、个人经常点击的内容）；

对于高确定性低相关性的内容属于不会推给你的内容（可能是给你推过多次但不会点开的内容，抑或是点开后迅速退出的内容）；

剩余对于不确定的偏好，也会经由多次推送「摸清」你的喜好。

2. 如何能够「摸清」用户喜好呢？—— BANDIT 算法

在推荐过程中，如何根据少量的投放，观察并摸清用户喜好是件非常有挑战性的问题。

假设你现在是某游戏公司的领导，手上有很多款游戏：

如何给多个游戏分配广告位以及宣传力度？
如何用尽可能少的「成本」迅速找到有潜力的游戏？

对于第一个问题，如果将广告全部给最火的游戏，目前来看当然能够挣很多钱，但这样新游戏永无出头之日，等老游戏衰亡的时候，公司就将走向倒闭。

这也就是为什么「原神」大火后，米哈游依旧选择研发新游戏；也是为什么「魔兽世界」之后，暴雪再没能推出振奋人心的作品。

对于第二个问题，就是经典的多臂老虎机(Multi-Armed Bandit problem, MAB)^[3]，将推荐一次新物品类比为摇动一次老虎机，产生收益的推荐就相当于摇中奖的老虎机，通过假设老虎机本身产生收益的概率分布，通过实验不断估计出置信度较高的概率分布。其做法为：

假设概率p的概率分布符合beta(wins, lose)分布，每个臂都维护一个beta分布的参数；
每次选中一个臂试验后，有收益则该臂的wins增加1，否则该臂的lose增加1；
计算每个臂现有的beta分布的平均水平，选择所有臂产生的随机数中最大的那个臂去摇；

通过这种方式，逐渐探索新的可能推荐空间，将其划分为 Exploit、Explore 还是 Ignore.

-1. 彩蛋 | 关于关注并回答这个问题的原因

关于 Multi-Armed Bandit 相关研究的了解是在一次聊天中注意的

关于联邦学习中用户选择的方法，采用类似于推荐的方式选择合适用户进行度量，顺着这个思路去调研了一些关于MAB的研究问题，从而发现推荐系统、强化学习中针对相关问题有所研究。

补充材料：

Netflix: A Multi-Armed Bandit Framework for Recommendations at Netflix.
Amazon: An Efficient Bandit Algorithm for Realtime Multivariate Optimization.
更多 Bandit 算法介绍: 降谷零：bandit知识分享与总结

联邦学习中 Bandit 算法:

Adaptive Client Sampling in Federated Learning via Online Learning with Bandit Feedback
Federated Transfer Learning With Client Selection for Intrusion Detection in Mobile Edge Computing

参考

^《一文梳理冷启动推荐算法模型进展》 https://blog.csdn.net/weixin_44289754/article/details/118886899
^《Explore, exploit, and explain: personalizing explainable recommendations with bandits》 https://dl.acm.org/doi/pdf/10.1145/3240323.3240354
^《冷启动中的多臂老虎机问题》 https://blog.csdn.net/Gamer_gyt/article/details/102560272

wang-zi-kai-91 网友的相关建议:

中途岛战役……

推荐系统应该如何保障推荐的多样性？的其他答案点击这里

前一个讨论

最好的笔记软件是什么？

下一个讨论

如何评价 Insta 360 影石 3 月 24 日推出的 ONE RS 多镜头防抖运动相机？

推荐系统应该如何保障推荐的多样性？第1页

0. 信息茧房 | 在信息媒介间 | 竖起了一道墙。

1. 推荐系统 Explore & Exploit 问题

2. 如何能够「摸清」用户喜好呢？—— BANDIT 算法

-1. 彩蛋 | 关于关注并回答这个问题的原因

参考

相关话题

前一个讨论

下一个讨论

相关的话题

推荐系统应该如何保障推荐的多样性？ 第1页

0. 信息茧房 | 在信息媒介间 | 竖起了一道墙。

1. 推荐系统 Explore & Exploit 问题

2. 如何能够「摸清」用户喜好呢？—— BANDIT 算法

-1. 彩蛋 | 关于关注并回答这个问题的原因

参考

相关话题

前一个讨论

下一个讨论

相关的话题

推荐系统应该如何保障推荐的多样性？第1页