关于推荐系统信息茧房的问题,之前跟朋友吐槽过推荐系统
@Serendipity :我觉得压根不需要算法,就纯推黄,如果有需要的话别人自然会搜别的;
@Serendipity :当前推荐系统的拟合能力太强了,边缘内容会立即被剔除;
@平凡 :人类的本质是喜欢黄色的复读机;
@Serendipity :对于知乎这种很强调长尾效应的图文平台,不应该依赖于推荐模型,至少不应该过于依赖或者完全依赖,否则迟早走向平庸,小姐姐穿黑丝是比不过b站舞蹈区的。
事实上,在理解推荐系统本身的时候是默认用户不清楚它们要看什么、买什么、听什么内容的,因为有目的性的用户会善用搜索功能去检索。推荐系统的目的就是滑向最优解(最大限度吸引用户逗留 or 吸引更多点击),那么模型最简单的局部最优解就是互联网的黄(美色)赌(抽卡)毒(极端),但是局部最优解不是对用户最好的结果。
第一个吃螃蟹的人是天才,第一个尝毒草的人也是天才。探索未知的边界才能拓宽我们的人生道路,历史需要探索,人生需要探索,推荐系统自然也需要探索更大的边界。
回到题目中,关于扩展推荐系统多样性的问题其实一直都有研究。Explore & Exploit 问题[1]描述推荐系统中什么时候应该去探索用户可能有兴趣的偏好,什么时候应该基于已知的爱好进行推荐。
Spotify(一个流媒体音乐服务平台)2018年发布在RecSys'18 会议上的论文《Explore, exploit, and explain: personalizing explainable recommendations with bandits》[2]上有分享过他们的推荐策略。
Explore 是指尝试给用户推荐的新鲜内容;Exploit 是指已知的用户比较确定的兴趣点;Ignore 是指被忽视的不关联内容;
对于高确定性的内容,如果跟个人兴趣强相关则属于能够放心推给你的内容(例如在你知乎推荐页/淘宝搜索/头条推荐中比较常见的、个人经常点击的内容);
对于高确定性低相关性的内容属于不会推给你的内容(可能是给你推过多次但不会点开的内容,抑或是点开后迅速退出的内容);
剩余对于不确定的偏好,也会经由多次推送「摸清」你的喜好。
在推荐过程中,如何根据少量的投放,观察并摸清用户喜好是件非常有挑战性的问题。
假设你现在是某游戏公司的领导,手上有很多款游戏:
对于第一个问题,如果将广告全部给最火的游戏,目前来看当然能够挣很多钱,但这样新游戏永无出头之日,等老游戏衰亡的时候,公司就将走向倒闭。
这也就是为什么「原神」大火后,米哈游依旧选择研发新游戏;也是为什么「魔兽世界」之后,暴雪再没能推出振奋人心的作品。
对于第二个问题,就是经典的多臂老虎机(Multi-Armed Bandit problem, MAB)[3],将推荐一次新物品类比为摇动一次老虎机,产生收益的推荐就相当于摇中奖的老虎机,通过假设老虎机本身产生收益的概率分布,通过实验不断估计出置信度较高的概率分布。其做法为:
通过这种方式,逐渐探索新的可能推荐空间,将其划分为 Exploit、Explore 还是 Ignore.
关于 Multi-Armed Bandit 相关研究的了解是在一次聊天中注意的
关于联邦学习中用户选择的方法,采用类似于推荐的方式选择合适用户进行度量,顺着这个思路去调研了一些关于MAB的研究问题,从而发现推荐系统、强化学习中针对相关问题有所研究。
补充材料:
Netflix: A Multi-Armed Bandit Framework for Recommendations at Netflix.
Amazon: An Efficient Bandit Algorithm for Realtime Multivariate Optimization.
更多 Bandit 算法介绍: 降谷零:bandit知识分享与总结
联邦学习中 Bandit 算法:
Adaptive Client Sampling in Federated Learning via Online Learning with Bandit Feedback
Federated Transfer Learning With Client Selection for Intrusion Detection in Mobile Edge Computing
中途岛战役……