百科问答小站 logo
百科问答小站 font logo



推荐系统应该如何保障推荐的多样性? 第1页

  

user avatar   lokinko 网友的相关建议: 
      

0. 信息茧房 | 在信息媒介间 | 竖起了一道墙。

关于推荐系统信息茧房的问题,之前跟朋友吐槽过推荐系统

@Serendipity :我觉得压根不需要算法,就纯推黄,如果有需要的话别人自然会搜别的;

@Serendipity :当前推荐系统的拟合能力太强了,边缘内容会立即被剔除;

@平凡 :人类的本质是喜欢黄色的复读机;

@Serendipity :对于知乎这种很强调长尾效应的图文平台,不应该依赖于推荐模型,至少不应该过于依赖或者完全依赖,否则迟早走向平庸,小姐姐穿黑丝是比不过b站舞蹈区的。

事实上,在理解推荐系统本身的时候是默认用户不清楚它们要看什么、买什么、听什么内容的,因为有目的性的用户会善用搜索功能去检索。推荐系统的目的就是滑向最优解(最大限度吸引用户逗留 or 吸引更多点击),那么模型最简单的局部最优解就是互联网的黄(美色)赌(抽卡)毒(极端),但是局部最优解不是对用户最好的结果。

第一个吃螃蟹的人是天才,第一个尝毒草的人也是天才。探索未知的边界才能拓宽我们的人生道路,历史需要探索,人生需要探索,推荐系统自然也需要探索更大的边界。

1. 推荐系统 Explore & Exploit 问题

回到题目中,关于扩展推荐系统多样性的问题其实一直都有研究。Explore & Exploit 问题[1]描述推荐系统中什么时候应该去探索用户可能有兴趣的偏好,什么时候应该基于已知的爱好进行推荐。

Spotify(一个流媒体音乐服务平台)2018年发布在RecSys'18 会议上的论文《Explore, exploit, and explain: personalizing explainable recommendations with bandits》[2]上有分享过他们的推荐策略。

Explore 是指尝试给用户推荐的新鲜内容;Exploit 是指已知的用户比较确定的兴趣点;Ignore 是指被忽视的不关联内容;

对于高确定性的内容,如果跟个人兴趣强相关则属于能够放心推给你的内容(例如在你知乎推荐页/淘宝搜索/头条推荐中比较常见的、个人经常点击的内容);

对于高确定性低相关性的内容属于不会推给你的内容(可能是给你推过多次但不会点开的内容,抑或是点开后迅速退出的内容);

剩余对于不确定的偏好,也会经由多次推送「摸清」你的喜好。

2. 如何能够「摸清」用户喜好呢?—— BANDIT 算法

在推荐过程中,如何根据少量的投放,观察并摸清用户喜好是件非常有挑战性的问题。

假设你现在是某游戏公司的领导,手上有很多款游戏:

  1. 如何给多个游戏分配广告位以及宣传力度?
  2. 如何用尽可能少的「成本」迅速找到有潜力的游戏?

对于第一个问题,如果将广告全部给最火的游戏,目前来看当然能够挣很多钱,但这样新游戏永无出头之日,等老游戏衰亡的时候,公司就将走向倒闭。

这也就是为什么「原神」大火后,米哈游依旧选择研发新游戏;也是为什么「魔兽世界」之后,暴雪再没能推出振奋人心的作品。

对于第二个问题,就是经典的多臂老虎机(Multi-Armed Bandit problem, MAB)[3],将推荐一次新物品类比为摇动一次老虎机,产生收益的推荐就相当于摇中奖的老虎机,通过假设老虎机本身产生收益的概率分布,通过实验不断估计出置信度较高的概率分布。其做法为:

  • 假设概率p的概率分布符合beta(wins, lose)分布,每个臂都维护一个beta分布的参数;
  • 每次选中一个臂试验后,有收益则该臂的wins增加1,否则该臂的lose增加1;
  • 计算每个臂现有的beta分布的平均水平,选择所有臂产生的随机数中最大的那个臂去摇;

通过这种方式,逐渐探索新的可能推荐空间,将其划分为 Exploit、Explore 还是 Ignore.


-1. 彩蛋 | 关于关注并回答这个问题的原因

关于 Multi-Armed Bandit 相关研究的了解是在一次聊天中注意的

关于联邦学习中用户选择的方法,采用类似于推荐的方式选择合适用户进行度量,顺着这个思路去调研了一些关于MAB的研究问题,从而发现推荐系统、强化学习中针对相关问题有所研究。

补充材料:

Netflix: A Multi-Armed Bandit Framework for Recommendations at Netflix.
Amazon: An Efficient Bandit Algorithm for Realtime Multivariate Optimization.
更多 Bandit 算法介绍: 降谷零:bandit知识分享与总结

联邦学习中 Bandit 算法:

Adaptive Client Sampling in Federated Learning via Online Learning with Bandit Feedback
Federated Transfer Learning With Client Selection for Intrusion Detection in Mobile Edge Computing

参考

  1. ^《一文梳理冷启动推荐算法模型进展》 https://blog.csdn.net/weixin_44289754/article/details/118886899
  2. ^《Explore, exploit, and explain: personalizing explainable recommendations with bandits》 https://dl.acm.org/doi/pdf/10.1145/3240323.3240354
  3. ^《冷启动中的多臂老虎机问题》 https://blog.csdn.net/Gamer_gyt/article/details/102560272

user avatar   wang-zi-kai-91 网友的相关建议: 
      

中途岛战役……




  

相关话题

  如何评价大数据「杀熟」这一现象? 
  Transformer在工业界的应用瓶颈如何突破? 
  现在的人工智能是否走上了数学的极端? 
  请解释下variational inference? 
  即时战略游戏(比如 WAR3)的 AI 是怎样实现的? 
  机器学习中常常提到的正则化到底是什么意思? 
  推荐算法岗是否存在严重人才过剩? 
  EM算法存在的意义是什么? 
  当初的生物热,和如今的全民CS全民AI,让你想到了什么? 
  只有正样本和未标签数据的机器学习怎么做? 

前一个讨论
最好的笔记软件是什么?
下一个讨论
如何评价 Insta 360 影石 3 月 24 日推出的 ONE RS 多镜头防抖运动相机?





© 2024-11-28 - tinynew.org. All Rights Reserved.
© 2024-11-28 - tinynew.org. 保留所有权利