【科学技术(8)】
NETFLIX 百万大奖的故事(2) 伍加,2011年5月1日,周日 也许你会问:改进一个算法怎么会需要漫长的三年时间?
当时参赛的多数选手也是这么问的。当 NETFLIX 最初宣布了竞赛规则之后,许多人认为这个问题并不难,答案就像是挂在一棵矮树上的果子,似乎伸手可得。开赛后的几个月里,就有参赛者把原有的 Cinematch 算法准确性提高了 5%。比赛进行一年多时,最好的答案已经非常接近 9%。可是事实证明,那最后的 1% 才是真正的攻坚战。
获奖团队的名字叫 BPC (BellKor's Pragmatic Chaos),它由原本是竞争对手的三个团队重新组团而成,其中的七个成员分别来自奥地利、加拿大、以色列和美国,他们的职业身份分别是电脑工程师、统计 学家和人工智能专家。这七个人原来分属的三个参赛团队都是曾经保持最好成绩的顶尖团队,他们的重新组合使得 BPC 的实力大增,如虎添翼。但是,直到最后参加颁奖仪式时,这七个成员在领奖台上才是第一次真正面对面握手相见。原来他们是通过互联网来进行合作的,这里又一 次显示了互联网的好处;这种跨学科、跨组织的异地合作标志着今后高效科研的方向,互联网成为科研突破的重要工具;组建国际团队、实行虚拟合作也成为科学工 作者的必备能力。 获奖团队 BPC 中有两位来自于 AT&T 实验室,名叫 Chris Volinsky 和 Robert Bell。 Chris 是分管 AT&T 研发的执行总管,他们参加这项为期三年的 NETFLIX 百万大奖赛利用了他们的工作时间,因此他们所获的奖金归 AT&T 所有,这就是所谓的 “Work for hire” 的成果。最后,AT&T 把这笔奖金捐给了当地的教育慈善机构和中小学,以鼓励青少年从事科学、技术、工程、数学(STEM)方面的学习和工作。
有趣的是,BPC 团队最终险胜了另一个参赛团队叫 The Ensemble,这个团队也是由几个名列前茅的前参赛团队重新组合而成的新团队。根据比赛规则,各个团队的得分精确到小数点后第四位,我们来看看这两个参赛小组的最后得分:
The Ensemble 的 RMSE 测试分数: 0.856714,对 Cinematch 算法的改进: 10.06% Bellkor's Pragmatic Chaos 的 RMSE 测试分数: 0.856704,对 Cinematch 算法的改进: 10.06%
我们在后面再讨论什么是 RMSE 测试分数,仅就最终结果看,两个小组都达到并超过了 NETFLIX 的比赛目标,对原有算法的改进都超过了 10%。遗憾的是,The Ensemble 小组在提交最后结果时比 BPC 小组晚了二十分钟。“时间就是金钱”在这里有了绝妙的注解,尽管这两个团队的算法效率非常接近,因为 The Ensemble 小组晚了二十分钟,他们就与奖金无缘,只能望洋兴叹。
在总结这次赛事时,NETFLIX 的首席执行官哈庭斯说:“我们经历了一次非常激烈的比赛,参赛团队开始时候独立作战,后来协同作战,终于将影片推荐效率提高到了 10% 以上。在接近比赛截止日期时,还有新的参赛作品不断快速地提交上来,让整个比赛过程变得非常曲折和惊心动魄。”要知道,把这个算法的预测效率提高10%以 上可不是一件轻而易举的事,这个效率目标是 NETFLIX 的科学家们在过去的十年里面都没有办法逾越的瓶颈。
随着一百万美金大奖的颁发,NETFLIX 很快宣布了第二个百万美金大奖。
第一个百万大奖成功地解决了一个巨大的挑战,为已有评级的观众准确地预测了他们的口味和对新影片的喜好。第二个百万大奖的目标是,为那些不经常做影片评级或 者根本不做评级的顾客推荐影片,这就要求使用一些隐藏着观众口味的地理数据和行为数据来进行预测。如果能解决这个问题,NETFLIX 就能够很快向新客户推荐影片,而不需要等待客户提供大量的评级数据后才能做出推荐。新的比赛用数据集有一亿条数据,包括评级数据,顾客年龄,性别,居住地 区邮编,和以前观看过的影片等信息。
尽管所有的数据都是匿名的,没有办法把这些数据直接关联到 NETFLIX 的任何一位顾客,但是把顾客的年龄、性别、居住地邮编等信息公开让许多人感到不安。美国联邦政府交易委员会开始关注这项大赛对顾客隐私的损害,有一家律师 事务所也代表客户递交了对NETFLIX的诉状。为了防止官司缠身,NETFLIX 在 2010 年 3 月宣布取消了第二个百万美金大奖赛。
伍加,2011年5月1日,周日 http://blog.creaders.net/invictus/ |