主页 > 观点透视 > 作为 Pandora 的第一个数据科学家我学到了什么?
2014年05月21日

作为 Pandora 的第一个数据科学家我学到了什么?

来源:FirstRound,本译文首发于创之网(Chuang.pro)。

三年前,Gordon Rios 成为 Pandora 的第一位官方数据科学家。从那时开始,这个数据团队便从一人发展到十二人,同时也深深地影响了这家公司的每一个决策。考虑到这家公司的服务是由数据驱动的,从维护音乐基因项目、到帮助人们发现更多音乐的方法,Pandora 成为数据科学团队增长幅度最快、对企业影响幅度最大的成功案例之一。

Rios 深知 Pandora 是如何招聘、组件科学家团队,手里掌握着绝对罕见的内部信息。而且,越来越多的大公司和创业企业开始招募数据科学家,找出数据科学家如何最大化生产力的也显得越来越重要。

在本次独家访问中,作为 Pandora 首席数据科学家的他将讲述 Pandora 数据科学的进化历史,以及他在分配资源、保证出色的管理、为伟大科学及科学实验而保持的机智的交流中学习到的三部分内容:

完全融入的科学家

如果你问 Gordon Rios 他对什么最有激情,他脑海中最先想到的两个事情就是「科学」和「音乐」。他完全痴迷于人们是如何决定听什么音乐、这其中的原由以及音乐品味和习惯是如何改变的。这也让其成为 Pandora 音乐播放列表创举的核心贡献者之一,他在团队中与工程师和其他科学家通过使用机器学习的方法测试、完善了播放列表的算法。

值得注意的是,Rios 是 Pandora 播放列表团队的全职员工。在他成为数据科学团队的成员之前,他的工作就是和团队一起为用户提供最好的音乐播放列表。他所在的团队不仅仅有工程师,还有产品经理、设计师以及其他让用户享用播放列表的重要成员。

但这不是数据科学的唯一运作方式。因为数据科学是一门新兴学科,它有很多种运作方式。有些企业会让数据科学家团队聚在一起,不参与其他工作,好让他们保持密切的交流。也有些企业甚至会让数据科学家完全分离出来工作,在解决问题时完全不跟公司的工程师进行交流。也有些企业采取了顾问的方式,让数据科学家以顾问的身份临时加入项目,帮助团队进行分析、解决问题。

在 Pandora,Rios 等人用自己的亲身经历证明,将数据科学家分配到以开发功能为目的的团队的效果最好。

Rios 说,「当科学家被分配到一个小团队的时候,我们需要了解这个团队,成为团队的一部分。如果你被分到了播放列表团队,你依旧可以与公司的其他科学家交流,但是你现在需要向播放列表团队的经理进行报告。你已经是团队的全职成员之一。」

「播放列表团队的任务就是确保音乐能够找到优质的、能够接受它的听众。我们希望艺术家能够有听众,我们希望听众能够最好的体验。要做到这些,需要让用户尝试新的音乐。」而要做到这一点,完全依赖实验、收集数据、设计算法等,让一直听自己收藏的歌曲的用户来接收到 Pandora 推送的新音乐。

所以当面对数据上的挑战时,Rios 和整个团队都感到惊讶:只能靠用户的行为数据,他们就必须确定用户是否对在听的歌曲是否开心?用户跳过歌曲是因为他们不熟悉呢还是不喜欢呢?用户是否对现在听的歌曲感到无聊?他们对这些问题的回答将影响到每个听众。

「在这种项目下,你需要有人来运营、来做工程项目、来做产品,而数据科学家需要解决各方面出现的问题,同时还要对产品服务有一个共同的远景。」Rios 说。「顾问模式肯定是行不通的。早些时候我开始做数据挖掘工作时,我经常以顾问的身份来参与,但是这种方式很难在大规模问题上取得进步。你需要成为团队的一员,这样才能理解所有的动向。」这就是为什么他建议公司让科学家成为团队的永久成员的原因,除非项目被取消或者有其他强制因素要求科学家离开(否则他会一直留下来)。作为团队精经理你希望数据科学家能完全融入到这个团队中去。

「如果你把科学团队分开,他们是不能做出最好的工作的。他们会厌倦工作或者三心二意。」

Rios 说,最好的方法就是招聘具备良好工程技能的数据科学家。这样,数据科学家既能产出,你还可以节省员工,又有人能将数据转换成有意义的产品。这种事要从一开始就想到,也就是说,如果你想要自己的创业企业成功,那么数据科学必须是核心。创业之后也可以找专门的数据科学家。

从理想角度来看,公司一开始就要有一个数据科学家,比如说 Rios 这种。他就像团队的瑞士军刀,能测试假设、能编程、能写算法、能应用算法。Rios 在加入 Pandora 之前曾经在雅虎工作过,也担任过本地事件搜索创业企业 Zvents 技术总监,他具备良好的编程技能、大数据工作经验以及能摆上台面的机器学习专业技能。

如果你开始组建自己的科学团队,应该让团队维持灵活的态度。与其将眼光放在博士生、研究科学家身上,全能的人更适合这项工作。如果你招聘到了只关注实验,不在乎产品应用的科学家,那么你的团队可以产出的产品和应该产出的产品就会存在差距。与此同时,招聘数据科学专业的博士生十分关键:他们训练有素,可以深入地工作,自动帮助解决苦难的问题,让企业具备竞争力。

同样是具备数据科学家团队,各家企业之间结果不同的原因就在于是否采用了恰当的管理方法,Rios 如是说。「在绝大多数情况下,管理好了就能让员工的技能满足企业的需求,但是就数据科学而言,需要员工既有技能又得对这项工作感兴趣。」

「如果你分配到一个项目里的员工既有技能,又对解决问题感兴趣,那么你赚到了。」

数据科学管理的艺术

「当然,有时候你还得当个排头兵,解决一些不是很喜欢但是却对公司至关重要的项目,但是如果你确实足智多谋、神勇过人的话,将合适的员工认真地安排到合适的项目上,这就是科学的管理方法应该做到的。这样做可以不断地区分出那些是好的经理,那些是一般的经理。」

今天,Pandora 有一个专门进行播放列表、用户增长、用户留存研究的总结 Oscar Celma,也可以把这个人看作是全公司的数据科学领导。Celma 这个人是一个愿意动手的人,他拥有博士学位,发表过多篇论文,是音乐推荐技术领域的领军人物。Pandora 计划在其他领域也应用这种管理模式,比如说组建一个广告科学团队。

要想将科学家团队带入更高层次的生产率,团队经理应该问一问以下问题:

  1. 是什么在推动公司以最快的速度走向我们希望它前进的方向?

  2. 谁想要以什么方式或者获得什么技能来成长?

  3. 根据前两个问题的答案,我们如何确认功能开发团队里的成员能应对健康的挑战?

如果你能回答出第三个问题来,「那你将得到真正厉害的结果。当人们面临他们的技能无法解决的问题时,他们的工作会停摆,直到又一个伟大的导师来帮助他们走出困境。有可能一个项目就此暂停。但是如果项目太简单,他们也会觉得无聊,失去兴趣。」

他说,「把注意力放在让有才能的人一起工作上,当你这么的时候,你会看到受鼓舞的结果。」Rios 说,很多优秀的数据科学管理都跟导师有关系。虽然他建议科学家被分到一个多功能的团队中去,但是真正让有能力的人参与到工作中、不断成长的是这些科学家之间的合作,通过合作,他们乐于和同事分享最好的做法、创意以及解决方案。

随着数据科学家小队人数的不断增加,为了促成真正的合作,Pandora 建立起了数个常规交流渠道。其中包括通讯工具,比如 Slack,让科学家和其他人进行沟通。他们用 Slack 来提问、提供建议甚至是传递与解决内部问题有关的科研论文。

尽管他们大多数时间都是分开坐的,数据科学家团队会举办定期的会议,经常会在吃饭的时候谈论他们在做什么,在非正式谈话场合讨论创意观点。在这些谈论中,出现了很多解决方案。也有更正式的方法,他们会安排时间来向同事来展示他们的项目和发现,这样就可以提出问题、回答问题、分享一些或许能帮到其他实验的做法。关键在于要让基础设施跟上团队进化的节奏,不要让这个过程太繁琐,但要保持联络,这样才能鼓励他人来指导,不重复工作。

Rios 说,许多这样的交流应该是和「团队中的谁谁应该专长 xx 技能」有关的,即便团队里的大多数人都是通才。「有些人是经典数据科学家,有些人擅长统计,有些人在软件开发上做的更好。」知道那个成员擅长什么能帮助经理找到合适的人,更快地解决问题。

「对团队成员来说,数据科学项目的成功是他们感到高兴、感到接受了挑战、感到了满足,得出了重要的结果的时候;也是他们在最好的状态,传递了最多价值的时候。」Rios 说,「企业有很多理由可以来接受年轻的、没有经验的数据科学家(他们学的快、适应的快),但是你的团队最好已经有了稳固的管理和导师制度。」

他说,问题现在已经不是员工能否胜任一份特殊工作的问题。在他的观察来看,所有公司招聘数据科学家的过程都非常严格,招到的人都很聪明。要招一个数据科学团队的领导更是严上加严。真正的问题是,他们是否是解决问题的正确人选,他们是否能适应企业文化,他们是否能帮助已有的科学家解决问题。

Rios 说,「可以根据团队中每个同事的生产效率来判断这个数据科学团队经理是否合格。」为此,数据科学团队经理的面试流程将异常具有挑战性,且分成两个方向:

经理应该知道其他科学家的已经知道的所有信息才能被录用。其中包括创造复杂模式、发现已有产品的绝大多数技术特征。他们在管理上应该像科学家一样精神上异常的机敏,也要想科学家一样能快速地学习新事物。

Rios 说,「在面试的时候,所有员工都应该喜欢他们。他们首先要符合企业文化,然后再符合企业的技能需求。他们要真真正正地热爱产品,了解 Pandora 以及我们感兴趣的数据挑战。想要应聘这个职位非常困难,但确实要达到这样能力才行。」 

「一名出色的经理或合作者的特征是:所有人都希望你能参与他们的项目。」

为最佳效率而沟通

Rios 说,「要想成为一个高效的数据科学家,你要知道你的工作不仅仅是做研究。你要把你做的研究质量化、数量化,为整个公司做贡献。如果人们不沟通,提供给全部人的结果肯定会让其他人非常难理解。」

幸运的是,当涉及沟通的时候,你的数据科学家都很给力。他们可以用自己的能力来将自己的成功量化以及形象地将他们正在做的事情告诉公司其他人。在这个领域,清晰的、不断地交流尤其重要,因为数据科学变化速度非常快。一个实验接着一个实验,得出结果,随后修改软件,然后不断重复。在 Pandora,Rios 和他的同事不断地不断地实验着如何吸引更多的听众来听更多的艺术家的音乐。「我们提出技术挑战,对实验进行优先级排名,然后很快在一小撮用户身上进行实验,看软件是否真正得到了进步。」

有些很短暂、天衣无缝的歌曲推荐其实涉及了不同员工的许多工作。Rios 解释说,「我们有音乐推荐的总策略。比如,我们一开始会给用户播放 80 年代的歌曲,比如说 Cindy Lauper 的、Cher. 的。根据用户的行为,我们会判断用户是否想要听更多 80 年代的流行乐趣或者是更多最近的流行乐趣,比如说 Lady Gaga 的、Rihanna 的。在这一功能背后,有很多不同的工作在支撑着。」

正如你想象的的那样,当多个团队同时就相似的体验做不同的实验时,问题就麻烦多了。开发、维护复杂的 A/B 测试平台很有必要。能知道其他团队在做什么也很重要,但是真的需要一个能够支持不同团队工作的平台。

「有数千件我们想要尝试的功能,但是我们要在我们预期的服务范围内工作。」

Rios 说,另外一件让 Pandora 如此高效地处理数据的事情是他们欣赏特殊技能,以及他们应用这些特殊技能的方法。在 Pandora 内部,所有人都知道谁擅长推荐项目,谁擅长机器学习,谁擅长获取用户。所以,在新员工进入公司的时候就要让所有人都清楚他的特长。

「这就是为什么我们在招聘数据科学家的时候关注这个人是否具有科学好奇心,同时也具有创业精神。想要让数据科学家团队成功,就得全身心地投入,愿意而且能够在团队成员需要的时候帮助他们。」