关于金融圈最热门岗位的糟心事

作者 Sarah Butcher

投行的数据科学类岗位目前是个新热点。摩根大通开设了一个数据科学总办公室,摩根士丹利也是,还有德意志银行。曾经偏爱交易员和销售员的银行现在想要的是附带懂得金融 “专业知识”的数据员。彭博的Matt Levine 指出,金融正被归于一系列的数据难题,于是捣弄数据的人冉冉升起。

 

只是,业内人士表示数据科学类岗位并不如表面那么光鲜。如果你觉得自己想当一名数据科学家,你最好了解下真实情况。

 

“仅有约10%的数据科学属于科学,”伦敦一名经验丰富的数量分析猎头Dominic Connor声称。“你的其余时间将会用在清理数据—从无论哪种乱糟糟的格式中把数据提取出来,然后进行完整性检查,让它真正能被用上。”

 

在煤炭采集现场一般的数据员真心同意。

 

“大家都知道的事实是,数据就是垃圾,”研发出一套人工智能交易系统 、位于旧金山的Sentient Technologies人工智能公司首席投资官Jeff Holman说。“你大部分时间都花在获取和清理数据、并尝试将这两个步骤进行自动化—无论原因何在,这项职责由那些使用数据来研发机器学习的数据员来肩负。”

 

数据科学家的志向和现实之间的不匹配会导致失望情绪,特别是对于那些没有在现实世界工作过的数据科学家们。“当人们在攻读博士学位期间从事其以习以为常的经验工作时,” Holman说,“当他们从理论角度出发并且首次使用技能的时候,便会大吃一惊。”

 

“这会让人感到很沮丧,”前摩根大通衍生品交易员、现在经营纽约一家专注于大数据的买方猎头公司Upgrade Capital的Alexey Loganchuk说。“当你关注顶尖大学的数据项目,你会发现对复杂建模技术非常感兴趣的学生,但当你看看对冲基金的数据类岗位时,这类工作常常是有关找到新的数据组、对其评估和获取这些数据。”

 

Loganchuk说数据科学价值产生的一个真正关键部分在于这种所谓的“数据争论”,这并非学术机构的关注点所在。任何一个人都能够上网轻松获取公司数据,但这样在网上抓取数据的工作都被“商品化”了,而且得到的数据很少能提供新的见解。“对对冲基金而言,最有价值的是那些没人关注、很难轻易获取和分析的数据组。“如果你关注的是其他任何人都能得到的数据组,便没有太多优势。”

 

为此,数据科学较少有关复杂建模和机器学习、更多是关于“数据发现”和厘清。经典案例包括在甚至在船停泊靠岸前便追踪那些运输原材料到中国的卫星数据,或停靠在零售店和餐馆门口的汽车数量。“我们的学生看了从RS Metrics得到的卫星影像,发现如果将停在Chipotle停车场的汽车数量和附近其他停车场的汽车数量进行比较,就能知道竞争者的业绩,” Loganchuk说。即便是大家最想去的对冲基金数据岗位也很无聊乏味。比如,系统性对冲基金Winton Capital近期写的一篇博客文章 是关于如何使用域名服务器的记录数据来代替显示标普1500家公司的技术领导力。

 

如果对冲基金的数据类岗位没意思,那银行的数据类岗位会更加无趣。Connor指出银行的首要需求并非是让数据员来支持交易业务,而是让他们来做合规工作:“银行已经到了紧急需要对其合规工作进行自动化的阶段,但就说找不到足够的经验丰富的合规专家。”

 

Loganchuk说大型银行的数据员通常是所有同行当中幻想破灭最彻底的人:“这些一般是新业务开发机会有限的大型机构。”他补充说每位数据员的梦想是用数据来解决不曾被解开的难题:“在银行,你的任务或许是建立一个稍微好点的模型来预测信用卡的违约风险或者鉴定欺诈案例。这无疑是有价值的工作,但不会使梦想为让世界更加美好的千禧一代成员激动不已。”

 

这些都不会很快改变。不可避免的事实是,金融圈的数据科学是为商业目标而生—尽管对冲基金Two Sigma允许其数据员在白天工作之余能够参与慈善和环保类的数据项目。也避免不了这个岗位有关数据发现和数据整理的工作。Holman说这样做会引发问题:“在处理和截取数据的过程中你会做各种小假设,这得由使用数据和建模的人来做,不然就不管用。” Loganchuk指出有越来越多的“排气数据”可供使用:“更多的数据产生出来—每样东西上都有一个传感器,从你穿的衣服到用在油井平台上的每个螺丝钉。这些数据组变得足够大,让对冲基金产生兴趣只是一个时间问题。”

 

这并不是说金融圈的数据科学就没意思—只要你是睁大眼睛进这行。其他选项或许也无法提供机会运用干净的数据来拯救世界。Sentient公司对机器学习和数据科学的运用不仅局限于金融—还把科技应用在其他行业。其中之一是医疗保健,Holman说它们研发出了一个系统,可以准确预测重症病房的败血症。然而,最大的增长点在于线上购物,数据员忙着使用数据信号来鼓励人们购买更多商品。在这样的背景下,银行筛选乱糟糟的合规数据看起来还是挺有价值的。