如何与大数据连接:专访智能数据供应商Lucena Research

本篇文章中,我们采访到了Lucena Research的创始人兼CEO Erez Katz,主要讨论了该公司的技术优势,以及如何填补数据与金融行业之间的数据鸿沟。

Erez Katz, Lucena Research创始人兼CEO2019-06-03

请简单介绍一下Lucena Research

我是Erez Katz,Lucena Research的联合创始人兼首席执行官之一,另一位联合创始人塔克·巴尔奇是佐治亚理工学院的教授。 他拥有计算金融博士学位,并且是金融市场机器学习领域的专家。

自2013年成立以来,我们一直致力于将大数据和另类数据提供商与寻求从数据中提取可操作信息的投资专业人士联系起来,以制定更好的投资决策和KPI预测。 我们公司创建了一个技术平台,Quantdesk。 该工具利用机器学习功能,目标是让那些非定量和非数据科学家访问它们。 那些希望使用智能数据的专业投资者只需点击一下按钮即可从我们平台提供的数据中获取信息,而并不需要精通技术。 我们使用机器学习和大数据科学帮助增强决策过程。 这是我们的使命。

我们开发了一系列产品和服务,服务于年轻,新兴的对冲基金和家族办公室,以及最成功和最先进的对冲基金和金融机构。

您遇到的挑战是什么?

可靠性是我们面临的最大挑战。首先,在公司刚成立之时,机器学习和数据科学并不是媒体报道的焦点,也不并不在我们希望合作的一些大公司的考虑范围。

其次,作为一家金融市场领域的新兴公司,工作经验,或成为该领域的专业投资者,都有很长的路要走。早期,我们公司主要由来自学术界和/或具有商业头脑的技术专家组成,但不一定具有财务背景。这对我们来说是一个挑战,因为金融领域很难将我们视为可靠的来源。

但这是坚持不懈和一致性长期存在的事情之一。这些只是时间问题。我们通过人际关系、并提供思想领导力来教育市场。经过一段时间后,我们不仅在机器学习领域成为专家,更重要的是了解到了如何在KPI预测和资产价格预测的背景下应用机器学习。

我们必须做的一件事是为我们的数据提供有效的经验与证据。 在平台中,我们拥有一套全面的报告系统、回测系统以及永久纸上交易模拟系统,使我们的客户能够实时查看我们的预测决策并评估技术的功效。 从本质上讲,我用户能够评估在我们进行预测后,对给定资产范围的预测结果如何。 我们对有效和无效的透明度创造了额外的兴趣,并建立了对我们的技术和成果所需的信任。

这是一场持久力游戏。 你需要足够强大,活得足够长,让市场转向你。 在过去两年左右的时间里,我们看到大数据和机器学习技术的采用发生了巨大变化。 这一切都处于起步阶段,但市场正在向我们走来,这对我们来说是一个非常激动人心的时刻。

你还记得某个艰难的客户洽谈或者会议吗?

有一天,我与一个非常大的消费者平台的专业投资者会面。我花了2个小时的飞机和住在酒店。当我终于遇见他时,他告诉我你有10分钟。这是他说的第一件事。没有打招呼,没有与我握手。

与我们合作的人非常忙碌。这是一项非常紧张的工作。一个他们不太满意的故事对他们来说是一个很大的挑战,因为他们必须平衡他们的时间和好奇心。但现在情况有所不同。人们开始打电话给我们,要求时间进行讨论,这对我们的业务更有利。

在你的创业历程中,你是否记得某个艰难的电话?

我们必须每天做出艰难的决定。作为一个新兴领域的新兴公司,有些时候你不得对新业务说不,因为你认为这不会在改善你的计划。当你是我们规模的公司时,我们没有筹集到大量资金,我们每个收入都有机增长,收入意味着很多。过去,我们有机会与那些为我们的业务提供强大收入来源的人交往,但这是为一家销售银行服务的公司工作。我们决定说不,这对我们来说是一个非常艰难的决定,因为这是我们基本上放弃的收入。但我们当时知道这对我们来说不是正确的战略举措。事后看来,我们很高兴我们做出了这个决定,因为我们对我们的核心竞争力保持真实和强大,而不是试图成为每个人的一切。我认为,对于每个企业主来说,了解何时对提供即时现金流但不是长期业务视角的机会说不,这一点非常重要。

您如何与竞争对手区分开来?

其中一个区别是我们的透明度。坦率地说,这个领域有很多错误的信息。人们非常松散地使用术语如AI,机器学习,大数据而不知道它意味着什么。

我们引以为豪的另一件事是我们的技术能力。我们不只是谈论我们可以为他们做些什么,我们实际上有一个强大的平台,用户可以直接注册并快速识别其所有功能。它非常容易使用,我相信这让我们与众不同。许多其他提供商倾向于依赖更昂贵的专业服务,结果可能不一定清楚。但与我们一起,我们得出了明确的结果。

更重要的是,我们非常以客户为中心。我们倾听客户的需求,我们可以快速扩充我们的产品,专门支持他们所寻求的产品,而不是我们必须销售的产品。这是我们公司的另一大优势。

让我给你举个例子。我们的数据库中有非常大的数据集。用户很难解释哪些数据集是可靠的,如果它是可靠的,我如何在我的特定需求的上下文中使用它。所以我们在我们的平台上构建了一个名为“数据匹配引擎”的模块。它会引导您完成一系列筛选问题,它会要求您上传您最感兴趣的成分领域,有关您的投资风格,您的投资组合类型,投资时间范围以及一系列其他问题。这通过“向导”进行。按下提交按钮后,系统会退出并从我们的所有数据集中识别出所有因素,这些数据最适合您刚刚概述的特定方案。结果将展示最适合您特定需求的数据集,以及如何在以下上下文中使用这些数据集。我们还根据经验向用户展示了为什么我们决定这些数据集更适合他们的参数。

您正在使用哪些数据集?

我们有很多合作伙伴。一些大型数据提供商如IBM,一家薪酬公司ADP,一家消费信贷公司,Equifax。但我们同时也拥有众多小型数据提供商,这些提供商非常独特,可以提供有关社交媒体情绪、企业盈利结果、内部买卖以及社交媒体消费者情绪指标的数据,这些数据可以确定人们在情感方面的情感参与度。我们的数据供应商名单还在继续。

所有这些数据集放在一起,这为我们提供了一个非常好的机会创建多因子模型,这意味着一旦汇总了不同的信息,预测时我们的信心就会更高,在非常有效地识别八边形数据集的背景下,我们的技术是独一无二的。

Lucena的另类数据。资料来源:Lucena Research

考虑主要的数据来自与公司资产负债表和收益报告,你就可以将其与价格变动,均值回归和动量情景等技术数据相结合。然后进一步将其与宏观经济数据相结合,这些数据都是我们基线数据集的一部分。现在,完成这些之后,你就可以添加各种独特的另类数据公司了。

Lucena的数据验证流程。资料来源:Lucena Research

从这里开始,我们不会分析任何数据。我们有一个验证过程,允许我们筛选哪些数据真正值得用户考虑进一步研究。有些数据集要么不够成熟,缺乏历史记录,要么数据不是“幸存者无偏见”,这基本上是如何考虑历史上数据中不再存在的股票。我们通过多种方式测试数据,以确保数据真实,可靠和完整。这是一个需要解决的大问题,但是通过自动化流程简化了许多这些流程。

谁是你的目标客户?

在一个方面,我们有许多数据提供者作为客户,但在买方,我会说有三种类型的客户。第一种客户层是定量基金。这些是最复杂的定量分析团队,其工作是识别另类数据以及如何根据内部需求调动另类数据。这些公司不一定会从我们的定量研究能力中受益,因为他们有自己的定量研究能力,但却消耗了我们的数据验证服务。如果他们的队列中有100个数据集,他们怎么知道应该首先考虑哪个?他们想要快速失败 ,并不想花3个月时间进行定量研究,才意识到他们所追求的是错误的数据集。我们通过验证过程给予他们更高的成功。


Lucena的数据审查引擎。资料来源:Lucena Research

第二层是深度价值的基础性基金,这些基金并非自然定量。但是他们试图在水中浸泡脚趾。他们慢慢地小心翼翼地穿透到量化空间。我们称它们为定量的,试图通过引入量化措施来增加业务。这些客户以更加复杂的方式使用我们进行KPI预测或智能数据馈。他们需要我们从原始数据中理解。因此,我们为它们解释数据,并从数据中为它们提供更可操作的信号。

Lucena的模型投资组合。资料来源:Lucena Research

第三层是新兴基金。代表是对冲基金,家族办公室和其他投资专业人士,他们正试图创建完全算法的投资组合。我们为他们提供模型组合,生成交易信号,交易模拟投资组合,帮助他们利用数据,科学和我们对完整算法交易策略的研究。

哪种产品最受欢迎?

我们的平台非常强大,其中QuatDesk(r)对“自己动手”的研究人员需求更多。然而,最近我们看到了KPI预测的巨大推动力。它不是预测资产的股票价格或市场的宏观经济趋势,而是大公司的关键绩效指标。这可以是任何东西,从总销售额的变化到利润率一直到每单位的回报。它也适用于机票价格预测,消费品总销售和房地产预测或房屋定价

Lucena的KPI预测。资料来源:Lucena Research

我们预测KPI的能力比价格预测具有更高的准确度。原因在于资产价格,数据非常嘈杂。如果你的准确率达到55-58%,这个表现就相当不错了。但是预测KPI时,就轻松获得高达85-95%的准确度,这是更高程度的可靠性。最重要的是,我们的许多客户都有自己的秘诀或做事方式。一旦他们收到构成其菜单基本要素的KPI,他们就可以自己去完成。这意味着如果他们获得了基础KPI或基本成分,实际上就可以自己预测实际投资组合,以做出最终决定。

假设有人想要确定美国或世界某些地区的房屋预计房地产价格是多少。一旦他们进入我们的平台,他们可以在过去几年中按季度或按月上传历史房屋价格。因此,用户会给我们一个时间序列,代表房屋价格随着时间的推移。反过来,我们确定来自多个数据集的950个因子列表中哪些因素最适合他们上传给我们的内容。然后,我们使用我们的系统(称为“机器学习分类器”)来分类哪些因素共同产生了历史KPI预测的最高概率,并使用这些因素来预测下一季度完成预测的原因。

Lucena的数据资格引擎。资料来源:Lucena Research

这个机会超越了金融市场,从而到达了更广阔的市场。想想任何想要预测其未来KPI的公司。可能是零售公司根据属于他们的替代数据预测销售增长。例如,信用卡收据,商店中的消费者足迹,保质期和营业额库存。所有这些数据集的聚合非常类似于我们如何聚合替代投资数据,但这样,我们正在添加数据,以允许公司使用AI和机器学习技术做出更明智的未来决策。

目前,机器学习发展到了哪里,它面临的挑战是什么?

我们作为机器学习技术的领导者而自豪。我们涵盖了广泛的机器学习能力,从KNN,决策树,逻辑回归和SVM等传统建模,到使用卷积神经网络,长期和短期记忆的深度学习技术,带有RNN的LSTM等。我们对资产拥有非常全面的专业知识,这是数据的一个功能。最复杂的机器学习功能,如计算机视觉,自动驾驶汽车或面部识别,所有这些关键技术都需要拥有丰富的样本数据或标签数据。这就是您如何训练机器以概括可用于未来数据的功能,这些功能尚未被发掘。

机器学习同样适用于KPI预测,如净销售的KPI。数据非常稀缺,每季度只需拥有一次数据点,但却需要拥有数百万个样本数据,以便机器学习有效地学习如何交易股票。在许多情况下,不得不使用简单的模型,因为数据不如其他部门那么丰富。但即使样本数据量增加,我们目前拥有的技术已经超越了机器学习和深度学习以及强化学习的时代。

对于另类数据来说,有一些数据以前不可用。如社交媒体在2013年底才开始广泛使用,因此只拥有4到5年的数据。这还不足以创建深度学习功能,但在简单的机器学习模型环境中,它们非常有效。

您如何看待亚洲数据?

我们非常羡慕中国人工智能市场,因为有一个非常广泛的数据可用于机器学习研究。在美国和欧洲,数据隐私存在挑战,这可能会从研究视角产生一些障碍。我知道在中国和一些亚洲国家,数据不像美国那样具有限制性,这为中国机器学习和大数据市场提供了非常大的优势。我们绝对认为中国是美国市场的强大竞争对手。但这项技术确实具有变革性。如果你考虑大数据和机器学习,它就像过去许多其他工业革命一样大。我认为这是一个我们试图解决的世界问题,以使世界变得更美好。我认为中国是一个非常强大的竞争者,但也是一个非常强大的合作者,试图在研究,大数据和机器学习方面取得突破。

是否可以预见Lucena将成为主动基金经理接下来重点拓展的技术?

这是人们最经常问我的问题之一。大多数人会问是因为他们持怀疑态度。区分是非常重要的。我之前提到过准确度。当预测股票时拥有58%到60%的准确度,你不会一直都是正确的。除了获得预测信号以运营成功的对冲基金或成功的资金管理之外,还有很多。

目前,我们的许多客户都是对冲基金,如果我们要取得成功,我们就必须与特定投资工具建立合作伙伴关系,这些投资工具对我们有潜在价值。我们也以这些相同的理由与几家公司合作。但最终,我们希望成为一家科技公司。我们希望开拓新的前沿,新的研究思路和新的能力,因为机器学习以及大数据正在快速发展,这是我们所钟爱的事业。

其他人喜欢投资,使用投资工具,处理客户和合规以及市场的起伏,但是我们决定远离这个市场,而成为纯技术手段,因为这是我们所擅长的。但是要回答你的问题,比喻说,我们正在吃自己的食物,因为我们正在吸引使用我们技术进行投资的公司。如果我们要成功地推动这些战略,我们就会得到所谓的上升回报。所以间接地,我们正在使用自己的资金进行投资,虽然我们并不是推动买卖按钮的实际人员。

未来Lucena会朝着什么方向发展?

我们是一家正在经历拐点的公司。 我们正在成长,我们必须决定如何利用市场给予我们的机会。

Lucena的伙伴关系战略。 资料来源:Lucena Research

我们现在拥有一些机会。 第一是筹集资金,成为一家规模更大的公司。第二寻求一个共同努力快速扩张的战略合作伙伴。 最后,是被一家大型公司收购,该公司希望让我们提升他们战略投资的能力。 我们正在评估这三个选项。 一个是有机增长。 一个是合并,另一个是获得。 我们在所有这些方面都进行了积极的对话。同时,我们也很想找到一种方法,从而能够进入亚洲市场。

Lucena Research 网站: https://lucenaresearch.com

Erez是Lucena Research的首席执行官兼联合创始人。Erez帮助Lucena设计了旗舰平台QuantDesk®。在成立Lucena前,Erez是企业云软件公司Objectware Inc的创始人,该公司于2007年被Bridgeline Digital收购。Erez在2011年之前一直担任Bridgeline的首席运营官,并对该公司的增长和最终在纳斯达克上市起到了主要的推动作用。