在《金融媒体、价格发现与并购套利》这篇论文中，您主要想讨论什么问题？

并购(M&A)在企业融资领域扮演着重要角色，并被认为是一种有效的增长战略。2017年，全球并购市场表现强劲，对外公布的交易额达到3.7万亿美元。并购活动对股东财富、公司价值和股票回报有重大影响。虽然大多数条款是在宣布之前就协商好的，但对外公布并不能保证最终收购成功。由于无法获得股东、监管机构批准或缺乏充足资金等原因，收购都可能会失败。金融媒体可以传递这些信息，但并购失败的另一个原因可能是交易本身在媒体上的传播。由于在并购公告之后会有大量文章发表，因此我们可以在媒体上找到蛛丝马迹来预测最终交易是否能够完成。

我的论文希望验证一个理论，即解释媒体是如何预测收购公告后的最终结果。由于前瞻性偏见，该项研究没有包含并购公告之前的新闻内容。此外，从金融角度来看，信息是不可交易的。最终研究表明，对于收购者的正面报道预示着最终交易的成功。

为什么决定进行这项研究？其重要性体现在哪？

长期以来，我对媒体在金融领域所扮演的角色很感兴趣。这对我来说很重要，金融行业数据丰富。你可以用CRSP查股票价格，用Compustat查会计相关数据。关于交易、持仓、证券税种等方面的报告非常丰富。如今，汤森路透(Thomson Reuters)、标普(S&P)等第三方市场数据来源正变得越来越重要。这些数据都十分有价值，会对业绩产生重要的影响。

当我着手这篇论文的时候，几乎没有人关注并购的文本分析。目前，很少有人会认为将金融媒体视为收购成功的潜在因素。我意识到，如果关注的是别人没注意到的东西，那么这很可能正是市场效率低下的原因。这就是为什么我选择研究金融媒体对并购交易结果的影响，以及它如何使并购市场更加有效。

具体研究步骤如何?

有一种说法形象地描述了研究过程——当你建造一艘船时，第一艘船是为你的敌人建造的，第二艘船是给你朋友的，第三艘船才是为自己建造的。特别是在2011年，当时的程序并不像今天这样复杂，构建模型需要多次迭代和大量的试错。

研究的第一步，主要是涉及到时间以及人力成本，即获取并进行数据清理，使数据能够适用于我们的分析。

第二步是从可以处理数据集的软件库中选择数据包。而在当时选择是有限的，我们最初在R语言中使用的数据包已经有效率低下的迹象，因为我们的样本多大13万篇新闻文章，而每一个新的数据集意味着必须再次复制整个文本语料库。

第三步是管理必要的计算能力。我必须从我自己的本地计算机切换到一个计算机集群，几个计算机连接在一起，以获得最佳的电源。在此期间，Hadoop刚刚上线，我相信我是最早将Hadoop专门用于金融的人之一。因此，我为一个分布式计算环境手工重写了3次代码。

与此同时，Hadoop MapReduce现在已经是老古董，人们正在使用Spark。而R语言和Python是两种完全不同的东西。有人说R语言是统计学家写的，而Python是计算机科学家写的。这两种方法在数据科学中有很多重叠之处，使用哪一种通常只是个人喜好的问题。R和Python都可以做大数据、机器学习和统计，但是在我看来Python更侧重于机器学习和大数据，而R有更多的传统统计背景。我相信精通R和Python对于文本分析是有帮助的。

在分析了13万篇新闻之后，有哪些发现？

论文希望回答两个问题，首先媒体在交易完成的过程中扮演的角色，以及即使股东们完全意识到媒体可以被收购方的内部人士操控，理性的他们仍旧关注新闻。在我们分析的超过13万篇文章中，包含了大约1200次收购交易，我们发现有关收购者的正面新闻预示着收购成功。反之亦然，消极的新闻往往预示着失败。这说明股东确实会关注新闻，他们获得的信息会影响他们是否会最终实现这笔交易。

此外，在另一项研究中，我们发现媒体只在分离均衡中发挥作用，因为这是唯一一种对目标股东有益的媒体信号。你可能会问，如果有撒谎、操纵或编造新闻的可能，我们还应该关注他们吗？答案是肯定的。你可以从理论和经验两方面来看待这个问题。从理论上讲，公司出于自身利益会分享正面新闻，负面新闻一开始就不会被分享，公司并没有撒谎的动机。伪造收购公告不仅成本高昂，而且在法律上也存在风险。

从经验上来说，即使人们会撒谎，从数据中学到一些东西也是十分重要的。我们不能只考虑报告的正面或负面，仅仅是数据也可以揭示有关收购者的信息。为了说明这一点，我们假设美联储一直在宣布不会加息。但一个月后，他们却加息了。这本身就是一个你可以从数据中得到的信号。如果有一个模式，它可能是真实的，或者以一种可预测的方式撒谎，你可以在机器学习中学习到这一点。而就本项研究来说，它可以在一定程度上预测并购结果，并告知并购方的行为模式。

如今有了更复杂的人工智能解决方案，会对投资前景产生哪些影响?

与我刚开始进行此项研究相比，文本分析如今已经被广泛使用。没有人会质疑，也不需要证明为什么要进行关于并购文本分析的研究。但我认为这会导致激烈的竞争。与以往类似，随着更大的数据集、更先进的技术被广泛使用，市场可能会变得更有效率。但如果所有人都在根据数据投资股票，那就相当于这项技术并不存在，也会将变得越来越难赚到钱。

您今年开设了世界上第一门关于金融和金融科技中的文本分析和NLP的课程，为什么您觉得这很重要?

金融专业的毕业生面临着竞争相当激烈的就业市场。最好的方法就是让自己与众不同。虽然不是每个人都必须会写代码，但是对它有一些了解是总是很好的。

如果你看看这些年来交易大厅的变化，你就会意识到，由于自动化进程加快，处理和监控交易所需的人力更少了。而花了这么久才明白这个道理是个奇迹。在自动化的帮助下，交易领域降低了交易成本，提高了流动性。除此之外，还有定量投资和机器学习等新技术，可以帮助交易员和投资组合经理做出更好的投资决策。

如果我们一点都不了解代码，我们将完全无法判断和理解这些机器学习技术。有些领域可能受影响较小，但如果从事的是金融领域的量化工作，而没有基本的编程知识，那就很难提升自己的职业生涯。因此，我很高兴向香港大学的同学介绍这门新课程。这门课程反映了机器学习和人工智能在金融领域日益增长的重要性。

点击这里，阅读完整版论文。