【新智元导读】GPT-4 在为人类选股时,显露竟然超越了大部分人类阐明师,和针对金融训练的专业模型?在没有任何上下文的情况下,它们直接就成功阐明了财务报表,这一发现让许多业内大咖震惊了。然而好景不长,有 AI 大牛指出钻研中的 bug:之所以会这样,很大概是训练数据被污染了。
最近,各位业内大咖都被芝大的一篇论文震惊了。
钻研者发现,由 GPT-4 帮忙选择的股票,直接击败了人类!同时也 pk 掉了许多其他针对金融训练的机器学习模型。
最让他们震惊的是,LLM 可以在没有任何论述上下文的情况下,就成功阐明财务报表中的数字!
论文地址:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311
具体来说,在预计收益的变化上,LLM 比经验丰富的金融阐明师都更出色。尤其是在选股时,人类阐明师会面临一些难以应对的场景,导致预计结果存在偏见、效率低下,这时 LLM 就显露出了巨大的优势。
并且,LLM 做出的预计,不仅仅是回忆训练数据,比如 GPT-4 提供的有洞察力的阐明,甚至能揭示一家公司现在潜在的显露。
GPT-4 的显露一骑绝尘,直接比其他模型实现了更高的夏普比例(Sharpe ratio)和阿尔法(alpha)。
沃顿商学院教授 Ethan Mollick 盛赞:这是一篇众人翘首以盼的论文。
也有网友感慨道:以后在股市中操盘的,是人还是 AI 都不好说了……
然而,就在大家激动之时,有细心的钻研职员给这项钻研泼了冷水:之所以能取得这个结果,很大概是由于训练数据的污染造成的。
AI 大牛田渊栋也表示,GPT-4 的优异显露,不排除是训练数据集中包括了现在的股票价格,因此 GPT-4 直接开了挂,据此对 2021 年起的股票样本进行了选择。
至于测试 GPT-4 是否开了挂,理论上并不复杂:只要获取股票的历史记录,将其重命名为某个新代码,将其输入来测试就可以了。
钻研内容
怎样衡量 LLM 在现在决策中的作用?在这项钻研中,钻研者衡量的标准,就是让 LLM 进行财务报表阐明(FSA)。
之所以进行 FSA,主要是为了了解公司的财务健康状况,并确定其业绩是否可持续。
FSA 并不简单,它是一个定量任务,需要大量阐明趋势和比例,还涉及批判性思维、推理能力和复杂判断。通常,这个任务是由金融阐明师和投资专业人士来完成的。
在钻研中,钻研者会将两份标准的财务报表 —— 资产负债表和损益表扔给 GPT-4 Turbo,它的任务是:阐明公司接下来的收益是会增长还是下降。
注意,这项钻研中有一个关键的设计,就是绝不向 LLM 提供任何文本信息,LLM 能参考的,只有纯粹的报表。
钻研者预计,LLM 的显露,大概率会比专业的人类阐明师差。
原因在于,阐明财务报表这项任务,非常复杂,涉及许多模糊性的东西,需要很大常识、直觉和人类思维的灵活性。
而且,LLM 目前的推理和判断能力还很不足,并且也缺乏对于行业和宏观经济的理解。
另外,钻研者还预计 LLM 的显露也会弱于专用的机器学习应用,比如为收益预计的人工神经网络(ANN)。
因为,ANN 允许模型学习深层次的交互,这些交互中包含了重要线索,通用模型是很难获取这些线索的。除非,通用模型能鉴于不完整的信息,或从未见过的情景,进行直觉推理、形成假设。
实验结果却令他们大吃一惊:LLM 竟然 pk 掉了许多人类阐明师和专用的神经网络,显露出了更优异的成绩!
实验步骤
评测 LLM 的具体显露如何,需要从以下两个步骤展开。
首先,钻研职员对公司的财务报表进行匿名化和标准化处理,防止 LLM 记住公司的潜在大概。
特别是,他们从资产负债表和损益表中,省去了公司的名称,并用标签(如 t 和 t-1)替换年份。
此外,钻研者还按照 Compustat 的平衡模型,标准化资产负债表和损益表的格式。
这种方法,可以确保财务报表的格式,在所有公司年度统计中都是相同的,因此 LLM 也不知道其阐明对应的是哪家公司或哪个时间段。
在第二阶段中,钻研职员设计了一个指令,指导 LLM 进行财务报表阐明,并确定现在收益偏向。
除了简单的指令外,他们还开发了一个 CoT 指令,实际上是「教」LLM 以人类金融阐明师的思维过程进行阐明。
具体来说,金融阐明师在阐明中会识别财务报表中显著的趋势,计算关键财务比例(如经营效率、流动性和杠杆比例),综合这些信息,并形成对现在收益的预期。
钻研职员创建的 CoT 指令,便是通过一系列步骤,来实现这个思维过程。
在数据集选用上,钻研职员利用 Compustat 数据库来测试模型的显露,并在必要时与 IBES 数据库交叉利用。
样本涵盖了从 1968-2021 年之间,15401 家公司的 150678 个公司的年度数据。
阐明师的样本涵盖了 1983-2021 年期间,包含 3152 家公司的 39533 个观察数据。
LLM 为何如此成功
对于这个结果,钻研者提出了两种假设。
第一种假设是,GPT 的显露完全是由近乎完美的记忆驱动的。
GPT 很大概是从数据中推断出了公司的身份和年份,然后将这些信息与新闻中学到的关于该公司的情感相匹配。
为此,钻研者试图排除这种大概。并且,也利用了 GPT-4 训练期以外的全新数据,复制了结果。
第二种假设是,GPT 之所以能推断出现在收益的偏向,是因为生成了有用的见解模型。
比如,模型经常会计算金融阐明师计算的标注比例,然后根据 CoT 提示生成阐明这些比例的论述。
为此,钻研者将模型为给定公司年度生成的所有论述汇总,并利用 BERT 将它们编码成 768 维向量(嵌入),然后将这些向量输入到 ANN 中,并训练它预计现在收益的偏向。
结果,鉴于 GPT 论述见解训练的 ANN 达到了 59% 的准确率,这几乎与 GPT 的预计准确率(60%)一样高。
这一结果直接证明,模型生成的论述见解对现在显露具有信息性。
另外可以观察到,GPT 的预计与鉴于 GPT 论述的 ANN 预计之间,有 94% 的相关性,这就表明,这些论述编码的信息是 GPT 预计的基础。而在解释现在收益偏向上,与比例阐明相关的论述最为重要。
总之,模型之所以显露优越,原因就是鉴于 CoT 推理生成的论述。
实验结果
最新钻研中的实验评估结果,可以总结为以下三大亮点。
GPT 胜过人类金融阐明师
为了评估阐明师的预计准确性,钻研者计算了「共识预计」(即财务报表发布后一个月内各个阐明师预计的中位数),并将其作为下一年收益的预期。
这确保了阐明师预计和模型预计结果的可比性。
此外,作者还利用了利用现在三个月和六个月的「共识预计」作为可替代的预期基准。
这些基准对 LLM 不利,因为它们整合了一年中所获得的信息。不过,考虑到阐明师大概在将新信息纳入预计时较为迟缓,钻研者选择报告这些基准以供比较。
钻研职员首先对 GPT 在预计现在「收益偏向」方面的显露进行了阐明,并将其与证券阐明师的显露进行了比较。
他们注意到预计每股收益(EPS)变化是一项高度复杂的任务,因为 EPS 时间序列近似于「Random Walk」(随机游走)并且包含大量不可预计的成分。
随机游走反映了,仅根据当前收益与之前收益相比的变化的预计。
下图展示的是 GPT 和人类金融阐明师的预计性能对比结果。
结果显示,第一个月阐明师的预计,在预计现在收益偏向方面的准确率为 53%,这超过了简单模型(将前一年的变化外推)的 49% 准确率。
而阐明师三个月和六个月后的预计准确率,分别为 56% 和 57%,这是合理的,因其包含了更及时的信息。
鉴于「简单」非 CoT 提示的 GPT 预计显露为 52%,低于人类阐明师基准,这与钻研者预期一致。
然而,当利用 CoT 模拟人类推理时,他们发现 GPT 的准确率达到了 60%,显著高于阐明师的显露。
如果再去核查 F1-score(F1 评分),这是一种评估模型预计能力的替代指标(鉴于其精确度和召回率的组合),也会得出类似的结论。
这表明,在阐明财务报表以确定公司发展 偏向方面,GPT 明显击败了中位数金融阐明师的显露。
坦白讲,人类阐明师大概依赖于模型无法获得的软信息或更广泛的背景,从而增加了价值。
确实,钻研职员还发现阐明师的预计包含了 GPT 未捕捉到的,关于现在显露的有用见解。
此外,钻研显示,当人类难以做出现在预计时,GPT 的见解更有价值。
同样,在人类预计容易出现偏见或效率低(即未合理纳入信息)的情况下,GPT 的预计在预计现在收益偏向方面更有用。
GPT 与专用神经网络不相上下
钻研职员还比较了 GPT 和各种 ML 模型的预计精度。
他们选用了三种预计模型。
第一个模型「Stepwise Logistic」(逐步回归),遵循 Ou and Penman 框架,利用了 59 个财务指标预计变量。
第二个模型是,利用相同 59 个预计变量的 ANN 但也利用了它们之间的非线性和交互。
第三,为了确保 GPT 和 ANN 之间的一致性,钻研职员还利用了,鉴于提供给 GPT 的相同信息集(损益表和资产负债表)训练的 ANN 模型。
重要的是,钻研者鉴于每五年的历史数据利用 Compustat 的观察数据来训练这些模型。所有预计都是样本外的(out of sample)。
利用整个 Compustat 样本,钻研发现「逐步回归」的准确率(F1 评分)为 52.94%(57.23%),这与人类阐明师的显露相当,并且与之前的钻研一致。
相比之下,利用相同数据训练的 ANN 达到了更高的准确率 60.45%(F1 评分 61.62%),这处于最先进的收益预计模型的范围。
当利用 GPT(with CoT)预计时,发现模型在整个样本上的准确率为 60.31%,这与 ANN 的准确率非常接近。
事实上,GPT 的 F1 评分显著高于 ANN(63.45% vs. 61.6%)。
此外,当钻研职员仅利用两份财务报表的数据(输入到 GPT 中)训练 ANN 时,发现 ANN 的预计能力略低,准确率(F1 评分)为 59.02%(60.66%)。
总体而言,这些结果表明 GPT 的准确率与最先进的专用机器学习模型的准确率相当(甚至略高)。
ANN 和 GPT 预计互补
钻研职员进一步观察到,ANN 和 GPT 的预计具有互补性,因为它们都包含有用的增量信息。
并且有迹象表明,当 ANN 显露不佳时,GPT 往往显露良好。
特别是,ANN 鉴于其在过去数据中看到的训练示例来预计收益。并且,鉴于许多示例非常复杂且高度多维,其学习能力大概受到限制。
相比之下,GPT 在预计小型或亏损公司的盈利时,犯的错误相对较少,大概得益于其类似人类的推理和广泛的知识。
除此以外,钻研者还进行了几项额外的实验,鉴于 GPT 对其答案的置信度对样本进行分区,并利用了不同的 LLM 家族。
当 GPT 以更高的置信度回答时,预计往往比置信度较低的预计更准确。
与此同时,钻研证明了这一结果可以推广到其他大模型上。特别是,谷歌最近发布的 Gemini Pro,其准确率与 GPT-4 不相上下。
预计来源:增长和营业利润率
下图显示了,GPT 响应中,双词(bigram)和单词(monogram)的频率统计。
这里,双词指的是由两个连续的单词组成,在文本中一起利用;单词指的是一个单词。
图左展现的是「双词」的结果,GPT 关于财务比例阐明的答案中发现的十个最常见的「双词」。
图右列出的是,GPT 对二元盈利预计(binary earnings predictions)中,出现频率最高的十个单词。
之所以做这项阐明,是为了确定 GPT 在不同财务阐明环境中,利用最常见的术语和短语。
有趣的是,「营业利润率」(Operating Margin)和「增长」(Growth)这两个词的预计力最高。
看来,GPT 似乎已经内化了「40 法则」。
总之,所有结果表明,AI 加速发展,金融阐明师的角色将会改变。
不可否认,人类专业知识和判断力不太大概在短期内被完全取代。
但像 GPT-4 这样强大的 AI 工具大概会极大地增强和简化阐明师的工作,甚至大概在现在几年里,重塑财务报表阐明这一领域。
参考资料:
https://www.newsletter.datadrivenvc.io/p/financial-statement-analysis-with
https://x.com/tydsh/status/1794137012532081112
https://x.com/emollick/status/1794056462349861273
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311
本文来自微信公众号:新智元 (ID:AI_era)