芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

【新智元导读】GPT-4 在为人类选股时，显露竟然超越了大部分人类阐明师，和针对金融训练的专业模型？在没有任何上下文的情况下，它们直接就成功阐明了财务报表，这一发现让许多业内大咖震惊了。然而好景不长，有 AI 大牛指出钻研中的 bug：之所以会这样，很大概是训练数据被污染了。最近，各位业内大咖都被芝大的一篇论文震惊了。钻研者发现，由 GPT-4 帮忙选择的股票，直接击败了人类！同时也 pk 掉了许多其他针对金融训练的机器学习模型。最让他们震惊的是，LLM 可以在没有任何论述上下文的情况下，就成功阐明财务报表中的数字

【新智元导读】GPT-4 在为人类选股时，显露竟然超越了大部分人类阐明师，和针对金融训练的专业模型？在没有任何上下文的情况下，它们直接就成功阐明了财务报表，这一发现让许多业内大咖震惊了。然而好景不长，有 AI 大牛指出钻研中的 bug：之所以会这样，很大概是训练数据被污染了。

最近，各位业内大咖都被芝大的一篇论文震惊了。

钻研者发现，由 GPT-4 帮忙选择的股票，直接击败了人类！同时也 pk 掉了许多其他针对金融训练的机器学习模型。

最让他们震惊的是，LLM 可以在没有任何论述上下文的情况下，就成功阐明财务报表中的数字！

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

论文地址：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311

具体来说，在预计收益的变化上，LLM 比经验丰富的金融阐明师都更出色。尤其是在选股时，人类阐明师会面临一些难以应对的场景，导致预计结果存在偏见、效率低下，这时 LLM 就显露出了巨大的优势。

并且，LLM 做出的预计，不仅仅是回忆训练数据，比如 GPT-4 提供的有洞察力的阐明，甚至能揭示一家公司现在潜在的显露。

GPT-4 的显露一骑绝尘，直接比其他模型实现了更高的夏普比例（Sharpe ratio）和阿尔法（alpha）。

沃顿商学院教授 Ethan Mollick 盛赞：这是一篇众人翘首以盼的论文。

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

也有网友感慨道：以后在股市中操盘的，是人还是 AI 都不好说了……

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

然而，就在大家激动之时，有细心的钻研职员给这项钻研泼了冷水：之所以能取得这个结果，很大概是由于训练数据的污染造成的。

AI 大牛田渊栋也表示，GPT-4 的优异显露，不排除是训练数据集中包括了现在的股票价格，因此 GPT-4 直接开了挂，据此对 2021 年起的股票样本进行了选择。

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

至于测试 GPT-4 是否开了挂，理论上并不复杂：只要获取股票的历史记录，将其重命名为某个新代码，将其输入来测试就可以了。

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

钻研内容

怎样衡量 LLM 在现在决策中的作用？在这项钻研中，钻研者衡量的标准，就是让 LLM 进行财务报表阐明（FSA）。

之所以进行 FSA，主要是为了了解公司的财务健康状况，并确定其业绩是否可持续。

FSA 并不简单，它是一个定量任务，需要大量阐明趋势和比例，还涉及批判性思维、推理能力和复杂判断。通常，这个任务是由金融阐明师和投资专业人士来完成的。

在钻研中，钻研者会将两份标准的财务报表 —— 资产负债表和损益表扔给 GPT-4 Turbo，它的任务是：阐明公司接下来的收益是会增长还是下降。

注意，这项钻研中有一个关键的设计，就是绝不向 LLM 提供任何文本信息，LLM 能参考的，只有纯粹的报表。

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

钻研者预计，LLM 的显露，大概率会比专业的人类阐明师差。

原因在于，阐明财务报表这项任务，非常复杂，涉及许多模糊性的东西，需要很大常识、直觉和人类思维的灵活性。

而且，LLM 目前的推理和判断能力还很不足，并且也缺乏对于行业和宏观经济的理解。

另外，钻研者还预计 LLM 的显露也会弱于专用的机器学习应用，比如为收益预计的人工神经网络（ANN）。

因为，ANN 允许模型学习深层次的交互，这些交互中包含了重要线索，通用模型是很难获取这些线索的。除非，通用模型能鉴于不完整的信息，或从未见过的情景，进行直觉推理、形成假设。

实验结果却令他们大吃一惊：LLM 竟然 pk 掉了许多人类阐明师和专用的神经网络，显露出了更优异的成绩！

实验步骤

评测 LLM 的具体显露如何，需要从以下两个步骤展开。

首先，钻研职员对公司的财务报表进行匿名化和标准化处理，防止 LLM 记住公司的潜在大概。

特别是，他们从资产负债表和损益表中，省去了公司的名称，并用标签（如 t 和 t-1）替换年份。

此外，钻研者还按照 Compustat 的平衡模型，标准化资产负债表和损益表的格式。

这种方法，可以确保财务报表的格式，在所有公司年度统计中都是相同的，因此 LLM 也不知道其阐明对应的是哪家公司或哪个时间段。

在第二阶段中，钻研职员设计了一个指令，指导 LLM 进行财务报表阐明，并确定现在收益偏向。

除了简单的指令外，他们还开发了一个 CoT 指令，实际上是「教」LLM 以人类金融阐明师的思维过程进行阐明。

具体来说，金融阐明师在阐明中会识别财务报表中显著的趋势，计算关键财务比例（如经营效率、流动性和杠杆比例），综合这些信息，并形成对现在收益的预期。

钻研职员创建的 CoT 指令，便是通过一系列步骤，来实现这个思维过程。

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

在数据集选用上，钻研职员利用 Compustat 数据库来测试模型的显露，并在必要时与 IBES 数据库交叉利用。

样本涵盖了从 1968-2021 年之间，15401 家公司的 150678 个公司的年度数据。

阐明师的样本涵盖了 1983-2021 年期间，包含 3152 家公司的 39533 个观察数据。

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

LLM 为何如此成功

对于这个结果，钻研者提出了两种假设。

第一种假设是，GPT 的显露完全是由近乎完美的记忆驱动的。

GPT 很大概是从数据中推断出了公司的身份和年份，然后将这些信息与新闻中学到的关于该公司的情感相匹配。

为此，钻研者试图排除这种大概。并且，也利用了 GPT-4 训练期以外的全新数据，复制了结果。

第二种假设是，GPT 之所以能推断出现在收益的偏向，是因为生成了有用的见解模型。

比如，模型经常会计算金融阐明师计算的标注比例，然后根据 CoT 提示生成阐明这些比例的论述。

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

为此，钻研者将模型为给定公司年度生成的所有论述汇总，并利用 BERT 将它们编码成 768 维向量（嵌入），然后将这些向量输入到 ANN 中，并训练它预计现在收益的偏向。

结果，鉴于 GPT 论述见解训练的 ANN 达到了 59% 的准确率，这几乎与 GPT 的预计准确率（60%）一样高。

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

这一结果直接证明，模型生成的论述见解对现在显露具有信息性。

另外可以观察到，GPT 的预计与鉴于 GPT 论述的 ANN 预计之间，有 94% 的相关性，这就表明，这些论述编码的信息是 GPT 预计的基础。而在解释现在收益偏向上，与比例阐明相关的论述最为重要。

总之，模型之所以显露优越，原因就是鉴于 CoT 推理生成的论述。

实验结果

最新钻研中的实验评估结果，可以总结为以下三大亮点。

GPT 胜过人类金融阐明师

为了评估阐明师的预计准确性，钻研者计算了「共识预计」（即财务报表发布后一个月内各个阐明师预计的中位数），并将其作为下一年收益的预期。

这确保了阐明师预计和模型预计结果的可比性。

此外，作者还利用了利用现在三个月和六个月的「共识预计」作为可替代的预期基准。

这些基准对 LLM 不利，因为它们整合了一年中所获得的信息。不过，考虑到阐明师大概在将新信息纳入预计时较为迟缓，钻研者选择报告这些基准以供比较。

钻研职员首先对 GPT 在预计现在「收益偏向」方面的显露进行了阐明，并将其与证券阐明师的显露进行了比较。

他们注意到预计每股收益（EPS）变化是一项高度复杂的任务，因为 EPS 时间序列近似于「Random Walk」（随机游走）并且包含大量不可预计的成分。

随机游走反映了，仅根据当前收益与之前收益相比的变化的预计。

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

下图展示的是 GPT 和人类金融阐明师的预计性能对比结果。

结果显示，第一个月阐明师的预计，在预计现在收益偏向方面的准确率为 53%，这超过了简单模型（将前一年的变化外推）的 49% 准确率。

而阐明师三个月和六个月后的预计准确率，分别为 56% 和 57%，这是合理的，因其包含了更及时的信息。

鉴于「简单」非 CoT 提示的 GPT 预计显露为 52%，低于人类阐明师基准，这与钻研者预期一致。

然而，当利用 CoT 模拟人类推理时，他们发现 GPT 的准确率达到了 60%，显著高于阐明师的显露。

如果再去核查 F1-score（F1 评分），这是一种评估模型预计能力的替代指标（鉴于其精确度和召回率的组合），也会得出类似的结论。

这表明，在阐明财务报表以确定公司发展偏向方面，GPT 明显击败了中位数金融阐明师的显露。

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

坦白讲，人类阐明师大概依赖于模型无法获得的软信息或更广泛的背景，从而增加了价值。

确实，钻研职员还发现阐明师的预计包含了 GPT 未捕捉到的，关于现在显露的有用见解。

此外，钻研显示，当人类难以做出现在预计时，GPT 的见解更有价值。

同样，在人类预计容易出现偏见或效率低（即未合理纳入信息）的情况下，GPT 的预计在预计现在收益偏向方面更有用。

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

GPT 与专用神经网络不相上下

钻研职员还比较了 GPT 和各种 ML 模型的预计精度。

他们选用了三种预计模型。

第一个模型「Stepwise Logistic」（逐步回归），遵循 Ou and Penman 框架，利用了 59 个财务指标预计变量。

第二个模型是，利用相同 59 个预计变量的 ANN 但也利用了它们之间的非线性和交互。

第三，为了确保 GPT 和 ANN 之间的一致性，钻研职员还利用了，鉴于提供给 GPT 的相同信息集（损益表和资产负债表）训练的 ANN 模型。

重要的是，钻研者鉴于每五年的历史数据利用 Compustat 的观察数据来训练这些模型。所有预计都是样本外的（out of sample）。

利用整个 Compustat 样本，钻研发现「逐步回归」的准确率（F1 评分）为 52.94%（57.23%），这与人类阐明师的显露相当，并且与之前的钻研一致。

相比之下，利用相同数据训练的 ANN 达到了更高的准确率 60.45%（F1 评分 61.62%），这处于最先进的收益预计模型的范围。

当利用 GPT（with CoT）预计时，发现模型在整个样本上的准确率为 60.31%，这与 ANN 的准确率非常接近。

事实上，GPT 的 F1 评分显著高于 ANN（63.45% vs. 61.6%）。

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

此外，当钻研职员仅利用两份财务报表的数据（输入到 GPT 中）训练 ANN 时，发现 ANN 的预计能力略低，准确率（F1 评分）为 59.02%（60.66%）。

总体而言，这些结果表明 GPT 的准确率与最先进的专用机器学习模型的准确率相当（甚至略高）。

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

ANN 和 GPT 预计互补

钻研职员进一步观察到，ANN 和 GPT 的预计具有互补性，因为它们都包含有用的增量信息。

并且有迹象表明，当 ANN 显露不佳时，GPT 往往显露良好。

特别是，ANN 鉴于其在过去数据中看到的训练示例来预计收益。并且，鉴于许多示例非常复杂且高度多维，其学习能力大概受到限制。

相比之下，GPT 在预计小型或亏损公司的盈利时，犯的错误相对较少，大概得益于其类似人类的推理和广泛的知识。

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

除此以外，钻研者还进行了几项额外的实验，鉴于 GPT 对其答案的置信度对样本进行分区，并利用了不同的 LLM 家族。

当 GPT 以更高的置信度回答时，预计往往比置信度较低的预计更准确。

与此同时，钻研证明了这一结果可以推广到其他大模型上。特别是，谷歌最近发布的 Gemini Pro，其准确率与 GPT-4 不相上下。

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

预计来源：增长和营业利润率

下图显示了，GPT 响应中，双词（bigram）和单词（monogram）的频率统计。

这里，双词指的是由两个连续的单词组成，在文本中一起利用；单词指的是一个单词。

图左展现的是「双词」的结果，GPT 关于财务比例阐明的答案中发现的十个最常见的「双词」。

图右列出的是，GPT 对二元盈利预计（binary earnings predictions）中，出现频率最高的十个单词。

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

之所以做这项阐明，是为了确定 GPT 在不同财务阐明环境中，利用最常见的术语和短语。

有趣的是，「营业利润率」（Operating Margin）和「增长」（Growth）这两个词的预计力最高。

看来，GPT 似乎已经内化了「40 法则」。

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

总之，所有结果表明，AI 加速发展，金融阐明师的角色将会改变。

不可否认，人类专业知识和判断力不太大概在短期内被完全取代。

但像 GPT-4 这样强大的 AI 工具大概会极大地增强和简化阐明师的工作，甚至大概在现在几年里，重塑财务报表阐明这一领域。

参考资料：

https://www.newsletter.datadrivenvc.io/p/financial-statement-analysis-with

https://x.com/tydsh/status/1794137012532081112

https://x.com/emollick/status/1794056462349861273

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311

本文来自微信公众号：新智元（ID：AI_era）

{{userData.name}}已认证

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染

钻研内容

实验步骤

LLM 为何如此成功

实验结果

GPT 胜过人类金融阐明师

GPT 与专用神经网络不相上下

预计来源：增长和营业利润率

30 亿参数“从 0 到 1”，摩尔线程 / 无问芯穹“千卡集群”行业内首次完成国产 GPU 端到端 AI 大模型实训

ChatGPT 开启 macOS 公测版本下载：快捷键启动、支持识屏答疑

MIT计算机科学家意外发现，量子纠缠会「突然消亡」

百度英伟达联合举办！全球规模最大智能体大赛开幕

深度学习还不如浅层网络？RL教父Sutton持续反向传播算法登Nature

比尔・盖茨用 AI 对付蚊子，助力消灭疟疾

我有一个「赛博爱人」，拥有超长记忆，还能给足情绪价值

Karpathy狂赞AI代码神器Cursor，直言回不到3年前无辅助编码了，却被指「带货」

AI 行业风光背后：80% 项目会失败，5 大原因导致

新手必看！5 款 Flux 实用基础工作流（附资源包）