来自伦敦大学学院、剑桥大学、牛津大学等机构的团队发布了一个神经学专用基准 BrainBench,登上了 Nature 子刊《自然人类行为(Nature Human Behavior)》。结果显示,经过该基准训练的 LLM 在预测神经科学结果的准确度高达 81.4%,远超人类专家的 63%。
全方位超越人类专家
在神经学常见的 5 个子领域:行为/认知、细胞/分子、系统/回路、神经疾病的神经生物学以及发育/塑性和修复中,LLM 的表现也都全方位超过了人类专家。
更重要的发现:掌握一般科研模式
更重要的是,这些模型被证实对于数据没有明显的记忆。也就是说,它们已经掌握了一般科研的普遍模式,可以做更多的前瞻性(Forward-looking)预测、预测未知的事物。
本文的重要结论
- 总体结果:LLMs 在 BrainBench 上的平均准确率为 81.4%,而人类专家的平均准确率为 63.4%。
-
子领域表现:LL评分。最终参与实验的神经科学专家有 171 名。
实验使用的 LLM 是经过预训练的 Mistral-7B-v0.1 模型。通过 LoRA 技术进行微调后,准确度还能再增加 3%。
评估 LLM 是否纯记忆
为了衡量 LLM 是否掌握了思维逻辑,团队还使用 zlib 压缩率和困惑度比率来评估 LLMs 是否记忆了训练数据。
部分研究者认为只能当作辅助
本文向我们展示了神经科学研究的一个新方向,或许未来在前期探索的时候,神经学专家都可以借助 LLM 的力量进行初步的科研想法筛选,剔除一些在方法、背景信息等方面存在明显问题的计划等。但同时也有很多研究者对 LLM 的这个用法表示了质疑。有人认为实验才是科研最重要的部分,任何预测都没什么必要:还有研究者认
发表评论