当前浏览器可能无法正常运行本网站,请升级到新版浏览器。前往下载: Chrome · Firefox · Edge

每日论文

快照更新时间: 2026-03-01


2026-02-28
ARXIV

BankMathBench: A Benchmark for Numerical Reasoning in Banking Scenarios

Yunseung Lee, Subin Kim +2

2026-02-28

现有大语言模型核心银行计算中准确率低,且现有基准未充分捕捉此类错误,本文提出 BankMathBench 数据集,训练后开源大语言模型在公式生成和数值推理准确性上有显著提升,证明该数据集有效。