金融大模型哪家强？OFLL 零样本评估告诉你答案！

Open FinLLM Leaderboard (OFLL) 是一个专门评估金融领域大型语言模型（LLM）的平台。该平台提供了一个标准化、透明和全面的框架，涵盖七大类金融任务，并使用真实金融数据进行零样本评估。最新评估结果显示，GPT-4 和 Llama 3.1 表现出色，而一些小型模型在预测任务中也展现出优势，例如 Llama-3.1-7b 和 internlm/internlm-7b。

金融领域呼唤更专业的 LLM 评测体系

近年来，大型语言模型（LLM）在各个领域都取得了突破性进展，金融领域也不例外。风险评估、投资组合优化、欺诈检测等金融任务都得益于 LLM 对海量金融数据强大的分析和预测能力。根据 Statista [1] 的数据，全球 AI 在金融领域的市场规模预计将从 2023 年的 149 亿美元增长到 2028 年的 412 亿美元，年复合增长率高达 22.4%。

然而，传统的 LLM 评估平台大多侧重于通用自然语言处理（NLP）任务，例如翻译或摘要，难以满足金融领域的特殊需求。金融任务的复杂性和专业性要求评估平台必须具备对金融领域知识的深入理解，例如对金融术语、市场动态、监管政策的掌握，才能准确评估 LLM 在真实场景中的应用效果。

正是在这种背景下，Open FinLLM Leaderboard 应运而生，为金融领域的 LLM 评估树立了新标杆。

Open FinLLM Leaderboard：聚焦金融，精准评估

Open FinLLM Leaderboard (OFLL) 是一个专门针对金融领域 LLM 的评估平台，旨在提供一个标准化、透明和全面的框架，以评估 LLM 在各种金融任务中的表现。与传统的通用 LLM 评估平台不同，OFLL 更关注模型在金融领域的专业能力，例如从金融报告中提取信息、分析市场情绪和预测金融趋势。OFLL 的一大特色是使用真实金融数据进行零样本评估，即在没有对模型进行特定任务微调的情况下进行评估。这种方法可以更客观地评估模型的泛化能力，即模型在未见过的数据上的表现。零样本评估也避免了数据泄露等问题，使得评估结果更具可靠性。

七大任务类别，全方位解读金融数据

为了全面评估 LLM 在金融领域的应用能力，OFLL 涵盖了七大类任务：

任务类别	描述	示例
信息提取 (IE)	从非结构化文本（如监管文件、合同和收益报告）中提取结构化信息，例如识别金融实体、关系和事件。	识别公司名称、股票代码、收购、合并、破产、盈利预警等信息。
文本分析 (TA)	分析金融文本的情感、观点和意图。	判断市场情绪是看涨还是看跌，识别新闻事件对市场的影响，以及分析政策声明的鹰派或鸽派倾向。
问答 (QA)	理解复杂金融问题并提供准确答案。	回答有关财务报表、市场趋势和经济指标的问题。
文本生成 (TG)	生成流畅、准确和信息丰富的金融文本。	总结冗长的金融报告、撰写投资分析报告或生成新闻稿件。
风险管理 (RM)	识别、评估和管理金融风险。	预测贷款违约风险、识别欺诈交易、以及评估投资组合风险。
预测 (FO)	预测未来市场趋势和金融指标。	预测股票价格走势、利率变化或市场波动性。
决策 (DM)	在复杂金融环境中做出明智决策。	模拟股票交易策略、制定投资组合配置方案或评估并购机会。

信息提取（IE）

信息提取任务指的是从非结构化文本中提取出结构化信息，例如识别金融实体、关系和事件。这类任务在金融领域应用非常广泛，例如：

• 从新闻报道中提取公司并购信息： 例如，识别出并购双方公司名称、交易金额、并购日期等信息。
• 从公司财报中提取关键财务数据： 例如，识别出公司的收入、利润、资产负债等信息。
• 从社交媒体讨论中提取市场情绪： 例如，识别出用户对某只股票的看涨 (bullish) 或看跌 (bearish) 观点。

文本分析（TA）

文本分析任务指的是分析金融文本的情感、观点和意图。这类任务可以帮助金融机构了解市场动态、投资者情绪以及政策走向，例如：

• 判断市场情绪： 通过分析新闻报道、社交媒体讨论等数据，判断市场对某只股票或整个市场的看涨 (bullish) 或看跌 (bearish) 观点。
• 识别新闻事件对市场的影响： 例如，分析一篇关于公司盈利预警的新闻报道，判断该事件对公司股价的影响是正面还是负面。
• 分析政策声明的鹰派或鸽派倾向： 例如，分析美联储的政策声明，判断美联储对未来利率走向的态度是鹰派 (hawkish) 还是鸽派 (dovish)。

问答 (QA)

问答任务指的是理解复杂金融问题并提供准确答案。这类任务可以帮助金融机构更高效地获取信息、进行决策，例如：

• 从财务报表中查找特定数据： 例如，查找苹果公司去年的净利润。
• 了解市场趋势和经济指标： 例如，查询当前的通货膨胀率或失业率。
• 获取金融产品信息： 例如，查询某款理财产品的收益率和风险等级。

文本生成 (TG)

文本生成任务指的是生成流畅、准确和信息丰富的金融文本。这类任务可以帮助金融机构自动生成报告、撰写分析文章，例如：

• 总结冗长的金融报告： 例如，将一份数百页的公司财报总结成一份几页的摘要，方便用户快速了解公司财务状况。
• 撰写投资分析报告： 例如，根据公司的财务数据、市场行情等信息，自动生成一份关于该公司股票的投资分析报告。
• 生成新闻稿件： 例如，根据公司的最新公告或财务数据，自动生成一篇新闻稿件。

风险管理 (RM)

风险管理任务指的是识别、评估和管理金融风险。这类任务可以帮助金融机构降低风险、提高盈利能力，例如：

• 预测贷款违约风险： 根据用户的信用历史、收入状况等信息，预测用户违约的概率，帮助银行做出是否放贷的决策。
• 识别欺诈交易： 通过分析交易数据、用户行为等信息，识别出可疑交易，防止欺诈行为的发生。
• 评估投资组合风险： 根据投资组合的构成、市场行情等信息，评估投资组合的风险水平，帮助投资者调整投资策略。

预测 (FO)

预测任务指的是预测未来市场趋势和金融指标。这类任务可以帮助金融机构制定投资策略、进行风险管理，例如：

• 预测股票价格走势： 根据过去几年的股票价格走势、相关新闻报道和市场情绪，预测某只股票未来一周的价格走势。
• 预测利率变化： 根据宏观经济数据、政策走向等信息，预测未来一段时间内利率的变化趋势。
• 预测市场波动性： 根据历史波动率、市场情绪等信息，预测未来一段时间内市场的波动性水平。

决策 (DM)

决策任务指的是在复杂金融环境中做出明智决策。这类任务可以帮助金融机构进行投资、并购等操作，例如：

• 模拟股票交易策略： 根据历史股票价格数据、市场情绪等信息，模拟不同的交易策略，评估不同策略的盈利能力和风险水平。
• 制定投资组合配置方案： 根据用户的风险偏好、投资目标等信息，制定个性化的投资组合配置方案。
• 评估并购机会： 根据目标公司的财务状况、市场地位等信息，评估并购的风险和收益，帮助企业做出是否并购的决策。

多维度指标，全方位评估模型性能

为了更全面地评估模型性能，OFLL 提供了多种评估指标，例如：

• 准确率（Accuracy）： 指模型预测正确的样本数占总样本数的比例，适用于分类任务。例如，在情感分析任务中，准确率指的是模型正确判断文本情感倾向的比例。
• F1 分数（F1 Score）： 综合考虑了模型的精确率和召回率，是评估分类模型性能的常用指标。精确率指的是模型预测为正例的样本中，真正为正例的比例；召回率指的是所有正例样本中，被模型正确预测为正例的比例。F1 分数是精确率和召回率的调和平均数，可以更全面地反映模型的分类性能。
• ROUGE 分数（ROUGE Score）： 用于评估文本生成任务中模型生成摘要的质量，通过比较模型生成摘要与参考摘要之间的重叠程度来计算。ROUGE 分数越高，说明模型生成的摘要与参考摘要越相似，质量越高。
• 马修斯相关系数（MCC）： 适用于二分类问题，综合考虑了真阳性、真阴性、假阳性和假阴性，是衡量模型预测能力的更全面指标。MCC 的取值范围为 -1 到 1，1 表示完美预测，0 表示随机预测，-1 表示完全错误预测。
• 夏普比率（Sharpe Ratio）： 用于评估投资组合的风险调整后收益，衡量模型在风险控制和收益最大化之间的平衡能力。夏普比率越高，说明投资组合的风险调整后收益越高，模型的投资决策能力越强。

最佳模型和意外发现：GPT-4 领跑，小模型也有一席之地

在 OFLL 的评估中，GPT-4 和 Llama 3.1 表现出色，在多个任务中都取得了领先的成绩，展现出强大的金融文本理解和生成能力。例如，在金融情感分析任务 FPB (Financial PhraseBank Sentiment Classification) 中，GPT-4 和 Llama 3.1 都取得了很高的准确率和 F1 分数，证明了它们在识别金融文本情感方面的优势。

下表展示了 Open FinLLM Leaderboard 截至 2023 年 12 月 1 日的最新排名：

排名	模型	平均得分	信息提取	文本分析	问答	文本生成	风险管理	预测	决策	西班牙语
1	GPT-4	39.2	35	64.4	50.7	10	51.7	54.3	75.2	32.2
2	LLaMA3.1-70B	36.2	15.7	63.6	14.7	9	0	46	49.3	0
3	Qwen2-72B	34.7	12.6	59.5	0.3	11	0	53.7	0	0
4	Xuanyuan-70B	34.4	9.3	61.4	0.7	12.5	0	51.7	0	0
5	LLaMA3.1-8B	34.3	15.6	56.2	1.3	10	0	54.3	0	0
6	Gemini	32.4	22.1	58.4	20.3	19.5	51.8	53.7	67.2	0
7	ChatGPT	29.2	26.4	59	39.3	8.5	45.6	52.7	0	30.2
8	meta-llama/Llama-2-70b	25.8	10.6	59.9	10.7	12.5	50	49	0	0
9	Duxiaoman-DI/XuanYuan-6B-Chat	25.7	11.1	54.2	3.7	12	50.7	50.3	0	39.5
10	Qwen/Qwen2-7B-Instruct	22.9	9.9	52.7	0	11	51.6	52.3	0	17.8
11	TheFinAI/finma-7b-full	21.5	12.6	48.7	8	6.5	49.7	50.7	0	15.8
12	internlm/internlm-7b	20.4	12.6	47.3	0	6.5	50.2	54.7	0	10.8

值得一提的是，在预测任务中，一些小型模型（如 Llama-3.1-7b 和 internlm/internlm-7b ）的表现甚至优于大型模型（如 LLaMA3.1-70B）。这表明，在金融预测领域，模型规模大小并非决定性因素，更需要关注模型对市场数据和情绪的敏锐感知能力。小型模型由于参数量更少，训练和推理速度更快，在处理实时性要求高的金融数据时可能更具优势。

OFLL排名榜单的使用方法

OFLL排名榜单提供了一个用户友好的界面，方便用户查看模型排名、筛选模型和提交新模型。用户可以根据自己的需求，选择要显示的任务类别，例如只关注模型在情感分析任务上的表现。

此外，用户还可以根据模型的类型、精度、大小等特征筛选模型。例如，选择只显示基于 Transformer 架构的模型，或者只显示精度为 float32 的模型。在选择任务和模型后，OFLL排名榜单会显示一个任务表，其中包含了每个模型在每个任务上的得分。用户可以点击表格的列标题对模型进行排序，例如按照平均 F1 分数排序，或者按照某个特定任务的得分排序。

如果用户想要提交自己的模型到 OFLL排名榜单进行评估，只需要提供模型的名称、描述、代码库地址等信息，以及模型的权重文件。OFLL排名榜单会自动对提交的模型进行评估，并将评估结果添加到任务表中。