Kronos:金融市场语言的基座模型

Papers with Code Trending 论文

摘要

Kronos 是一种针对金融 K 线数据的新基座模型,它采用专用分词器和自回归预训练,在预测和合成数据生成方面优于现有模型。

大规模预训练范式的成功(以大型语言模型 [LLMs] 为代表)激发了时间序列基座模型(TSFMs)的发展。然而,它们在金融烛台图(K 线)数据中的应用仍然有限,往往表现不如非预训练架构。此外,现有的 TSFMs 经常忽视波动率预测和合成数据生成等重要下游任务。为了解决这些局限性,我们提出了 Kronos,这是一个专为金融 K 线建模设计的统一、可扩展的预训练框架。Kronos 引入了专用的分词器,将连续的市场信息离散化为 token 序列,同时保留价格动态和交易活动模式。我们在包含 45 个全球交易所超过 120 亿条 K 线记录的庞大、多市场语料库上,使用自回归目标对 Kronos 进行预训练,使其能够学习细微的时间序列和跨资产表示。Kronos 在一系列多样化的金融任务中,在零样本(zero-shot)设置下表现出色。在基准数据集上,Kronos 将价格序列预测的 RankIC 提高了 93%(优于领先的 TSFM),并比最佳的非预训练基线提高了 87%。此外,它在波动率预测中将平均绝对误差(MAE)降低了 9%,并在合成 K 线序列的生成保真度上提升了 22%。这些结果确立了 Kronos 作为端到端金融时间序列分析的强大、多功能基座模型的地位。我们的预训练模型已公开提供,地址为 https://github.com/shiyu-coder/Kronos。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 08:33

论文页面 - Kronos:金融市场语言的基础模型

来源:https://huggingface.co/papers/2508.02739

摘要

Kronos 是一个专为金融 K 线数据设计的预训练框架,凭借其独特的分词器(tokenizer)和在大规模数据集上的自回归预训练,在预测和合成数据生成方面优于现有模型。

大规模预训练范式(以大语言模型 LLMs 为代表)的成功,激发了时间序列基础模型(TSFMs)的发展。然而,将其应用于金融蜡烛图(https://huggingface.co/papers?q=financial%20candlestick)(K 线)数据仍面临局限,表现往往不及非预训练架构。此外,现有的 TSFMs 经常忽视波动率预测(https://huggingface.co/papers?q=volatility%20prediction)和合成数据生成(https://huggingface.co/papers?q=synthetic%20data%20generation)等关键的下游任务。为了解决这些局限性,我们提出了 Kronos,这是一个针对金融 K 线建模量身定制的统一、可扩展的预训练框架。Kronos 引入了一种专门的分词器,将连续的市场信息离散化为 token 序列(https://huggingface.co/papers?q=token%20sequences),既保留了价格动态(https://huggingface.co/papers?q=price%20dynamics)也保留了交易活动模式(https://huggingface.co/papers?q=trade%20activity%20patterns)。我们使用自回归目标(https://huggingface.co/papers?q=autoregressive%20objective)在包含来自 45 个全球交易所的超过 120 亿条 K 线记录的超大规模、多市场语料库上对 Kronos 进行预训练,使其能够学习细微的时间和跨资产表示。Kronos 在零样本设置(https://huggingface.co/papers?q=zero-shot%20setting)下的各类金融任务中表现出色。在基准数据集上,Kronos 将价格序列预测(https://huggingface.co/papers?q=price%20series%20forecasting)的 RankIC(https://huggingface.co/papers?q=RankIC)提高了 93%(相对于领先的 TSFM),比最佳的非预训练基线提高了 87%。此外,它在波动率预测中实现了降低 9% 的 MAE(https://huggingface.co/papers?q=MAE),并将合成 K 线序列的生成保真度(https://huggingface.co/papers?q=generative%20fidelity)提高了 22%。这些结果确立了 Kronos 作为端到端金融时间序列分析的强大且通用的基础模型。我们的预训练模型可在 https://github.com/shiyu-coder/Kronos 公开获取。

查看 arXiv 页面(https://arxiv.org/abs/2508.02739)查看 PDF(https://arxiv.org/pdf/2508.02739)GitHub 23.5k auto(https://github.com/shiyu-coder/Kronos)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2508.02739)

在您的智能体中获取此论文:

hf papers read 2508\.02739

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 33

NeoQuasar/Kronos-base 时间序列预测 • 更新于 2025年9月9日 • 831k • 147(https://huggingface.co/NeoQuasar/Kronos-base)

NeoQuasar/Kronos-Tokenizer-base 时间序列预测 • 更新于 2025年9月9日 • 2.6M • 51(https://huggingface.co/NeoQuasar/Kronos-Tokenizer-base)

NeoQuasar/Kronos-mini 时间序列预测 • 更新于 2025年9月9日 • 691k • 19(https://huggingface.co/NeoQuasar/Kronos-mini)

NeoQuasar/Kronos-small 时间序列预测 • 更新于 2025年9月9日 • 1.14M • 18(https://huggingface.co/NeoQuasar/Kronos-small)

浏览引用此论文的 33 个模型(https://huggingface.co/models?other=arxiv:2508.02739)

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2508.02739 以从此页面建立链接。

引用此论文的 Spaces 42

包含此论文的合集 16

浏览包含此论文的 16 个合集(https://huggingface.co/collections?paper=2508.02739)

相似文章

用于时间序列预测的仅解码器基础模型

Papers with Code Trending

本文介绍了一篇关于时间序列基础模型(TimeFM)的研究论文,这是一种仅解码器模型,通过借鉴大型语言模型技术,在多样化的时间序列数据集上实现了近乎最佳的零样本性能。

使用合成数据构建快速多语言OCR模型

Hugging Face Blog

NVIDIA推出Nemotron OCR v2,一个使用合成数据生成技术构建的快速多语言OCR模型。该模型通过采用统一的基于FOTS的架构,在检测、识别和关系组件之间实现特征复用,在单个A100 GPU上达到34.7页/秒的性能。

用于混沌预测的时间范围约束的Rashomon集

arXiv cs.LG

介绍了时间范围约束的Rashomon集,用于表征混沌系统中模型多样性的演化。该框架证明了预测等价性的指数收缩,并开发了决策对齐算法,将决策质量提高了18-34%。