tabular-data

#tabular-data

LLM 无法认知自身知识局限：通过临床表格数据上的跨模型归因差异检测认知盲点

arXiv cs.AI ↗ · 4天前缓存

本文探讨了大语言模型在结构化临床数据上无法识别自身知识局限的问题，提出了一种跨模型归因差异方法来检测认知盲点。该方法结合少样本示例和 SHAP 衍生的特征证据，无需训练即可改进校准性和准确性。

0 人收藏 0 人点赞

#tabular-data

PSyGenTAB: 一种通过约束优化生成合成临床表格数据的隐私保护框架

arXiv cs.LG ↗ · 6天前缓存

PSyGenTAB是一种隐私保护框架，使用约束优化生成合成临床表格数据，平衡隐私与实用性，同时保留临床关系和少数类模式。

0 人收藏 0 人点赞

#tabular-data

何时、何地、如何：面向表格自监督学习的自适应分箱方法

Hugging Face Daily Papers ↗ · 6天前缓存

本文提出自适应分箱（Adaptive Binning），一种针对表格自监督学习的、与学习过程耦合的特征级粗到细课程，能够自适应地离散化特征，在医学数据集上提升表示质量，并建立了统一的基准测试。

0 人收藏 0 人点赞

#tabular-data

面向有限语义表格数据的大型语言模型：来自工业车辆改装预测的证据

arXiv cs.LG ↗ · 2026-06-16 缓存

本文评估了基于大型语言模型（LLM）的策略（嵌入、提示、混合）与经典表格模型在一个包含哈希化类别特征的工业车辆改装预测数据集上的表现。研究发现，树集成整体上优于LLM，但嵌入和混合方法仍有价值，而在缺乏语义线索时直接提示失败。

0 人收藏 0 人点赞

#tabular-data

超维计算在表格数据嵌入的结构化查询中的应用

arXiv cs.AI ↗ · 2026-06-15 缓存

本文提出使用超维计算（特别是全息简化表示）对表格数据行进行嵌入以实现结构化查询，从而获得可解释的相似性阈值和零匹配检测，在行检索任务上优于基线方法。

0 人收藏 0 人点赞

#tabular-data

LLM-as-a-Discriminator：当合成表格看起来仍然真实

arXiv cs.LG ↗ · 2026-06-10 缓存

本文提出了一种基于LLM鉴别的方法，用于审计合成表格数据的隐私，通过让LLM将样本分类为真实或合成，表明LLM鉴别可以作为一种实用的隐私审计信号。

0 人收藏 0 人点赞

#tabular-data

基于FT-Transformer和堆叠集成对结构化数据进行客户流失预测

arXiv cs.LG ↗ · 2026-06-09 缓存

本文提出了一种混合架构，将FT-Transformer与梯度提升树通过校准感知的堆叠方法相结合，用于结构化表格数据上的客户流失预测。在一个公开的银行客户流失数据集上，该方法在F1和AUC-ROC指标上取得了改进。

0 人收藏 0 人点赞

#tabular-data

基于表格基础模型的统一且数据高效的预测与健康管理

arXiv cs.LG ↗ · 2026-06-05 缓存

本文提出一个框架，将表格基础模型应用于工业时间序列的预测与健康管理，在多个PHM任务上展示了强大的性能和高效的数据利用率。

0 人收藏 0 人点赞

#tabular-data

Geometry-Aware Tabular Diffusion

arXiv cs.LG ↗ · 2026-06-03 缓存

介绍了Geometry-Aware Tabular Diffusion（GATD），该方法通过显式的成对几何特征增强表格扩散去噪器。在十个基准测试上取得了最先进的性能，同时使用的参数显著更少。

0 人收藏 0 人点赞

#tabular-data

为什么金融机构正汇聚于交易基础模型以构建自身智能

NVIDIA Blog ↗ · 2026-06-02 缓存

金融机构正从孤立的AI模型转向基于Transformer架构的统一交易基础模型，如NVIDIA的报告和Revolut的PRAGMA模型所示，该模型改善了欺诈检测、信用评分和推荐，同时减少了特征工程工作量。

0 人收藏 0 人点赞

#tabular-data

@vintcessun: 数值数据集连列名都不一样，怎么让AI跨表检索、对齐？现有嵌入方法遇到异构表直接失灵，LLM也束手无策。这个问题卡住了跨数据集RAG、算法选择、仿真初始化——没有共同特征名，相似性匹配只能靠猜。论文提出：对每个表算20+统计描述符（均值…

X AI KOLs Timeline ↗ · 2026-05-30 缓存

这篇论文提出了一种通过统计描述符和句子嵌入来对异构数值表格数据集进行跨表检索和对齐的方法，无需共享列名即可实现相似性匹配与可解释的变量级对应。

0 人收藏 0 人点赞

#tabular-data

ChainzRule：跨表格、NLP与视觉任务的样本高效、鲁棒的深度学习

arXiv cs.LG ↗ · 2026-05-26 缓存

ChainzRule 提出了一种具有可学习多项式层和微分正则化的神经架构，在表格、NLP和视觉任务上实现了样本高效且鲁棒的性能，在Pima Diabetes、SST-5、Yelp Full和CIFAR-10-C数据集上取得了成果。

0 人收藏 0 人点赞

#tabular-data

从残差到推理：基于LLM的表格数据机制推断

arXiv cs.LG ↗ · 2026-05-25 缓存

介绍了多智能体残差上下文学习（MARICL），这是一种智能体框架，利用LLM智能体分析基础模型在表格数据上的残差，假设缺失的结构，并通过文本梯度优化产生显式的修正项。在九个基准测试中，MARICL持续优于其基础模型，并在无细胞蛋白质预测中展示了机制泛化能力。

0 人收藏 0 人点赞

#tabular-data

Alike Parts：一种基于特征信息的局部和全局原型解释方法

arXiv cs.LG ↗ · 2026-05-22 缓存

本文提出了一种基于原型的解释框架，该框架在局部和全局层面整合特征重要性，利用“alike parts”突出相关特征子集，并通过特征多样性增强原型选择，在表格数据集上进行了评估。

0 人收藏 0 人点赞

#tabular-data

TabPFN-MT: 一种面向表格数据的原生多任务上下文学习器

arXiv cs.LG ↗ · 2026-05-21 缓存

TabPFN-MT 将 PFN 扩展到表格数据的多任务上下文学习，在小到中等规模数据集上取得了最先进的结果，同时将推理成本从 O(T) 次前向传播降低到 O(1) 次。

0 人收藏 0 人点赞

#tabular-data

当表格基础模型遇到策略性表格数据：一种先验对齐方法

arXiv cs.AI ↗ · 2026-05-20

本文研究了基于预训练先验数据拟合网络的表格基础模型是否能够泛化到个体在部署后修改特征的策略性表格数据。提出了策略性先验数据拟合网络（SPN），这是一个无需重新训练即可将PFN预测与操纵后分布对齐的推理时框架。

0 人收藏 0 人点赞

#tabular-data

避免表格数据公平半监督学习中的结构性失效模式：基于置信度门控的在线原始-对偶分配

arXiv cs.LG ↗ · 2026-05-19 缓存

本文识别了置信度门控下表格数据公平半监督学习中的结构性失效模式，并提出了在线原始-对偶分配（OPDA）来缓解这些问题，无需针对每个数据集进行调参。

0 人收藏 0 人点赞

#tabular-data

TabPFN-3：技术报告

arXiv cs.LG ↗ · 2026-05-15 缓存

TabPFN-3 是一个新的表格数据基础模型，在合成数据上预训练，可扩展到 100 万训练行，同时减少训练和推理时间，在表格预测、时间序列和关系数据上实现了最先进的性能。

0 人收藏 0 人点赞

#tabular-data

无需数据清洗即可获得高质量预测（为何“垃圾进，垃圾出”有时是一种误区）

Reddit r/artificial ↗ · 2026-05-13

这篇arXiv预印本挑战了“垃圾进，垃圾出”的经验法则，认为在高维表格数据中，激进的手动数据清洗可能会通过减少三角测量潜在驱动因素所需的维度，从而限制预测性能。

0 人收藏 0 人点赞

#tabular-data

TabPFN-3刚刚发布：一款支持高达100万行的预训练表格基础模型 [R][N]

Reddit r/MachineLearning ↗ · 2026-05-12

TabPFN-3，一款预训练的表格基础模型已发布。该模型在单个GPU上支持高达100万行数据，推理速度提升10倍至1000倍，在基准测试中对比经典机器学习方法胜率高达93%。

0 人收藏 0 人点赞

tabular-data

提交意见反馈