fine-grained

#fine-grained

量化情感差距：大语言模型在细粒度情感分类上的零样本评估

arXiv cs.CL ↗ · 5天前缓存

本文对三种大语言模型（Claude、GPT-5.4、Gemini）在13类情感分类任务上进行了零样本评估，发现所有模型的准确率均未超过39.9%，并揭示了在爱、困惑、羞耻等特定情感上的系统性失败。

0 人收藏 0 人点赞

#fine-grained

物理问题场景图：文本到视频生成中物理合理性的细粒度评估

Hugging Face Daily Papers ↗ · 2026-06-24 缓存

物理问题场景图（PQSG）是一种基于层次化问题的评估流程，利用视觉语言模型（VLM）对视频生成模型的物理合理性进行细粒度的违规检测。该工作引入了FinePhyEval数据集，并显示出比以往工作更高的与人类判断的相关性。

0 人收藏 0 人点赞

#fine-grained

CHILLGuard：面向细粒度中文大模型安全护栏的可扩展数据构建与模型感知偏好对齐

arXiv cs.CL ↗ · 2026-06-16 缓存

本文介绍了CHILLGuard，一个基于新的5大类、31小类风险分类体系和可扩展多阶段数据构建流程的细粒度中文大模型内容安全护栏。该模型实现了最先进的性能，在F1分数上相比现有基线提升了15.92%。

0 人收藏 0 人点赞

#fine-grained

GENIE：一种用于衡量新颖性的细粒度指标

arXiv cs.CL ↗ · 2026-06-12 缓存

GENIE 是一种细粒度评估指标，用于衡量大语言模型在特定任务特征上的响应新颖性，相比整体性指标能提供更多洞察。

0 人收藏 0 人点赞

#fine-grained

FineVerify：通过细粒度自我验证扩展智能搜索的测试时计算

Hugging Face Daily Papers ↗ · 2026-05-30 缓存

FineVerify是一个针对智能搜索的自我验证框架，它将问题分解为子问题，验证采样候选，并选择最佳候选，在多个基准测试上取得了相对于基线的显著准确率提升，包括使GPT-5-mini在BrowseComp-Plus上超越GPT-5。

0 人收藏 0 人点赞

#fine-grained

@AdinaYakup: Qwen @Alibaba_Qwen 刚刚发布了一个新的文本到图像基准测试和一个评判模型 https://huggingface.co/collections/Qwen/q…

X AI KOLs Following ↗ · 2026-05-28 缓存

Qwen 发布了一个新的文本到图像基准测试，包含56个细粒度评估维度，衡量超越提示对齐的创造力，并包含一个与人类对齐的评判模型。

0 人收藏 0 人点赞

#fine-grained

ClaimDiff-RL：通过视觉声明比较进行细粒度描述强化学习

arXiv cs.LG ↗ · 2026-05-21 缓存

介绍了ClaimDiff-RL，一种用于长格式图像描述的强化学习框架，该框架使用类型化、可验证的声明差异作为奖励单元，分别衡量和平衡幻觉与缺失事实，从而提高忠实度和覆盖率。

0 人收藏 0 人点赞

#fine-grained

面向基础模型综合评估的细粒度基准生成

arXiv cs.LG ↗ · 2026-05-20

一种新的自动化基准生成框架能够实现基础模型的细粒度、全面评估，具有更低的错误率和更丰富的元数据，在机器学习、公司金融和个人金融基准上得到了验证。

0 人收藏 0 人点赞

#fine-grained

是时候 REFLECT 了：我们能信任 LLM 评判者来评估基于证据的研究代理吗？

arXiv cs.CL ↗ · 2026-05-20 缓存

本文介绍了 REFLECT，这是一个用于评估 LLM 评判者在深度研究代理评估中可靠性的元评估基准。实验表明，当前的 LLM 评判者仍然不可靠，在推理、工具使用和报告质量失败方面的整体准确率低于 55%。

0 人收藏 0 人点赞

#fine-grained

迈向细粒度且可验证的Concept Bottleneck Models

arXiv cs.LG ↗ · 2026-05-15 缓存

本文提出了一种细粒度的Concept Bottleneck Model框架，将每个概念锚定在局部视觉证据上，从而能够直接验证概念的正确性，并提高医学成像任务的透明度。

0 人收藏 0 人点赞

#fine-grained

DVMap: 通过高共识人口统计-价值映射实现细粒度多元价值对齐

arXiv cs.AI ↗ · 2026-05-15 缓存

本文介绍了DVMap，一个用于大语言模型细粒度多元价值对齐的框架，它使用高共识的人口统计-价值映射，而非粗略的国家标签，从而在跨人口统计、跨国家和跨价值维度上实现了强的泛化能力。

0 人收藏 0 人点赞

#fine-grained

CFMS：面向可解释细粒度中文多模态讽刺检测基准

arXiv cs.CL ↗ · 2026-04-21 缓存

北京大学研究人员提出了CFMS，这是首个细粒度中文多模态讽刺检测基准，包含2,796个图像-文本对和三级标注框架（讽刺识别、目标识别、解释生成），以及一种新颖的强化学习增强上下文学习方法（PGDS），该方法显著优于现有基线。

0 人收藏 0 人点赞

fine-grained

提交意见反馈