behavioral-evaluation

#behavioral-evaluation

主张而非描述：影响LLM关于动物福利推理的语言特征

arXiv cs.CL ↗ · 1小时前缓存

本文通过实证测量了微调数据中的十种语言特征如何改变Llama-3.2-1B关于动物福利的推理，发现断言性和道德性语言增强了支持动物福利的立场，而模糊性和描述性语言则削弱了这些立场。

0 人收藏 0 人点赞

#behavioral-evaluation

arXiv cs.AI ↗ · 2026-06-12 缓存

本文研究了自我报告的心理测量指标何时以及为何能预测大型语言模型的实际行为，发现细粒度、行为特定的工具（计划行为理论）在同一对话中达到了人类水平的连贯性，而像大五人格这样的宽泛特质则不能。

0 人收藏 0 人点赞

#behavioral-evaluation

Reddit r/MachineLearning ↗ · 2026-06-09

Phinite 作为多智能体操作系统基础设施层发布，提供一等智能体身份、可组合技能、行为评估、云无关部署以及内置可观测性。

0 人收藏 0 人点赞