natural-language-processing

#natural-language-processing

为什么AI系统仍然难以理解人类对话中的不确定性？

Reddit r/artificial ↗ · 2026-06-19

本文探讨了为何AI系统在理解人类对话中的不确定性和歧义方面存在困难，并强调了自然语言理解领域持续面临的挑战。

0 人收藏 0 人点赞

#natural-language-processing

@jreuben1: Speech and Language Processing（第3版草案）Dan Jurafsky 和 James H. Martin https://web.stanford.edu/~jurafsky/slp3…

X AI KOLs Following ↗ · 2026-06-19 缓存

2026年1月6日发布的《Speech and Language Processing》第3版草案由Dan Jurafsky和James H. Martin撰写，采用了修订后的结构，重点关注大型语言模型并更新了章节。

0 人收藏 0 人点赞

#natural-language-processing

用于序列标注的近似结构化扩散

arXiv cs.CL ↗ · 2026-06-18 缓存

本文介绍了近似结构化扩散（Approximate Structured Diffusion），一种将条件随机场（CRF）与离散扩散相结合用于序列标注的方法。它使用以噪声标签序列为条件的CRF和近似平均场推理，在词性标注上实现了16.5%的错误率降低。

0 人收藏 0 人点赞

#natural-language-processing

PEC-Home：智能家居中递进省略命令的解释

arXiv cs.CL ↗ · 2026-06-18 缓存

本文介绍了PEC-Home，一个用于解释智能家居中递进省略命令的模拟家居数据集，并发现当前基于LLM的助手由于指代歧义和意图歧义而难以处理此类命令。

0 人收藏 0 人点赞

#natural-language-processing

可能还是确定？评估临床文本中诊断不确定性保持能力的基准

arXiv cs.CL ↗ · 2026-06-18 缓存

本文介绍了一个包含1,200份临床文档和9,184条不确定性标注的基准，用于评估LLMs是否能在临床文本中保持诊断不确定性，结果发现LLMs常常无法保留原始不确定性线索，且在细微区别上表现不佳。

0 人收藏 0 人点赞

#natural-language-processing

自我评价之言：大语言模型在机器翻译中的口头化置信度研究

arXiv cs.CL ↗ · 2026-06-17 缓存

本文研究了从大语言模型中提取机器翻译输出置信度的口头化方法，并将其与内部token概率进行了比较。研究发现，尽管两种方法在错误检测和校准方面表现相似，但内部置信度与口头化置信度之间几乎没有相关性。

0 人收藏 0 人点赞

#natural-language-processing

Web规模LLM预训练数据中叙事内容的特征刻画

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

对Web规模LLM预训练数据中叙事特征的细粒度研究，引入了NarraBERT和NarraDolma来测量叙事模式及其在不同来源中的分布。

0 人收藏 0 人点赞

#natural-language-processing

Sumi：从头训练的开放均匀扩散语言模型

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

Sumi 是一个 7B 参数的均匀扩散语言模型，在 1.5T token 上从头预训练，在知识和推理任务上取得了有竞争力的性能，同时完全开源，发布了模型权重和训练方案。

0 人收藏 0 人点赞

#natural-language-processing

将示例提炼为任务指令：面向真实B2B对话的增强型上下文学习

arXiv cs.CL ↗ · 2026-06-16 缓存

本文介绍了用于分类真实B2B对话的Call Playbook数据集，并提出将示例提炼为紧凑、可解释的任务指令的方法，相比传统上下文学习实现了99%的Token压缩和高达7%的AUC提升。

0 人收藏 0 人点赞

#natural-language-processing

大语言模型能否可靠识别失语症语篇中的正确信息单元？

arXiv cs.AI ↗ · 2026-06-16 缓存

本研究探究了经过指令微调的大语言模型（Llama-3.1-8B、Qwen2.5-7B、Mistral-7B、Phi-3-mini）能否可靠地分类失语症语篇转录中的正确信息单元。少样本提示使三个模型获得了具有竞争力的F1分数（0.776–0.817），但性能因严重程度而异，且与人类标注的一致性仍不足以实现完全自主使用。

0 人收藏 0 人点赞

#natural-language-processing