标签
本文提出了一种结合日语NLP指标和统计方法的多维文本分析方法,用于评估风险披露质量的变化,并应用于日本2019年的企业披露改革。对19,770个公司-年度观测值的分析揭示了复杂的变化,例如披露数量增加但可读性下降。
介绍了Persuasion Index (PI),一个包含15个维度和55个子特征的理论指导框架,用于分析文本中的说服修辞线索。该框架模块化、开源,并在四个数据集上进行了评估,为与说服相关的结果提供了可解释的特征空间。
本文开发了一个几何框架,利用句子嵌入来衡量文本的语义内容,提出了一个三维语义轮廓(新颖性、广度、整合性)和一个标量权衡三角形,并在合成类别和小说中进行了验证。
本文介绍了 PEEL(AI 认识参与素养协议)框架,该框架将 Voyant Tools 的确定性文本分析与 Claude 的大语言模型解释相结合,以皮尔斯符号学为理论基础,旨在揭示 AI 生成的研究摘要中的系统性失真,并促进认识论层面的问责。
本文介绍了条件假设生成(Conditional Hypothesis Generation),这是一个结合研究者指定协变量的框架,用于引导基于LLM的文本分析发现有意义的子组差异,同时解决诸如层不平衡和符号反转等混杂因素。
本文提出了一种轻标注测量诊断方法,用于评估流行的文本分析方法(词典、主题模型、词嵌入、大语言模型)在创业话语测量中捕捉实质性立场与象征性修辞的能力。研究使用了80场中国国企演讲语料库,并利用同一公司不同演讲者配对的自然实验。作者发现,零样本大语言模型表现出更高的敏感性,但效应中相当一部分可能源于演讲者个人语言风格而非实质性立场。
Granuscore是一种用于文本分析和问答的无参考粒度度量。它利用分层嵌入空间来捕捉细粒度与粗粒度语言,并在QA基准测试中展示了模型行为的一致差异。
本文揭示了机器生成文本中隐藏的类人片段的存在,并提出了一种与模型无关的堆叠增强框架,通过减少这些片段的影响来改进现有检测器。
本文提出了一种并行分块处理长文档的框架,利用LLMs减少累积偏差并提高证据可追溯性,显著降低了遗漏错误和无依据主张。
本文介绍了一种新的 embedding 模型,旨在捕捉偏好相似性,而不仅仅是语义相似性,从而提高了集体决策系统中的偏好预测能力。
研究者用四态马尔可夫链对普希金《叶甫盖尼·奥涅金》及其意大利译本中的元音/辅音模式建模,揭示结构不对称与叙事相关的音韵线索。
# 弥合社区需求与媒体内容差距的洞察 来源:[https://arxiv.org/html/2604.16651](https://arxiv.org/html/2604.16651) ## 移民之声与地方新闻:弥合社区需求与媒体内容差距的洞察 作者:Paula Dolores Rescala [paula\.rescala@epfl\.ch](https://arxiv.org/html/2604.16651v1/mailto:[email protected]),EPFL 瑞士 Victor Bros [vbros@idiap\.ch](https://arxiv.org/html/2604.16651v1/mailto:[email protected]),Idiap Research Institute 及 EPFL 瑞士 与 Daniel Gatica