为分类多词表达选择特征
摘要
本文讨论了选择特征以改善多词表达分类的方法。
arXiv:2605.11779v1 公告类型:新提交
摘要:多词表达(MWEs)是一个异质性集合,亟需进行分类。设计令人满意的分类体系涉及特征的选择。在多词表达的情况下,许多特征先验可得。然而,就多词表达被可靠地分配到各类别的能力而言,并非所有特征都同等重要。因此,由此产生的分类对于计算用途可能具有不同程度的成效。我概述了一种增强型分类方法。为了提高其对多种语言的适用性,我参考了以往考虑多种语言的研究工作。
查看缓存全文
缓存时间: 2026/05/13 06:18
# 为多词表达式分类选择特征 来源:https://arxiv.org/abs/2605.11779 文献工具 ## 文献与引用工具 文献探索器 切换 代码、数据、媒体 ## 与本文相关的代码、数据和媒体 演示 ## 演示 相关论文 ## 推荐与搜索工具 关于 arXivLabs ## arXivLabs:与社区合作者共同进行的实验性项目 arXivLabs 是一个框架,允许合作者直接在我们的网站上开发并分享新的 arXiv 功能。 所有参与 arXivLabs 的个人和组织都认同并接受我们的开放、社区、卓越和用户数据隐私价值观。arXiv 致力于维护这些价值观,仅与遵守这些价值观的合作伙伴合作。 有一个能为 arXiv 社区增加价值的项目想法?**了解更多关于 arXivLabs** (https://info.arxiv.org/labs/index.html)。
相似文章
基于信息融合的文档分类模式识别:多模态与多视图表示方法的系统综述
本系统综述对139项研究进行了分析,提出了一个统一的框架和元分析,用于通过多模态和多视图信息融合进行文档分类,发现融合提高了准确性(平均提升+5.28个百分点),但也揭示了可重复性挑战。
扩展单义性:从Claude 3 Sonnet中提取可解释特征
本文展示稀疏自编码器能够从生产级语言模型Claude 3 Sonnet中提取可解释特征,解决了字典学习方法在扩展性方面的担忧。这些特征具有多语言、多模态特性,并涵盖欺骗、谄媚等安全相关概念,且对模型输出具有因果影响。
利用成对查询改进二分类中的选择性分类
本文提出使用成对查询来改进二分类中的选择性分类,特别是在置信度估计不一致的情况下(如大语言模型的上下文学习)。理论条件及在合成和真实数据集上的实验表明,基于成对查询的算法比原始置信度估计能实现更好的准确率-成本权衡。
基于理论语言学专家标准的习语性数据驱动方法
本文基于16项理论标准,对多词表达(MWEs)进行数据驱动分析,并由语言学专家进行标注,发现没有完全习语化的表达,且词汇标准影响最大。
EDU-CIRCUIT-HW:评估多模态大语言模型在真实大学级 STEM 学生手写解答上的表现
本文介绍了 EDU-CIRCUIT-HW 数据集,用于评估多模态大语言模型在真实大学级 STEM 手写解答上的表现,揭示了显著的识别局限性,并提出了一种结合自动化识别与极少人工监督的混合方法,以增强评分的鲁棒性。