卡在独特的NLP难题上[D]

Reddit r/MachineLearning 新闻

摘要

开发者寻求在不依赖大模型的情况下对英-印混写文本进行分类的建议,因为句子变换器在处理罗马化印地语时完全失效。

简单来说,我正在开发一款需要给文本打标签的应用。问题在于文本可能是纯英文、纯印地语,或者印地语+英文(用英文字母拼写的印地语)。我自然想到用句子变换器,但它对印地+英文混写文本的表现惨不忍睹——模型完全捕捉不到这类句子的语义。我知道上大模型能搞定,但会让应用变得太重。我也考虑过音译转写,可效果不准还会把文本弄坏。有人遇到过类似情况吗?该往哪个方向走?
查看原文

相似文章

并非放之四海而皆准:多语言大语言模型中从固定提示到可学习路由的演进

arXiv cs.CL

# 并非放之四海而皆准:多语言大语言模型中从固定提示到可学习路由的演进 来源:[https://arxiv.org/html/2604.16937](https://arxiv.org/html/2604.16937) Wei-Chi Wu, Sheng-Lun Wei, Hen-Hsen Huang, Hsin-Hsi Chen α 台湾大学电脑科学与资讯工程学系,台湾 β 中央研究院资讯科学研究所,台湾 γ 台湾大学人工智能研究中心(AINTU),台湾 wcwu@c

大语言模型预训练的数据混合:综述与展望

arXiv cs.CL

# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混

Brain-CLIPLM:基于脑电压缩语义表征的语言重建解码

arXiv cs.CL

研究人员提出Brain-CLIPLM,一个两阶段脑电到文本解码框架,利用对比学习提取语义锚点,并结合基于检索的大语言模型(LLM)及思维链(CoT)推理进行句子重建。该方法在测试中达到67.55%的Top-5句子检索准确率和85.00%的Top-25准确率,显著优于直接解码基线模型,跨被试评估证实了其良好的泛化能力。研究结果表明,脑电到文本解码应聚焦于恢复压缩后的语义内容,而非完整句子重建。