向大语言模型发送PII数据
摘要
讨论向大语言模型发送个人身份信息(PII)的风险和注意事项。
暂无内容
相似文章
大语言模型中的预训练数据暴露:成员推理、数据污染及安全影响综述
统一综述大语言模型中的预训练数据暴露(PDE),涵盖成员推理、数据污染和安全影响,并回顾了攻击与防御方法。
@pallavishekhar_: https://x.com/pallavishekhar_/status/2058460434035060758
解释大型语言模型实际所做的工作(下一个Token预测),以及为什么即使出错时它们听起来也很有信心。提供了一种心智模型和验证检查清单,用于安全使用LLM。
大型语言模型能否对检索到的信息保持审慎态度?
本文研究了大型语言模型如何适应检索信息的确定程度,指出了其在处理不确定性方面的系统性局限。论文提出了一种交互策略,在不修改模型权重的前提下,将顺从错误降低了 25%。
迈向LLM的下一个前沿:私有数据训练——联邦微调的跨域基准
本文提出了一个在私有数据上对大型语言模型进行联邦微调的跨域基准,评估了LoRA、QLoRA和IA3策略在医疗和金融数据集上的表现。结果表明,联邦微调接近集中式训练的性能,并优于孤立学习,证明了在数据无法共享时通过联邦微调适配LLM的可行性。
大语言模型预训练的数据混合:综述与展望
# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混