标签
提出了一种将图嵌入高维空间并搜索信息性二维视角的方法,这些视角优化了美学和可读性指标(例如边交叉和角分辨率),这得益于一种新颖的边交叉可微替代方法。引入了一个交互式系统DataFly,用于探索多个候选视角。
提出了GraphDR-LinUCB方法,一种面向具有图结构臂的上下文赌博机方法,该方法将特征投影到图的低频频谱子空间上。实现了首个基于频谱投影的上下文赌博机的遗憾界,并在真实数据集上相比全维度LinUCB实现了15倍的遗憾值降低。
本文提出了利用Schur补和Sylvester行列式恒等式的精确降维方法,将非平滑NML估计中每步的计算复杂度从O(N^3)降低到O(k^3+N^2k),在保持数值精度的同时实现了超过14,000倍的加速。
提出距离自适应表示(DAR),该方法对远距离token降低键值维度,同时保留附近token的全维度,在不损失性能的前提下提升KV缓存效率。
该研究揭示了LLM文本嵌入被高频token(如句号、冠词)绑架的问题,提出EmbedFilter方法通过对unembedding矩阵进行SVD分解并减去投影分量来释放真实语义,实现零训练开销的降维和检索效率提升。
本文指出,LLM文本嵌入过度表达了高频无信息词元,并提出EmbedFilter,一种线性变换,通过滤除该子空间来改善语义表示并实现降维。
一篇关于主成分分析(PCA)的简短数学文章,解释了概念及其应用。
ScaleMAP是一种新的非线性降维方法,通过基于原始空间局部半径重新缩放嵌入距离来保持局部密度和邻域结构,在保持UMAP级别邻域保留的同时,实现了比DensMAP更好的密度保留。
提出DIVE,一种用于嵌入维度缩减的压缩适配器,采用自限制梯度更新和头部级NT-Xent对比损失,防止在小数据集上过拟合,在BEIR基准测试上优于现有方法。
本文提出了一种面向小数据场景下植物表型组学分类的混合量子-经典工作流,通过监督潜在重构(PCA+LDA)在量子核对齐前提升几何可分性。实验显示可分性有所提升,但揭示了压缩权衡以及实现强量子性能的困难。
本文提出了一种无监督框架,通过混合潜空间建模来模拟结构连接组中与获取相关的变异,利用架构退火编码器输出消除了手动容量调优的需求。
本文提出了一种名为 Spectra 的方法,利用光谱占用率来分析和控制潜在图模型的实际容量,并论证了模型的秩并不等同于其容量。
本文重点介绍了 Johnson-Lindenstrauss 引理,解释了其在帮助机器学习工程师理解降维、随机投影和嵌入效率方面的重要性。
本文介绍了一种多项式自编码器,通过利用二次解码器捕捉非线性方差,在压缩 Transformer 嵌入方面改进了传统的 PCA 方法。在 BEIR 基准测试中的结果表明,该方法在保持高压缩率的同时,其检索质量显著优于标准 PCA 和 Matryoshka 嵌入。
谱调整(SpecTemp)提出了一种无需学习的密集段落检索嵌入压缩方法,该方法基于信噪比分析自适应地确定最优的谱缩放系数,性能优于PCA和白化等固定超参数方法。