end-to-end

#end-to-end

端到端口语理解中的选择性能力遗忘

arXiv cs.CL ↗ · 5天前缓存

提出了绑定子空间（BSU），一种表示级框架，用于在端到端口语理解模型中隔离和削弱意图条件方向，以防止能力持续性——即抑制某个意图时，强制前缀仍能生成槽。该方法降低了强制前缀的可恢复性，同时保持了在SLU基准测试上的保留性能。

0 人收藏 0 人点赞

#end-to-end

ORAgentBench：LLM代理能否端到端解决具有挑战性的运筹学任务？

arXiv cs.AI ↗ · 2026-06-20 缓存

本文介绍ORAgentBench，一个用于评估LLM代理在端到端运筹学任务中表现的执行基准，包含107个经过人工审查的任务。实验表明，当前最佳代理仅通过35.51%的任务，揭示了在可靠决策制定方面的重大不足。

0 人收藏 0 人点赞

#end-to-end

面向中国方言的语音驱动端到端语言辨识

arXiv cs.CL ↗ · 2026-06-18 缓存

本文研究了用于中国方言细粒度辨识的语音驱动特征，采用了一种端到端模型，通过卷积神经网络结合基于MFCC的特征与词级嵌入，性能优于文本驱动方法。

0 人收藏 0 人点赞

#end-to-end

有史以来首次，8个Codex-AutoResearch代理赋予机器人舰队生命，实现端到端成功解决物理世界任务，中间无需人工桥梁……在Nvidia Gear Lab中自我改进一部分

Reddit r/singularity ↗ · 2026-06-18

Nvidia Gear Lab的研究人员实现了一个里程碑：8个Codex-AutoResearch代理自主控制一支机器人舰队，在无人干预的情况下完成了一项物理世界任务，展示了自我改进的能力。

0 人收藏 0 人点赞

#end-to-end

迈向AI研究的端到端自动化

arXiv cs.AI ↗ · 2026-06-16 缓存

一篇介绍AI科学家（The AI Scientist）的论文，该系统自动化了从想法生成到同行评审的整个研究生命周期，展示了人工智能在科学贡献方面日益增长的能力。

0 人收藏 0 人点赞

#end-to-end

Hy-Embodied-0.5-VLA: 从视觉-语言-动作模型到真实世界机器人学习栈

Hugging Face Daily Papers ↗ · 2026-06-12 缓存

HyVLA-0.5 是一个端到端机器人学习系统，整合了数据收集、模型设计、预训练、微调和强化学习，用于真实世界部署。

0 人收藏 0 人点赞

#end-to-end

zai-org/SCAIL-2 · Hugging Face

Reddit r/LocalLLaMA ↗ · 2026-06-09 缓存

SCAIL-2 是一个用于端到端受控角色动画的开源模型，它使用驱动视频动画化参考角色，支持角色替换和多角色场景，无需中间姿态表示。

0 人收藏 0 人点赞

#end-to-end

SCAIL-2: 统一受控角色动画与端到端上下文内条件化

Hugging Face Daily Papers ↗ · 2026-06-09 缓存

SCAIL-2是一个框架，通过直接从驱动视频迁移运动而无需中间表示，实现了端到端的受控角色动画。它使用了统一任务分解、合成数据（MotionPair-60K）以及新颖的条件化技术，如上下文内掩码条件化和偏差感知DPO。

0 人收藏 0 人点赞

#end-to-end

LLMBridge：面向英语端到端指称桥接解析的LLM流水线

arXiv cs.CL ↗ · 2026-05-29 缓存

LLMBridge 提出了一种基于LLM的端到端指称桥接解析流水线，在三个英语数据集上取得了最先进的性能。该系统将启发式预处理/后处理与LLM自然语言推理相结合。

0 人收藏 0 人点赞

#end-to-end

LELA: 一种基于LLM的端到端实体链接框架，支持零样本领域自适应

arXiv cs.AI ↗ · 2026-05-27 缓存

LELA是一个基于LLM的实体链接框架，将零样本命名实体识别和实体消解整合为端到端的Python库，并在多种场景下验证了其有效性。

0 人收藏 0 人点赞

#end-to-end

FormalASR: 端到端中文口语到正式文本转换

arXiv cs.CL ↗ · 2026-05-20 缓存

FormalASR 提出了两个紧凑的端到端模型，可直接将中文口语转录为正式书面文本，显著降低错误率，并消除了对单独 LLM 后处理阶段的需求，实现了轻量级的设备端部署。

0 人收藏 0 人点赞

#end-to-end

RankE：面向离散文本到图像生成的端到端后训练与解码器协同进化

Hugging Face Daily Papers ↗ · 2026-05-20 缓存

RankE 提出了一种用于离散文本到图像生成的端到端后训练框架，通过联合优化生成器和解码器来解决潜在协变量偏移问题，同时提升对齐度与保真度。

0 人收藏 0 人点赞

#end-to-end

@itsolelehmann：我记得在2023-24年，需要把许多不同的工具用胶带拼凑在一起，才能获得勉强像样的AI输出——GPT 4用于写作…

X AI KOLs Following ↗ · 2026-05-15 缓存

回顾2023-24年碎片化的AI工具格局，用户强调了Higgsfield AI的Supercomputer的到来，这是一种云原生AI代理，整合了40多种工具用于端到端任务执行。

0 人收藏 0 人点赞

#end-to-end

MetaAgent-X：通过端到端强化学习突破自动多智能体系统的天花板

arXiv cs.AI ↗ · 2026-05-15 缓存

MetaAgent-X引入了一个端到端的强化学习框架，联合优化自动多智能体系统的设计与执行，克服了冻结执行器的天花板，并在现有基线基础上实现了高达21.7%的性能提升。

0 人收藏 0 人点赞

#end-to-end

基于微积分的端到端自动语音识别词汇量确定框架

arXiv cs.CL ↗ · 2026-05-15 缓存

本文提出了一种基于微积分的框架，利用一阶和二阶导数检验来估计端到端自动语音识别系统的最佳词汇量超参数，并在Librispeech语料库上提升了性能。

0 人收藏 0 人点赞

#end-to-end

一站式AI平台正在悄悄接管端到端制作。你怎么看？

Reddit r/artificial ↗ · 2026-05-14

Higgsfield是一个一站式AI视频平台，处理角色一致性、生成、音频和分发，与Kling、Runway和Veo等单一模型专家形成对比。讨论的问题是，垂直整合还是专业化质量将主导AI视频制作。

0 人收藏 0 人点赞

#end-to-end

EVA-Bench：评估语音代理的新型端到端框架

Hugging Face Daily Papers ↗ · 2026-05-13 缓存

EVA-Bench 提出了一个全面的端到端评估框架，用于评估语音代理，模拟真实的多轮对话，并通过新颖的准确度（EVA-A）和体验（EVA-X）指标衡量语音特定故障模式下的性能。该基准包含企业领域的 213 个场景以及用于口音和噪声鲁棒性的扰动套件，揭示了当前系统的显著差距。

0 人收藏 0 人点赞

#end-to-end

@wsl8297: 学 AI 最怕停在“懂原理”，一到写代码就卡壳：不知道从哪下手，也找不到像样的练手项目。我在 GitHub 挖到一个实战向宝藏库：AI-Project-Gallery。它收录了 30+ 高质量 AI 项目，覆盖从房价预测、疾病分类等经…

X AI KOLs Timeline ↗ · 2026-05-12 缓存

This post shares a curated GitHub repository containing over 30 practical AI projects, covering domains from regression to generative AI, with many end-to-end examples, suitable for learners and developers.

0 人收藏 0 人点赞

#end-to-end

@paulabartabajo_：给AI工程师的建议如果你正在构建语音智能体，别再连接3个独立模型了，用于音频转文本、文本转音频，或文本转文本……

X AI KOLs Timeline ↗ · 2026-05-08 缓存

宣布推出 liquid-audio，这是 Liquid AI 端到端语音转语音 LFM 模型（LFM2-Audio-1.5B 和 LFM2.5-Audio-1.5B）的开源仓库，支持交错和顺序生成模式以及微调功能。

0 人收藏 0 人点赞

#end-to-end

zhen-nan/L2P

Hugging Face Models Trending ↗ · 2026-05-03 缓存

L2P 提出了一种高效的迁移范式，利用预训练的潜在扩散模型构建像素空间扩散模型，从而在极小的计算开销和数据需求下实现高质量生成，并支持原生 4K 分辨率。

0 人收藏 0 人点赞

end-to-end

提交意见反馈