标签
提出了绑定子空间(BSU),一种表示级框架,用于在端到端口语理解模型中隔离和削弱意图条件方向,以防止能力持续性——即抑制某个意图时,强制前缀仍能生成槽。该方法降低了强制前缀的可恢复性,同时保持了在SLU基准测试上的保留性能。
本文介绍ORAgentBench,一个用于评估LLM代理在端到端运筹学任务中表现的执行基准,包含107个经过人工审查的任务。实验表明,当前最佳代理仅通过35.51%的任务,揭示了在可靠决策制定方面的重大不足。
本文研究了用于中国方言细粒度辨识的语音驱动特征,采用了一种端到端模型,通过卷积神经网络结合基于MFCC的特征与词级嵌入,性能优于文本驱动方法。
Nvidia Gear Lab的研究人员实现了一个里程碑:8个Codex-AutoResearch代理自主控制一支机器人舰队,在无人干预的情况下完成了一项物理世界任务,展示了自我改进的能力。
一篇介绍AI科学家(The AI Scientist)的论文,该系统自动化了从想法生成到同行评审的整个研究生命周期,展示了人工智能在科学贡献方面日益增长的能力。
HyVLA-0.5 是一个端到端机器人学习系统,整合了数据收集、模型设计、预训练、微调和强化学习,用于真实世界部署。
SCAIL-2 是一个用于端到端受控角色动画的开源模型,它使用驱动视频动画化参考角色,支持角色替换和多角色场景,无需中间姿态表示。
SCAIL-2是一个框架,通过直接从驱动视频迁移运动而无需中间表示,实现了端到端的受控角色动画。它使用了统一任务分解、合成数据(MotionPair-60K)以及新颖的条件化技术,如上下文内掩码条件化和偏差感知DPO。
LLMBridge 提出了一种基于LLM的端到端指称桥接解析流水线,在三个英语数据集上取得了最先进的性能。该系统将启发式预处理/后处理与LLM自然语言推理相结合。
LELA是一个基于LLM的实体链接框架,将零样本命名实体识别和实体消解整合为端到端的Python库,并在多种场景下验证了其有效性。
FormalASR 提出了两个紧凑的端到端模型,可直接将中文口语转录为正式书面文本,显著降低错误率,并消除了对单独 LLM 后处理阶段的需求,实现了轻量级的设备端部署。
RankE 提出了一种用于离散文本到图像生成的端到端后训练框架,通过联合优化生成器和解码器来解决潜在协变量偏移问题,同时提升对齐度与保真度。
回顾2023-24年碎片化的AI工具格局,用户强调了Higgsfield AI的Supercomputer的到来,这是一种云原生AI代理,整合了40多种工具用于端到端任务执行。
MetaAgent-X引入了一个端到端的强化学习框架,联合优化自动多智能体系统的设计与执行,克服了冻结执行器的天花板,并在现有基线基础上实现了高达21.7%的性能提升。
本文提出了一种基于微积分的框架,利用一阶和二阶导数检验来估计端到端自动语音识别系统的最佳词汇量超参数,并在Librispeech语料库上提升了性能。
Higgsfield是一个一站式AI视频平台,处理角色一致性、生成、音频和分发,与Kling、Runway和Veo等单一模型专家形成对比。讨论的问题是,垂直整合还是专业化质量将主导AI视频制作。
EVA-Bench 提出了一个全面的端到端评估框架,用于评估语音代理,模拟真实的多轮对话,并通过新颖的准确度(EVA-A)和体验(EVA-X)指标衡量语音特定故障模式下的性能。该基准包含企业领域的 213 个场景以及用于口音和噪声鲁棒性的扰动套件,揭示了当前系统的显著差距。
This post shares a curated GitHub repository containing over 30 practical AI projects, covering domains from regression to generative AI, with many end-to-end examples, suitable for learners and developers.
宣布推出 liquid-audio,这是 Liquid AI 端到端语音转语音 LFM 模型(LFM2-Audio-1.5B 和 LFM2.5-Audio-1.5B)的开源仓库,支持交错和顺序生成模式以及微调功能。
L2P 提出了一种高效的迁移范式,利用预训练的潜在扩散模型构建像素空间扩散模型,从而在极小的计算开销和数据需求下实现高质量生成,并支持原生 4K 分辨率。