transformer

标签

Cards List
#transformer

并行流形引导:通过残差能量塑形实现大型关联记忆的高效适应

arXiv cs.LG · 4天前 缓存

本文提出H-Res,一种通过塑形关联记忆的能量景观来适应大型Transformer模型的方法,无需修改权重或添加提示,保留了记忆容量,且性能优于LoRA。

0 人收藏 0 人点赞
#transformer

用于设备端故障检测的轻量级Transformer模型:资源受限部署的基准研究

arXiv cs.LG · 4天前 缓存

一项基准研究,在三个公开数据集上对比了传统机器学习方法(随机森林、XGBoost、SVM、逻辑回归)与轻量级Transformer变体(DistilBERT、TinyBERT、MobileBERT)在设备端故障检测中的表现。传统机器学习在远小得多的资源占用下实现了有竞争力的准确率,而TinyBERT-4L是最便于部署的Transformer模型。

0 人收藏 0 人点赞
#transformer

NeuroSonic:基于条件流匹配的脑电图到语音重建

arXiv cs.LG · 4天前 缓存

NeuroSonic 提出了一种条件流匹配框架,用于从脑电图信号重建连续语音。通过学习一个确定性的概率流速度场,解决了神经数据与声学数据之间的结构不匹配问题。在跨受试者基准测试中,相比现有的GAN、扩散和均值流基线,该方法在感知质量上取得了高达26.3%的提升。

0 人收藏 0 人点赞
#transformer

解码3D分子表面的指纹特征以精确预测表位

arXiv cs.LG · 4天前 缓存

SurfBind是一种面向表面的表位预测学习框架,采用基于Transformer的架构,结合分块表面建模和结合物感知的交叉注意力,在表位识别基准上达到了最先进的性能。

0 人收藏 0 人点赞
#transformer

AutoSpecNER:用于车辆规格提取的细粒度命名实体识别数据集

arXiv cs.CL · 4天前 缓存

介绍AutoSpecNER,一个由专家标注的车辆列表细粒度命名实体识别数据集,包含659条广告,标注了15种实体类型。基准测试结果显示,DeBERTa取得了90%的微平均F1分数,优于基于规则的方法和大型语言模型。

0 人收藏 0 人点赞
#transformer

基于Transformer的语言模型在垂直领域中的应用:架构、应用与批判性评估

arXiv cs.CL · 4天前 缓存

对基于Transformer的语言模型的全面综述,涵盖架构、在医疗、金融、法律等垂直领域的应用,以及对计算成本、对齐和数据来源等权衡因素的批判性评估。

0 人收藏 0 人点赞
#transformer

SURGELLM: 通过任务感知特征门控与类别平衡归一化重新思考多任务评估

arXiv cs.CL · 4天前 缓存

SURGeLLM 引入了一个统一的Transformer框架,包含精细化特征门控、任务条件前缀标记和实例加权归一化,以解决多任务学习中的归纳偏差不匹配、类别不平衡和词汇知识注入问题,在四个不同的NLP任务上取得了显著提升。

0 人收藏 0 人点赞
#transformer

AI泡沫即将破裂?英伟达悄然收购Essential AI团队,包括Transformer论文合著者Ashish Vaswani。Vaswani此前为其AI公司融资困难。

Reddit r/ArtificialInteligence · 4天前

英伟达悄然收购了Essential AI的团队,包括Transformer论文合著者Ashish Vaswani,他此前为其初创公司融资困难。Vaswani将参与英伟达Nemotron开源模型的开发。

0 人收藏 0 人点赞
#transformer

确定性就是你所需

Reddit r/artificial · 4天前

本文介绍了一种利用确定性在Transformer模型中的新方法,基于'Attention Is All You Need'的范式。

0 人收藏 0 人点赞
#transformer

@JustinAngel: https://x.com/JustinAngel/status/2069482255312195980

X AI KOLs Timeline · 4天前 缓存

发布免费的研讨会录像和材料(23个视频、250张幻灯片、50个练习),帮助你从基础知识到Transformer架构构建自己的大语言模型,无需数学或机器学习基础。

0 人收藏 0 人点赞
#transformer

@thtrkim: FlashAttention 的手动可视化深入讲解(使用 Excalidraw 绘制)https://winterrykim.github.io/blog/2026/training-lm-…

X AI KOLs Timeline · 4天前 缓存

深入理解 FlashAttention 的可视化讲解,涵盖内存优化和算子融合,以实现语言模型训练中的高效注意力计算。

0 人收藏 0 人点赞
#transformer

将900KB Transformer过拟合,把100MB CSV压缩到7MB

Hacker News Top · 4天前 缓存

一位开发者使用一个小型900KB的Transformer模型进行过拟合,将100MB的CSV文件压缩到7MB,展示了一种使用过拟合神经网络进行数据压缩的新颖方法。

0 人收藏 0 人点赞
#transformer

Wan-Streamer v0.1:端到端实时交互基础模型

Hugging Face Daily Papers · 5天前 缓存

Wan-Streamer是一个统一的端到端多模态模型,用于实时音视频交互,采用因果注意力机制,并集成处理视觉、音频和文本模态,实现了亚秒级延迟。

0 人收藏 0 人点赞
#transformer

@li9292: 如何加入OpenAI?只需精通以下课程: 1. 斯坦福大学的“从零开始的语言建模”课程:http://cs336.stanford.edu/spring2025/ 2. 在掌握广度之后,她逐一深入研究概念,使用博客、论文、与 ChatGP…

X AI KOLs Timeline · 5天前 缓存

该推文推荐了斯坦福大学CS336课程及一系列学习资源,作为加入OpenAI的准备路径。

0 人收藏 0 人点赞
#transformer

nvidia/GLM-5.2-NVFP4

Hugging Face Models Trending · 5天前 缓存

NVIDIA 发布了 GLM-5.2-NVFP4,这是 ZAI 的 GLM-5.2 MoE 语言模型的量化版本,使用 Model Optimizer 进行了优化,适用于 NVIDIA Blackwell GPU 上的推理。

0 人收藏 0 人点赞
#transformer

Attention Is All You Need

Reddit r/ArtificialInteligence · 5天前

对里程碑式论文《Attention Is All You Need》的反思,着重说明了如何通过去除循环并完全依赖注意力机制彻底改变了人工智能,并催生了像GPT和Claude这样的现代大语言模型。

0 人收藏 0 人点赞
#transformer

智能体AI的搭便车指南:从基础到系统

Hugging Face Daily Papers · 6天前 缓存

一本全面的实践者指南,涵盖构建自主AI系统的整个技术栈,从基础Transformer架构到多智能体协调和生产部署等高级智能体主题。

0 人收藏 0 人点赞
#transformer

Tapered Language Models

Hugging Face Daily Papers · 6天前 缓存

本文介绍了Tapered Language Models (TLMs),一种架构原则,将更多参数分配给早期层,更少分配给后期层,在不增加额外成本的情况下,持续改善多种架构的困惑度和下游性能。

0 人收藏 0 人点赞
#transformer

[新模型] SupraLabs 推出了 Any2Any 模型系列!

Reddit r/LocalLLaMA · 2026-06-21 缓存

SupraLabs 发布了 Supra-A2A-Nano-Exp,这是一个小型任意到任意自回归模型,将文本和图像标记化统一到单个 Transformer 中,作为教育原型而非生产就绪系统。

0 人收藏 0 人点赞
#transformer

三天内:Transformer 合著者 Noam Shazeer 离开谷歌加入 OpenAI,诺贝尔奖得主、AlphaFold 负责人 John Jumper 离开谷歌 DeepMind 加入 Anthropic

Reddit r/singularity · 2026-06-19

三天内,Transformer 论文合著者 Noam Shazeer 离开谷歌加入 OpenAI,诺贝尔奖得主、AlphaFold 负责人 John Jumper 离开谷歌 DeepMind 加入 Anthropic,标志着 AI 领域重大人才变动。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈