标签
OpenAI 展示了一种可扩展的对齐技术,使用人工反馈进行整本书的分层摘要总结,展示了如何训练模型在复杂、难以评估的任务上按照人类意图行动。
OpenAI展示了一种通过在人类偏好上训练奖励模型并使用强化学习微调模型来改进语言模型总结的技术,实现了在数据集间具有良好泛化性能的显著质量提升。这项工作通过大规模人类反馈推进了模型对齐,并具有超越总结任务的应用前景。
OpenAI展示了使用人类偏好反馈对GPT-2(774M参数)进行微调,用于文本续写和摘要任务,风格任务需要5000个标签,摘要任务需要60000个标签,模型达到了86-88%的人类偏好率,但揭示了标注者启发式利用的问题。
一个AI智能体技能,可跨多个平台(包括Reddit、X、YouTube、Hacker News、Polymarket及网络)研究任何主题,然后综合过去30天的活动,生成一份有依据的总结。
NVIDIA发布了一个参考蓝图,用于构建视觉智能体和AI驱动的视频分析应用,包括实时智能、下游分析以及用于搜索、摘要和问答的智能体工作流。