标签
作者提出以IdeaBlock(问题-答案+治理字段)替代传统chunk来改进RAG知识单元,已开源Blockify工具,可减少40倍语料、3倍token并提升2.3倍相关性。
机器人团队正在从头重建数据栈,以克服“数据层税”对机器人学习迭代和扩展的拖累,因为现有基础设施无法处理多速率和多模态数据。
ProfiLLM 提出了一种智能LLM流水线,能够从平台级行为日志中生成效用对齐的用户画像,用于工业网约车调度,在滴滴的生产环境中实现了结果预测和GMV的显著提升。
Artie 是一款自助服务产品,用于将数据实时复制到数据仓库,提供亚分钟级延迟、精确一次投递,且无需管理 Kafka 或 DMS 基础设施即可轻松部署。
TinyFish Bigset 是一个开源的多智能体系统,可将自然语言提示转换为来自实时网络的结构化数据集,具备模式推断、自主研究代理和定时刷新功能。它通过 Docker 自托管运行,并基于 TinyFish 的搜索基础设施构建。
DataChain 是一个 Python 库,为 S3、GCS 和 Azure 中的非结构化文件添加上下文层,将其转化为可版本化、可查询的带类型数据集,支持并行处理、增量更新和 Agent 工作流集成。
SmartDirector是一个通过多关键帧增强视频生成的框架,旨在改善叙事结构和时间节奏,采用低分辨率生成和高分辨率优化的两阶段流程。
挪威国家图书馆正在使用2 PB的华为OceanStor Dorado闪存存储构建一个主权挪威LLM,用于其AI训练数据管道,以满足对本地语言模型的需求。
Snowflake现在支持基于Ray的作业级批量推理,通过单一API调用即可在数百万非结构化数据点上执行分布式GPU,从而扩展模型推理。
本文讨论了强化学习数据质量控制的重要性,概述了当前数据供应商的不足之处以及前沿AI实验室用于评估RL数据的标准。
Anyscale正在举办一场动手虚拟实验室课程,教授开发者如何使用Ray构建和扩展数据管道,涵盖视频数据筛选、分布式GPU推理以及CPU/GPU流式管道。