data-pipeline

#data-pipeline

OpenZL

Lobsters Hottest ↗ · 14小时前缓存

OpenZL 是一个压缩库，能够为特定数据格式生成专门的压缩器，以高速实现高压缩比，适用于数据中心工作负载，如 AI 处理。

0 人收藏 0 人点赞

#data-pipeline

@XiaohuiAI666: 你的 RAG 实现方法是错误的！传统 chunk 缺乏知识边界、版本信息和元数据，导致检索上下文缺失、版本混杂、权限控制困难。作者提出的新方法以 IdeaBlock（问题-答案+治理字段）替代 chunk，实现结构化知识单元。不改检…

X AI KOLs Timeline ↗ · 5天前缓存

作者提出以IdeaBlock（问题-答案+治理字段）替代传统chunk来改进RAG知识单元，已开源Blockify工具，可减少40倍语料、3倍token并提升2.3倍相关性。

0 人收藏 0 人点赞

#data-pipeline

机器人团队正在从头重建数据栈

Hacker News Top ↗ · 6天前缓存

机器人团队正在从头重建数据栈，以克服“数据层税”对机器人学习迭代和扩展的拖累，因为现有基础设施无法处理多速率和多模态数据。

0 人收藏 0 人点赞

#data-pipeline

ProfiLLM: 面向工业网约车调度的效用对齐智能用户画像

arXiv cs.AI ↗ · 2026-06-18 缓存

ProfiLLM 提出了一种智能LLM流水线，能够从平台级行为日志中生成效用对齐的用户画像，用于工业网约车调度，在滴滴的生产环境中实现了结果预测和GMV的显著提升。

0 人收藏 0 人点赞

#data-pipeline

Show HN：Artie – 实时数据复制到数据仓库，现已支持自助服务

Hacker News Top ↗ · 2026-06-10 缓存

Artie 是一款自助服务产品，用于将数据实时复制到数据仓库，提供亚分钟级延迟、精确一次投递，且无需管理 Kafka 或 DMS 基础设施即可轻松部署。

0 人收藏 0 人点赞

#data-pipeline

TinyFish Bigset 将文本提示转换为实时数据集（3分钟阅读）

TLDR AI ↗ · 2026-06-03 缓存

TinyFish Bigset 是一个开源的多智能体系统，可将自然语言提示转换为来自实时网络的结构化数据集，具备模式推断、自主研究代理和定时刷新功能。它通过 Docker 自托管运行，并基于 TinyFish 的搜索基础设施构建。

0 人收藏 0 人点赞

#data-pipeline

@wsl8297: 做 RAG / 数据智能体，最容易卡住的是这一步：怎么把一堆散落的文件，变成可追踪、可查询、可复用的数据集。尤其是 S3 / GCS / Azure 里的 PDF、图片、日志、标注文件，规模一上来，管理和迭代就开始失控。 https:/…

X AI KOLs Timeline ↗ · 2026-06-02 缓存

DataChain 是一个 Python 库，为 S3、GCS 和 Azure 中的非结构化文件添加上下文层，将其转化为可版本化、可查询的带类型数据集，支持并行处理、增量更新和 Agent 工作流集成。

0 人收藏 0 人点赞

#data-pipeline

SmartDirector: 关键帧条件化的电影视频生成与叙事节奏控制

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

SmartDirector是一个通过多关键帧增强视频生成的框架，旨在改善叙事结构和时间节奏，采用低分辨率生成和高分辨率优化的两阶段流程。

0 人收藏 0 人点赞

#data-pipeline

挪威的2 PB华为闪存存储与LLM训练

Hacker News Top ↗ · 2026-05-25 缓存

挪威国家图书馆正在使用2 PB的华为OceanStor Dorado闪存存储构建一个主权挪威LLM，用于其AI训练数据管道，以满足对本地语言模型的需求。

0 人收藏 0 人点赞

#data-pipeline

@raydistributed: 在Snowflake上试用基于Ray的批量推理

X AI KOLs Following ↗ · 2026-05-21 缓存

Snowflake现在支持基于Ray的作业级批量推理，通过单一API调用即可在数百万非结构化数据点上执行分布式GPU，从而扩展模型推理。

0 人收藏 0 人点赞

#data-pipeline

强化学习数据的良好质量控制（18分钟阅读）

TLDR AI ↗ · 2026-05-08 缓存

本文讨论了强化学习数据质量控制的重要性，概述了当前数据供应商的不足之处以及前沿AI实验室用于评估RL数据的标准。

0 人收藏 0 人点赞

#data-pipeline

@anyscalecompute：在本节课中，您将学到：- 使用Ray构建和扩展数据管道 - 什么是视频数据筛选 - 大规模流式传输…

X AI KOLs Following ↗ · 2026-05-07 缓存

Anyscale正在举办一场动手虚拟实验室课程，教授开发者如何使用Ray构建和扩展数据管道，涵盖视频数据筛选、分布式GPU推理以及CPU/GPU流式管道。

0 人收藏 0 人点赞

data-pipeline

提交意见反馈