data-pipeline

标签

Cards List
#data-pipeline

OpenZL

Lobsters Hottest · 14小时前 缓存

OpenZL 是一个压缩库,能够为特定数据格式生成专门的压缩器,以高速实现高压缩比,适用于数据中心工作负载,如 AI 处理。

0 人收藏 0 人点赞
#data-pipeline

@XiaohuiAI666: 你的 RAG 实现方法是错误的! 传统 chunk 缺乏知识边界、版本信息和元数据,导致检索上下文缺失、版本混杂、权限控制困难。 作者提出的新方法以 IdeaBlock(问题-答案+治理字段)替代 chunk,实现结构化知识单元。 不改检…

X AI KOLs Timeline · 5天前 缓存

作者提出以IdeaBlock(问题-答案+治理字段)替代传统chunk来改进RAG知识单元,已开源Blockify工具,可减少40倍语料、3倍token并提升2.3倍相关性。

0 人收藏 0 人点赞
#data-pipeline

机器人团队正在从头重建数据栈

Hacker News Top · 6天前 缓存

机器人团队正在从头重建数据栈,以克服“数据层税”对机器人学习迭代和扩展的拖累,因为现有基础设施无法处理多速率和多模态数据。

0 人收藏 0 人点赞
#data-pipeline

ProfiLLM: 面向工业网约车调度的效用对齐智能用户画像

arXiv cs.AI · 2026-06-18 缓存

ProfiLLM 提出了一种智能LLM流水线,能够从平台级行为日志中生成效用对齐的用户画像,用于工业网约车调度,在滴滴的生产环境中实现了结果预测和GMV的显著提升。

0 人收藏 0 人点赞
#data-pipeline

Show HN:Artie – 实时数据复制到数据仓库,现已支持自助服务

Hacker News Top · 2026-06-10 缓存

Artie 是一款自助服务产品,用于将数据实时复制到数据仓库,提供亚分钟级延迟、精确一次投递,且无需管理 Kafka 或 DMS 基础设施即可轻松部署。

0 人收藏 0 人点赞
#data-pipeline

TinyFish Bigset 将文本提示转换为实时数据集(3分钟阅读)

TLDR AI · 2026-06-03 缓存

TinyFish Bigset 是一个开源的多智能体系统,可将自然语言提示转换为来自实时网络的结构化数据集,具备模式推断、自主研究代理和定时刷新功能。它通过 Docker 自托管运行,并基于 TinyFish 的搜索基础设施构建。

0 人收藏 0 人点赞
#data-pipeline

@wsl8297: 做 RAG / 数据智能体,最容易卡住的是这一步:怎么把一堆散落的文件,变成可追踪、可查询、可复用的数据集。 尤其是 S3 / GCS / Azure 里的 PDF、图片、日志、标注文件,规模一上来,管理和迭代就开始失控。 https:/…

X AI KOLs Timeline · 2026-06-02 缓存

DataChain 是一个 Python 库,为 S3、GCS 和 Azure 中的非结构化文件添加上下文层,将其转化为可版本化、可查询的带类型数据集,支持并行处理、增量更新和 Agent 工作流集成。

0 人收藏 0 人点赞
#data-pipeline

SmartDirector: 关键帧条件化的电影视频生成与叙事节奏控制

Hugging Face Daily Papers · 2026-05-27 缓存

SmartDirector是一个通过多关键帧增强视频生成的框架,旨在改善叙事结构和时间节奏,采用低分辨率生成和高分辨率优化的两阶段流程。

0 人收藏 0 人点赞
#data-pipeline

挪威的2 PB华为闪存存储与LLM训练

Hacker News Top · 2026-05-25 缓存

挪威国家图书馆正在使用2 PB的华为OceanStor Dorado闪存存储构建一个主权挪威LLM,用于其AI训练数据管道,以满足对本地语言模型的需求。

0 人收藏 0 人点赞
#data-pipeline

@raydistributed: 在Snowflake上试用基于Ray的批量推理

X AI KOLs Following · 2026-05-21 缓存

Snowflake现在支持基于Ray的作业级批量推理,通过单一API调用即可在数百万非结构化数据点上执行分布式GPU,从而扩展模型推理。

0 人收藏 0 人点赞
#data-pipeline

强化学习数据的良好质量控制(18分钟阅读)

TLDR AI · 2026-05-08 缓存

本文讨论了强化学习数据质量控制的重要性,概述了当前数据供应商的不足之处以及前沿AI实验室用于评估RL数据的标准。

0 人收藏 0 人点赞
#data-pipeline

@anyscalecompute:在本节课中,您将学到:- 使用Ray构建和扩展数据管道 - 什么是视频数据筛选 - 大规模流式传输…

X AI KOLs Following · 2026-05-07 缓存

Anyscale正在举办一场动手虚拟实验室课程,教授开发者如何使用Ray构建和扩展数据管道,涵盖视频数据筛选、分布式GPU推理以及CPU/GPU流式管道。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈