data-collection

#data-collection

印度家庭主妇通过家务劳动训练下一代人形机器人

Reddit r/ArtificialInteligence ↗ · 昨天

印度家庭主妇通过做家务为人形机器人的训练做出贡献，为人工智能学习提供宝贵数据。

0 人收藏 0 人点赞

#data-collection

假设你正在构建一个基于整个网站训练的RAG聊天机器人。你将如何爬取整个网站

Reddit r/AI_Agents ↗ · 昨天

关于如何爬取整个网站以训练RAG聊天机器人的讨论，涵盖策略与挑战。

0 人收藏 0 人点赞

#data-collection

互联网的‘请出示证件’时代将摧毁你的隐私

Hacker News Top ↗ · 4天前缓存

一篇评论文章指出，强制性的年龄验证法律（例如澳大利亚禁止16岁以下青少年使用社交媒体的规定）通过迫使用户向第三方提供身份证等敏感数据来威胁隐私，而该法律本身也被证明无效。

0 人收藏 0 人点赞

#data-collection

@swyx：在他们@latentspacepod节目中，我们讨论了@pimdewitte如何意外地打造了完美的世界模型数据收集业务……

X AI KOLs Timeline ↗ · 4天前缓存

该推文强调，Pim de Witte通过收集全球最大的可训练（视频，动作）对数据集，意外地构建了一个世界模型数据收集业务，并宣布以23亿美元估值完成3.2亿美元A轮融资。

0 人收藏 0 人点赞

#data-collection

如何退出谷歌搜索新AI数据训练功能

Wired ↗ · 5天前缓存

谷歌正在推出新的搜索服务历史记录设置，该设置默认开启，会将用户上传的媒体内容保存用于AI训练。本文介绍如何退出该功能并指出隐私方面的担忧。

0 人收藏 0 人点赞

#data-collection

@NFTCPS: X推特上那些搬运博主的内容源终于知道从哪来的！就这个工具MediaCrawler，一个工具通吃小红书、抖音、快手、B站、微博、贴吧、知乎，公开的内容、评论、点赞、转发都能扒下来。最骚的是它不用搞JS逆向那套，靠浏览器登录态直接拿签名，…

X AI KOLs Timeline ↗ · 2026-06-23 缓存

MediaCrawler是一个多平台自媒体数据采集工具，支持小红书、抖音、快手、B站、微博、贴吧、知乎的公开内容抓取，利用浏览器登录态绕过JS逆向，降低技术门槛。

0 人收藏 0 人点赞

#data-collection

反对Meta收集员工培训数据用于机器学习模型的请愿

Hacker News Top ↗ · 2026-06-21 缓存

Meta员工正在请愿反对模型能力倡议（MCI），该倡议收集键盘敲击、鼠标移动和屏幕内容等计算机使用数据用于AI训练，引发了严重的隐私和监管担忧。

0 人收藏 0 人点赞

#data-collection

@WY_mask: MediaCrawler：开源小红书/抖音/微博/B站/快手爬虫工具支持爬取视频、图片、评论、点赞、转发等信息 https://github.com/NanmiCoder/MediaCrawler…

X AI KOLs Timeline ↗ · 2026-06-21 缓存

MediaCrawler 是一个开源的多平台自媒体数据采集工具，支持小红书、抖音、微博、B站、快手等平台的公开信息抓取，无需JS逆向，基于Playwright浏览器自动化。

0 人收藏 0 人点赞

#data-collection

指标不可避免的弱点

MIT Technology Review ↗ · 2026-06-19 缓存

一篇关于自我量化陷阱的反思文章，认为虽然指标可以揭示有用的信息，但它们往往会掩盖或扭曲更深刻的自我认知。

0 人收藏 0 人点赞

#data-collection

在参议院投票后，特朗普政府放弃终止海洋监测计划

Ars Technica ↗ · 2026-06-18 缓存

在参议院的反对下，特朗普政府撤销了拆解海洋观测倡议的决定。该倡议是一个耗资3.5亿美元的海洋监测网络，用于气候追踪、天气预报和渔业管理。

0 人收藏 0 人点赞

#data-collection

收集机器人训练数据是又脏又累的活。一些AI实验室已开始付费让XDOF来做。

TechCrunch AI ↗ · 2026-06-17 缓存

XDOF，一家刚结束隐身模式的初创公司，已筹集7000万美元，用于构建机器人训练的数据管道和工具，以解决物理交互数据的瓶颈问题。该公司发布了一个大型机器人操作轨迹数据集ABC，以加速机器人AI的发展。

0 人收藏 0 人点赞

#data-collection

美丽而丑陋的形状

Reddit r/artificial ↗ · 2026-06-16

对X平台架构的分析揭示了Grok AI如何与X Premium、行为数据和定向广告整合，表明用户既是产品也是训练数据来源。

0 人收藏 0 人点赞

#data-collection

AI 把我吓得不轻。

Reddit r/artificial ↗ · 2026-06-15

一位用户描述了谷歌的AI概览如何分析Instagram个人资料并找到所有互动，引发了对永久在线足迹的隐私担忧。

0 人收藏 0 人点赞

#data-collection

@VaibhavSisinty: 金奈一位25岁的家庭主妇仅靠做日常家务每小时赚250卢比（3美元）。她把手机戴在头上……

X AI KOLs Timeline ↗ · 2026-06-12 缓存

金奈一位25岁的家庭主妇为AI公司拍摄日常家务视频，每小时赚250卢比，这些公司正在训练人形机器人。她是印度日益增长的零工经济的一部分，成千上万人通过记录日常任务来训练未来的机器人。

0 人收藏 0 人点赞

#data-collection

Hy-Embodied-0.5-VLA: 从视觉-语言-动作模型到真实世界机器人学习栈

Hugging Face Daily Papers ↗ · 2026-06-12 缓存

HyVLA-0.5 是一个端到端机器人学习系统，整合了数据收集、模型设计、预训练、微调和强化学习，用于真实世界部署。

0 人收藏 0 人点赞

#data-collection

谷歌将保存你的Lens照片、搜索Live录音以及翻译音频用于AI训练

The Verge ↗ · 2026-06-10 缓存

谷歌推出新的搜索服务历史记录设置，保存来自Lens、搜索Live和翻译的图像、音频和视频，以改进其AI模型和个性化服务，并提供选择退出的选项。

0 人收藏 0 人点赞

#data-collection

AI代理在2026年如何收集数据

Reddit r/AI_Agents ↗ · 2026-06-10

本文阐述了2026年AI代理如何从网站和API收集数据，并讨论了如速率限制、CAPTCHA和IP封禁等关键挑战。

0 人收藏 0 人点赞

#data-collection

为什么代理对你的AI代理至关重要

Reddit r/AI_Agents ↗ · 2026-06-05

本文解释了为什么代理对于AI代理在大规模数据采集时避免速率限制、CAPTCHA和地理限制至关重要，并涵盖了常见的用例和代理类型。

0 人收藏 0 人点赞

#data-collection

AI让大规模网页抓取变得触手可及。这是一个问题吗？

Reddit r/ArtificialInteligence ↗ · 2026-06-02

本文探讨了AI编程助手如何使普通大众能够进行大规模网页抓取，由此引发了关于忽略robots.txt和速率限制的道德问题，并对AI提供者的责任提出质疑。

0 人收藏 0 人点赞

#data-collection

AI 在数据收集中如何遵循道德准则？

Reddit r/artificial ↗ · 2026-06-02

关于 AI 代理在生成爬虫时忽视 robots.txt 等网站规则的伦理挑战，以及 AI 提供商在不妨碍产品可用性的前提下实施护栏的责任的评论。

0 人收藏 0 人点赞

data-collection

提交意见反馈