data-collection

标签

Cards List
#data-collection

印度家庭主妇通过家务劳动训练下一代人形机器人

Reddit r/ArtificialInteligence · 昨天

印度家庭主妇通过做家务为人形机器人的训练做出贡献,为人工智能学习提供宝贵数据。

0 人收藏 0 人点赞
#data-collection

假设你正在构建一个基于整个网站训练的RAG聊天机器人。你将如何爬取整个网站

Reddit r/AI_Agents · 昨天

关于如何爬取整个网站以训练RAG聊天机器人的讨论,涵盖策略与挑战。

0 人收藏 0 人点赞
#data-collection

互联网的‘请出示证件’时代将摧毁你的隐私

Hacker News Top · 4天前 缓存

一篇评论文章指出,强制性的年龄验证法律(例如澳大利亚禁止16岁以下青少年使用社交媒体的规定)通过迫使用户向第三方提供身份证等敏感数据来威胁隐私,而该法律本身也被证明无效。

0 人收藏 0 人点赞
#data-collection

@swyx:在他们@latentspacepod节目中,我们讨论了@pimdewitte如何意外地打造了完美的世界模型数据收集业务……

X AI KOLs Timeline · 4天前 缓存

该推文强调,Pim de Witte通过收集全球最大的可训练(视频,动作)对数据集,意外地构建了一个世界模型数据收集业务,并宣布以23亿美元估值完成3.2亿美元A轮融资。

0 人收藏 0 人点赞
#data-collection

如何退出谷歌搜索新AI数据训练功能

Wired · 5天前 缓存

谷歌正在推出新的搜索服务历史记录设置,该设置默认开启,会将用户上传的媒体内容保存用于AI训练。本文介绍如何退出该功能并指出隐私方面的担忧。

0 人收藏 0 人点赞
#data-collection

@NFTCPS: X推特上那些搬运博主的内容源终于知道从哪来的! 就这个工具MediaCrawler,一个工具通吃小红书、抖音、快手、B站、微博、贴吧、知乎,公开的内容、评论、点赞、转发都能扒下来。 最骚的是它不用搞JS逆向那套,靠浏览器登录态直接拿签名,…

X AI KOLs Timeline · 2026-06-23 缓存

MediaCrawler是一个多平台自媒体数据采集工具,支持小红书、抖音、快手、B站、微博、贴吧、知乎的公开内容抓取,利用浏览器登录态绕过JS逆向,降低技术门槛。

0 人收藏 0 人点赞
#data-collection

反对Meta收集员工培训数据用于机器学习模型的请愿

Hacker News Top · 2026-06-21 缓存

Meta员工正在请愿反对模型能力倡议(MCI),该倡议收集键盘敲击、鼠标移动和屏幕内容等计算机使用数据用于AI训练,引发了严重的隐私和监管担忧。

0 人收藏 0 人点赞
#data-collection

@WY_mask: MediaCrawler:开源小红书/抖音/微博/B站/快手爬虫工具 支持爬取视频、图片、评论、点赞、转发等信息 https://github.com/NanmiCoder/MediaCrawler…

X AI KOLs Timeline · 2026-06-21 缓存

MediaCrawler 是一个开源的多平台自媒体数据采集工具,支持小红书、抖音、微博、B站、快手等平台的公开信息抓取,无需JS逆向,基于Playwright浏览器自动化。

0 人收藏 0 人点赞
#data-collection

指标不可避免的弱点

MIT Technology Review · 2026-06-19 缓存

一篇关于自我量化陷阱的反思文章,认为虽然指标可以揭示有用的信息,但它们往往会掩盖或扭曲更深刻的自我认知。

0 人收藏 0 人点赞
#data-collection

在参议院投票后,特朗普政府放弃终止海洋监测计划

Ars Technica · 2026-06-18 缓存

在参议院的反对下,特朗普政府撤销了拆解海洋观测倡议的决定。该倡议是一个耗资3.5亿美元的海洋监测网络,用于气候追踪、天气预报和渔业管理。

0 人收藏 0 人点赞
#data-collection

收集机器人训练数据是又脏又累的活。一些AI实验室已开始付费让XDOF来做。

TechCrunch AI · 2026-06-17 缓存

XDOF,一家刚结束隐身模式的初创公司,已筹集7000万美元,用于构建机器人训练的数据管道和工具,以解决物理交互数据的瓶颈问题。该公司发布了一个大型机器人操作轨迹数据集ABC,以加速机器人AI的发展。

0 人收藏 0 人点赞
#data-collection

美丽而丑陋的形状

Reddit r/artificial · 2026-06-16

对X平台架构的分析揭示了Grok AI如何与X Premium、行为数据和定向广告整合,表明用户既是产品也是训练数据来源。

0 人收藏 0 人点赞
#data-collection

AI 把我吓得不轻。

Reddit r/artificial · 2026-06-15

一位用户描述了谷歌的AI概览如何分析Instagram个人资料并找到所有互动,引发了对永久在线足迹的隐私担忧。

0 人收藏 0 人点赞
#data-collection

@VaibhavSisinty: 金奈一位25岁的家庭主妇仅靠做日常家务每小时赚250卢比(3美元)。她把手机戴在头上……

X AI KOLs Timeline · 2026-06-12 缓存

金奈一位25岁的家庭主妇为AI公司拍摄日常家务视频,每小时赚250卢比,这些公司正在训练人形机器人。她是印度日益增长的零工经济的一部分,成千上万人通过记录日常任务来训练未来的机器人。

0 人收藏 0 人点赞
#data-collection

Hy-Embodied-0.5-VLA: 从视觉-语言-动作模型到真实世界机器人学习栈

Hugging Face Daily Papers · 2026-06-12 缓存

HyVLA-0.5 是一个端到端机器人学习系统,整合了数据收集、模型设计、预训练、微调和强化学习,用于真实世界部署。

0 人收藏 0 人点赞
#data-collection

谷歌将保存你的Lens照片、搜索Live录音以及翻译音频用于AI训练

The Verge · 2026-06-10 缓存

谷歌推出新的搜索服务历史记录设置,保存来自Lens、搜索Live和翻译的图像、音频和视频,以改进其AI模型和个性化服务,并提供选择退出的选项。

0 人收藏 0 人点赞
#data-collection

AI代理在2026年如何收集数据

Reddit r/AI_Agents · 2026-06-10

本文阐述了2026年AI代理如何从网站和API收集数据,并讨论了如速率限制、CAPTCHA和IP封禁等关键挑战。

0 人收藏 0 人点赞
#data-collection

为什么代理对你的AI代理至关重要

Reddit r/AI_Agents · 2026-06-05

本文解释了为什么代理对于AI代理在大规模数据采集时避免速率限制、CAPTCHA和地理限制至关重要,并涵盖了常见的用例和代理类型。

0 人收藏 0 人点赞
#data-collection

AI让大规模网页抓取变得触手可及。这是一个问题吗?

Reddit r/ArtificialInteligence · 2026-06-02

本文探讨了AI编程助手如何使普通大众能够进行大规模网页抓取,由此引发了关于忽略robots.txt和速率限制的道德问题,并对AI提供者的责任提出质疑。

0 人收藏 0 人点赞
#data-collection

AI 在数据收集中如何遵循道德准则?

Reddit r/artificial · 2026-06-02

关于 AI 代理在生成爬虫时忽视 robots.txt 等网站规则的伦理挑战,以及 AI 提供商在不妨碍产品可用性的前提下实施护栏的责任的评论。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈