open-data

#open-data

Open Repair Data Standard – Open Repair Alliance

Hacker News Top ↗ · 4天前缓存

Open Repair Data Standard (ORDS) 定义了一种共享方法，用于收集和分享关于小型电气和电子产品的维修数据，从而能够跨不同社区维修群体聚合和分析维修趋势。

0 人收藏 0 人点赞

#open-data

我测试了5个AI模型对同一新闻文章的摘要。它们都继承了原文的框架，即使试图保持中立。我是新手，请多包涵

Reddit r/ArtificialInteligence ↗ · 2026-05-30

一位用户测试了五个AI模型对移民新闻文章的摘要，发现所有模型都继承了原文的框架，看似中立，但通过强调和省略来塑造读者的理解。这项研究规模小且是探索性的，数据公开可用。

0 人收藏 0 人点赞

#open-data

@lhoestq: 你不知道你其实需要本地 Common Crawl

X AI KOLs Timeline ↗ · 2026-05-22 缓存

了解如何设置并在本地使用 Common Crawl 数据进行网页数据处理任务。

0 人收藏 0 人点赞

#open-data

@james_y_zou: 我们将超过22万份FDA监管文件和超过100万份临床试验文档添加到了#paperclip。所有这些都原生编入索引，供智能体使用，而且免费。现在……

X AI KOLs Timeline ↗ · 2026-05-21 缓存

Paperclip新增了超过22万份FDA监管文件和来自多个登记处的100多万份临床试验，使AI智能体无需网络搜索即可搜索和推理临床与监管数据。此次更新允许用户通过统一的文件系统界面查询FDA文档、ClinicalTrials.gov以及国际登记处的信息。

0 人收藏 0 人点赞

#open-data

发布了免费的980万文档印度语系多语言语料库——印地语、孟加拉语、泰米尔语、泰卢固语及其他7种语言 (CC0许可, HuggingFace) [P]

Reddit r/MachineLearning ↗ · 2026-05-18

在HuggingFace上发布了一个免费的980万文档多语言印度语系语料库（11种语言，CC0许可），包含约84亿个token，专为多语言研究而构建。

0 人收藏 0 人点赞

#open-data

Protovoters：面向民主的免费、可获取选民档案

Lobsters Hottest ↗ · 2026-04-23 缓存

Protovoters 是一个开源工具，可帮助用户利用公开数据构建本地选民档案，并配合标准地理空间软件使用，旨在取代 VAN 或 NationBuilder 等昂贵的专有平台。

0 人收藏 0 人点赞

#open-data

340万块太阳能板

Hacker News Top ↗ · 2026-04-22 缓存

GM-SEUS 开放数据集第二版现已标注 340 万块美国太阳能板，并新增屋顶阵列，较第一版的 290 万块有所提升。

0 人收藏 0 人点赞

#open-data

DR-Venus：仅用1万开源数据打造边缘级前沿深度研究智能体

Hugging Face Daily Papers ↗ · 2026-04-21 缓存

DR-Venus-4B 是一个40亿参数的深研智能体，仅利用1万条开源样本，通过「智能体SFT+回合级奖励RL」训练，在多项研究基准上超越以往90亿以下模型，逼近300亿级系统，且可部署于边缘设备。

0 人收藏 0 人点赞

#open-data

<p>让公民轻松获取政府数据，专为 AI 优化</p> <p><a href="https://www.producthunt.com/products/katzilla?utm_campaign=producthunt-atom-posts-feed&utm_medium=rss-feed&utm_source=producthunt-atom-posts-feed">讨论</a> | <a href="https://www.producthunt.com/r/p/1126844?app_id=339">链接</a></p>

0 人收藏 0 人点赞

#open-data

更好的议会文件，以及创新有多难

Bert Hubert ↗ · 2026-02-16 缓存

Bert Hubert 描述了他如何在荷兰议会二院文件中添加超链接，以及如何将辩论中的动议编号与文档关联，并反思了创新的缓慢进程。

0 人收藏 0 人点赞

open-data

Open Repair Data Standard – Open Repair Alliance

我测试了5个AI模型对同一新闻文章的摘要。它们都继承了原文的框架，即使试图保持中立。我是新手，请多包涵

@lhoestq: 你不知道你其实需要本地 Common Crawl

@james_y_zou: 我们将超过22万份FDA监管文件和超过100万份临床试验文档添加到了#paperclip。所有这些都原生编入索引，供智能体使用，而且免费。现在……

发布了免费的980万文档印度语系多语言语料库——印地语、孟加拉语、泰米尔语、泰卢固语及其他7种语言 (CC0许可, HuggingFace) [P]

Protovoters：面向民主的免费、可获取选民档案

340万块太阳能板

DR-Venus：仅用1万开源数据打造边缘级前沿深度研究智能体

Katzilla

更好的议会文件，以及创新有多难

提交意见反馈