标签
Infinite 是一个开源运行时,它将 Google Analytics 4、PostHog 和 Stripe 的数据统一到本地数据库中,为分析和支付数据提供统一视图。
GreptimeDB v1.1 引入了对现有表的在线重新分区、增量 Flow 读取、面向 LLM 的语义层以及稳定性改进。
Cleo 是 Qwen3.5-2B-Base 的微调版本,专为Text-to-SQL任务设计,使用统一的训练和推理框架,支持实时执行证据和安全检查。所有代码、模型和数据集均为开源。
本文解释了 TimescaleDB 的 hypercore 引擎如何通过列式存储以及 delta 编码和 Gorilla XOR 等专门算法,为时间序列数据实现高达 98% 的压缩率,并将其与 PostgreSQL 的 TOAST 进行了对比。
GreptimeDB v1.1.0 已发布,提供高达97%的PromQL查询加速,整体查询时间降低20-40%,在TSBS扫描密集型查询上性能提升高达4.5倍,并支持对现有表进行在线重分区。
LangChain宣布推出SmithDB,这是一个专为代理可观测性构建的分布式数据库,为LangSmith提供支持,性能提升高达12倍,并支持复杂的代理跟踪查询。
本推文介绍了Cloudflare提供的多种开发功能,包括对象存储R2、后端API Worker、AI网关AI Gateway、容器、缓存KV、数据库D1和PostgreSQL连接HyperDrive等,强调其价格便宜、功能丰富且免费额度充足。
本文对比了在大服务器上现代PostgreSQL(版本15-19)和MySQL 8.4的写入密集型sysbench性能,发现InnoDB通常在写入吞吐量方面优于PostgreSQL,且变化较小。
中国开源了 Zvec,这是一种进程内向量数据库,无需服务器即可在应用内部运行,支持毫秒级搜索数十亿向量,并已在阿里巴巴规模下经受了实战考验。
一款免费的开源工具,可在浏览器本地将 SQL CREATE TABLE 语句转换为交互式实体关系图,支持多种 SQL 方言。
本研究探索了在任意SQLite查询中,确定每个结果列的源表和源列的方法,通过使用SQLite内部列元数据API(通过Python的apsw库或ctypes桥接访问),并应用于Datasette等工具。
Oracle 的 AI 数据库现在包含了用于基于嵌入的图像搜索的向量存储功能,展示了创新特性,使其成为一个统一的数据存储解决方案。
Soma-SQL提出了一种自主方法,利用合成查询日志和歧义驱动的执行探测,解决自然语言到SQL翻译中的多源歧义问题,在执行准确率上比最先进的基线平均提升13%。
PgDog 是一个开源代理,使 Postgres 实现水平扩展,已从 Basis Set、YC 等机构获得 550 万美元融资。该工具已在生产环境中每秒处理超过 200 万次查询。
ICE否认拥有抗议者数据库,但一封致国会的信显示,该机构收集参与抗议活动者的信息,包括未被逮捕者,而人们担忧美国公民受到监视。
GitHub 上有一个精心收集的数据工程师面试题库 data-engineering-interview-questions,收录了超过 2000 道题,覆盖数据库、大数据框架、云平台、数据可视化等核心方向。
PostgreSQL 文档介绍了属性图(Property Graphs),这是一种 SQL/PGQ 特性,允许使用图模式匹配语法查询关系数据,并将其定义为基于表的只读视图。