标签
本技术指南介绍了如何使用 Python 和 Apache Spark 实现自定义查询语言(EHQL),重点在于使用 Lark 定义语法和解析。
MediaCrawler是一个多平台自媒体数据采集工具,支持小红书、抖音、快手、B站、微博、贴吧、知乎的公开内容抓取,利用浏览器登录态绕过JS逆向,降低技术门槛。
Hugging Face 描述了如何利用AI、开源工具和人工监督,为其huggingface_hub库构建每周发布流水线,从而实现更快、更可靠的版本发布。
sqlite-utils 4.0rc1 是一个候选发布版本,新增了内置数据库迁移(从 sqlite-migrate 移植而来)以及通过 db.atomic() 实现的嵌套事务,同时包含少量不向后兼容的更改。
sqlite-utils 4.0rc1 是 Python CLI 工具的一个发布候选版本,该工具简化了 SQLite 数据库操作。
MediaCrawler 是一个开源的多平台自媒体数据采集工具,支持小红书、抖音、微博、B站、快手等平台的公开信息抓取,无需JS逆向,基于Playwright浏览器自动化。
Peter Norvig 的经典教程,讲解如何在Python中实现Scheme解释器,阐述了语言解释和求值的核心概念。
代理强化训练器(ART)是一个开源框架,将基于GRPO的强化学习嵌入任何Python应用,使代理能够通过环境交互学习,利用轨迹评分和LoRA更新,据称使用Qwen 2.5 14B模型在邮件检索任务上超越OpenAI的o3。
数据迁移时作者提议用Python做比较工具,但团队因历史原因(50多年都在用)坚持使用COBOL,反映传统技术惯性。
作者解释了算子融合是torch.compile加速的关键机制,并提供了一个仅500行的Python最小实现及配套的笔记作为教学工具。
推荐了一个14k Stars的开源项目blind_watermark,通过频域隐写在DWT-DCT-SVD变换域嵌入盲水印,肉眼不可见且抗裁剪、压缩、翻拍等攻击,纯Python实现,适用于防泄露和防盗流。
Agentic Context Engine(ACE)是一个开源的Python工具,它通过一本从执行轨迹和反馈中提炼的策略 Skillbook,为AI智能体增加持久学习能力。
一款名为 Crawl4AI 的开源网络爬虫工具爆火,它提供免费且对 LLM 友好的抓取功能,包括 JavaScript 渲染、异步爬取和清晰的结构化输出,与 Firecrawl 等付费服务形成对比。
英伟达推出了SpatialClaw,一个基于代码的免训练代理框架,用于复杂视觉空间推理任务,在20个基准上平均达到59.9%,比之前最佳模型高11.2分。
ClawCodex(一款开源的Claude Code Python重构版)现已将Z.ai的GLM-5.2作为一级提供商支持,并附带演示:一次调用便构建出FIFA World Cup 2026介绍页面。
WeiboAI 发布了 VibeThinker-3B,一个在本地测试编码任务的小型 3B 推理模型,在算法问题上取得了 3/3 的成绩。
Charlie Marsh 宣布推出 uv audit,这是 uv 包管理器中用于项目依赖的原生漏洞扫描功能。
Reflex 团队通过移除生成器开销、内联函数以及实现 Rust 绑定,将其 AI 代码生成检查器中的 Python ast.walk 速度提升了 220 倍。
Trinket.io 关闭后,Strive Math 在 trinket.strivemath.org 推出了免费、由社区托管的版本,支持 Python、HTML、Java 等语言的浏览器内编码,提供交互式课程创建,无需下载。