parsing

#parsing

一种类型化的代数解析方法

Lobsters Hottest ↗ · 昨天缓存

一篇介绍类型化代数解析方法的论文，很可能来自剑桥大学。

0 人收藏 0 人点赞

#parsing

@shubh6200: 要了解如何处理海量文件，请阅读 @geofflangdale 和 @lemir 的《Parsing Gigabytes of JSON per Second》…

X AI KOLs Timeline ↗ · 5天前缓存

该论文介绍了 simdjson，这是第一个能够在单核上使用 SIMD 指令每秒处理数 GB 数据的验证性 JSON 解析器，相比 RapidJSON 等现有解析器实现了显著的加速。

0 人收藏 0 人点赞

#parsing

使用 Python 和 Apache Spark 实现自定义查询语言

Lobsters Hottest ↗ · 6天前缓存

本技术指南介绍了如何使用 Python 和 Apache Spark 实现自定义查询语言（EHQL），重点在于使用 Lark 定义语法和解析。

0 人收藏 0 人点赞

#parsing

Unlimited OCR: 一次性长程解析

Hacker News Top ↗ · 6天前缓存

百度发布Unlimited-OCR，这是一个基于Deepseek-OCR构建的开源模型，用于一次性长程文档解析，支持单张图片、多页文档和PDF。

0 人收藏 0 人点赞

#parsing

@avrldotdev: 最佳指南，适合任何人深入了解HTTP服务器工作原理并亲手构建一个。本文将帮助你学习：0. 网络…

X AI KOLs Timeline ↗ · 2026-06-22 缓存

一份全面的指南，介绍HTTP服务器的工作原理，涵盖网络协议、分块编码、状态机、解析器编写和并发基础知识，并附有亲手构建的说明。

0 人收藏 0 人点赞

#parsing

使用C++26静态反射在编译时解析JSON

Lobsters Hottest ↗ · 2026-06-15 缓存

C++26的#embed和静态反射，结合simdjson库，允许在编译时解析JSON，将配置文件转化为编译时常量，无运行时开销。

0 人收藏 0 人点赞

#parsing

Stack Overflow上262,715个正则表达式问题尚未解答的问题（第二部分）

Lobsters Hottest ↗ · 2026-06-09 缓存

深入探讨正则表达式解析HTML的局限性，灵感来源于Stack Overflow的著名回答，讨论了形式语言理论和工业级正则表达式引擎的能力。

0 人收藏 0 人点赞

#parsing

@jerryjliu0: 我们构建了一个很酷的项目，展示了如何将核心文档智能原语组合成可复用的流水线…

X AI KOLs Following ↗ · 2026-06-04 缓存

Parse-Flow 是一个开源的可视化工作流设计器，它将文档智能原语（解析、提取、分类、拆分）组合成可复用的流水线，底层基于 LlamaIndex 和 Python 工作节点。

0 人收藏 0 人点赞

#parsing

解析 .avif 文件中的 XML EXIF（加一篇吐槽）

Lobsters Hottest ↗ · 2026-06-03

关于从 AVIF 文件中解析 XML EXIF 数据的讨论，包含一篇关于该主题的技术吐槽。

0 人收藏 0 人点赞

#parsing

@jerryjliu0：目前有很多针对AI智能体的编码和推理基准测试，但在文档理解方面却很少——而这正是所有下游知识工作的前提。

X AI KOLs Following ↗ · 2026-05-18 缓存

LlamaIndex发布了ParseBench，这是一个用于评估AI智能体文档理解能力的全面基准测试，涵盖包含表格、图表和布局的复杂企业文档。将举办一场在线研讨会，讨论该基准测试的方法和结果。

0 人收藏 0 人点赞

#parsing

使用Rust解析Godot .tres文件并遍历资源图

Lobsters Hottest ↗ · 2026-05-16 缓存

本文详细介绍了在Rust中为Asset Hoard资产管理器实现.tres文件解析和资源图遍历的过程，支持Godot项目的外部依赖解析和拖放导出。

0 人收藏 0 人点赞

#parsing

@jerryjliu0：一组新的开源权重模型正在登顶文档理解排行榜，INF 刚刚发布了两个模型：Inf…

X AI KOLs Following ↗ · 2026-05-15 缓存

Infinity 发布了两个开源权重模型，Infinity-Parser2-Pro（35B）和 Infinity-Parser2-Flash（2B），它们登顶了 ParseBench 文档理解排行榜，利用了合成数据引擎和一种新颖的联合强化学习算法。

0 人收藏 0 人点赞

#parsing

为什么 Tree-Sitter 不适合程序分析

Lobsters Hottest ↗ · 2026-05-11 缓存

文章解释了为什么 Tree-sitter 不适合深度程序分析，并指出它会丢弃运算符和关键字等关键标记。文章提倡使用 Cubix 框架作为构建语义分析和重构工具的更稳健替代方案。

0 人收藏 0 人点赞

#parsing

Gecko：一款支持自动语法错误恢复的快速 GLR 解析器

Lobsters Hottest ↗ · 2026-04-23 缓存

Gecko 是一个全新的可嵌入 C 库，可为任意上下文无关文法提供 GLR 解析、自动语法错误恢复，并保持 YACC 级速度。

0 人收藏 0 人点赞

#parsing

@isaacbmiller1：DSPy 3.2.0 发布！亮点速览：- dspy.RLM 在解析、工具执行与故障恢复方面的改进……

X AI KOLs Following ↗ · 2026-04-21 缓存

DSPy 3.2.0 优化了 dspy.RLM 的解析、工具执行与故障恢复，并持续推进与 LiteLLM 的解耦。

0 人收藏 0 人点赞

parsing

提交意见反馈