标签
该论文介绍了 simdjson,这是第一个能够在单核上使用 SIMD 指令每秒处理数 GB 数据的验证性 JSON 解析器,相比 RapidJSON 等现有解析器实现了显著的加速。
本技术指南介绍了如何使用 Python 和 Apache Spark 实现自定义查询语言(EHQL),重点在于使用 Lark 定义语法和解析。
百度发布Unlimited-OCR,这是一个基于Deepseek-OCR构建的开源模型,用于一次性长程文档解析,支持单张图片、多页文档和PDF。
一份全面的指南,介绍HTTP服务器的工作原理,涵盖网络协议、分块编码、状态机、解析器编写和并发基础知识,并附有亲手构建的说明。
C++26的#embed和静态反射,结合simdjson库,允许在编译时解析JSON,将配置文件转化为编译时常量,无运行时开销。
深入探讨正则表达式解析HTML的局限性,灵感来源于Stack Overflow的著名回答,讨论了形式语言理论和工业级正则表达式引擎的能力。
Parse-Flow 是一个开源的可视化工作流设计器,它将文档智能原语(解析、提取、分类、拆分)组合成可复用的流水线,底层基于 LlamaIndex 和 Python 工作节点。
LlamaIndex发布了ParseBench,这是一个用于评估AI智能体文档理解能力的全面基准测试,涵盖包含表格、图表和布局的复杂企业文档。将举办一场在线研讨会,讨论该基准测试的方法和结果。
本文详细介绍了在Rust中为Asset Hoard资产管理器实现.tres文件解析和资源图遍历的过程,支持Godot项目的外部依赖解析和拖放导出。
Infinity 发布了两个开源权重模型,Infinity-Parser2-Pro(35B)和 Infinity-Parser2-Flash(2B),它们登顶了 ParseBench 文档理解排行榜,利用了合成数据引擎和一种新颖的联合强化学习算法。
文章解释了为什么 Tree-sitter 不适合深度程序分析,并指出它会丢弃运算符和关键字等关键标记。文章提倡使用 Cubix 框架作为构建语义分析和重构工具的更稳健替代方案。
Gecko 是一个全新的可嵌入 C 库,可为任意上下文无关文法提供 GLR 解析、自动语法错误恢复,并保持 YACC 级速度。
DSPy 3.2.0 优化了 dspy.RLM 的解析、工具执行与故障恢复,并持续推进与 LiteLLM 的解耦。