AI 财报提取

需求文档

纯本地规则引擎的财报数据结构化提取工具，零 LLM 依赖，离线可跑。支持三大报表 ~110 字段全量覆盖、勾稽校验、4 条 Guardrail 规则。

财报提取需求文档-上

财报提取需求文档-下

三种提取模式：quick（20核心字段） / full（~110字段） / custom（自定义）。PDF 解析 → 规则引擎字段提取（schema.yaml 别名映射 + 正则匹配）→ Guardrail 合规 → 勾稽校验 → JSON 输出。

财报提取对话设计-上

财报提取对话设计-下

PDF 输入 → pdf_parser 解析（PyMuPDF + 表格识别 + 跨页拼接 + 单位检测）→ 字段提取（表格优先 → 文本兜底 → null）→ Guardrail（G1单位/G2空值/G3勾稽/G4来源）→ 输出 JSON。

财报提取流程图-上

财报提取流程图-下

分层架构：PDF 解析层（PyMuPDF）→ 规则引擎层（schema.yaml 驱动）→ Guardrail 层（4条规则）→ 校验层（勾稽 + 异常检测）→ 输出层（JSON）。

财报提取架构图-上

财报提取架构图-下

技术栈：Python + PyMuPDF + 纯规则引擎（无 LLM） + pytest

项目地址：GitHub

财报提取README-上

财报提取README-下