SkillHub

insurance-policy-parser

v1.0.0

解析医疗险条款文档并提取32个结构化字段,含14个核心字段和18个增强字段,支持PDF/DOCX/TXT格式,输出标准JSON

Sourced from ClawHub, Authored by 马龙

Installation

Please help me install the skill `insurance-policy-parser` from SkillHub official store. npx skills add long1973m/insurance-policy-parser

医疗险条款结构化解析器

任务目标

  • 本 Skill 用于:从医疗险条款文档中提取32个结构化字段
  • 能力包含:解析PDF/DOCX/TXT格式文档,提取Level 1核心字段(14个)和Level 2增强字段(18个)
  • 触发条件:用户提供医疗险条款文档或文本内容,需要结构化提取时

前置准备

  • 依赖说明:无特殊依赖,已内置文档解析脚本

操作步骤

  • 标准流程:
  • 获取文档内容
    • 如果用户提供的是PDF/DOCX/TXT文件,调用 scripts/parse_document.py <file_path> 获取纯文本内容
    • 如果用户直接输入保险条款文本,直接使用该文本
  • 提取结构化信息
    • 根据 references/output-format.md 中的字段定义,从文档内容中提取对应信息
    • 智能体将逐项分析文档,填充以下两部分:
    • level1_core_fields: 14个绝对核心字段(年度限额、免赔额、赔付比例、续保条件等)
    • level2_enhancement_fields: 18个对比增强字段(家庭共享免赔额、特殊门诊、院外购药、CAR-T等)
    • 数据类型转换规则:
    • DECIMAL类型:金额转换为元(如"100万" → 1000000.00),比例转换为小数(如"100%" → 1.0000)
    • ENUM类型:严格使用枚举值(如免赔额单位:"年"/"次"/"疾病"/"住院")
    • BOOLEAN类型:根据表述判断("保障"/"是" → true,"不保障"/"否" → false)
    • INT类型:直接提取数字(如"30天" → 30)
  • 输出结果
    • 以JSON格式输出完整的结构化数据
    • Level 1字段必须填充,Level 2字段未明确说明可使用null
    • 确保所有字段类型和枚举值符合格式规范

资源索引

  • 必要脚本:见 scripts/parse_document.py(用途与参数:解析PDF/DOCX/TXT文件,返回纯文本)
  • 领域参考:见 references/output-format.md(何时读取:始终读取,用于了解字段定义和提取规则)

注意事项

  • 优先使用文档解析脚本处理文件,避免格式错误
  • 提取时保持原文含义,必要时可进行总结归纳
  • Level 1核心字段必须优先保证准确性,AI可100%提取无null风险
  • Level 2增强字段允许null,体现产品差异化
  • 严格按照数据类型转换规则处理数值、比例、枚举值
  • 确保JSON格式正确,避免语法错误

使用示例

  • 场景1:上传PDF医疗险合同
  • 调用脚本:python scripts/parse_document.py ./insurance_contract.pdf
  • 提取32个字段并输出结构化JSON
  • 核心字段示例:年度限额200万元、免赔额1万元/年、社保报销后100%赔付
  • 增强字段示例:院外购药保障、CAR-T治疗、家庭共享免赔额
  • 场景2:直接输入医疗险条款文本
  • 直接分析文本内容
  • 按格式规范输出32个字段的结构化JSON
  • 未明确说明的Level 2字段使用null表示