背景
客户是一家专注于二级及以上医院 HIS 系统的医疗 SaaS 公司,产品涉及电子病历、医嘱、检验检查等核心业务模块,客户合同里写明必须满足 GB/T、HL7 FHIR 与 NMPA 医疗器械注册等多重合规要求。
他们有 6 名产品经理和 2 名合规专员,每发一个版本要把整套用户手册、培训材料和接口说明全部对照标准过一遍 —— 平均一次发版要花 3 个工作日。我们接到的诊断需求是:能不能把这件事压到 1 天以内,但前提是不能把任何医疗术语错误地放出去。
挑战
- 47 份核心标准文档中,有 11 份是扫描版 PDF,文字层缺失
- 医疗术语强敏感 —— 「诊断」与「辅助判断」在合规上是完全不同的两个词
- 客户法务要求所有 AI 处理过程必须在客户内网完成,不能调外部 API
- 团队过去有过一次 ChatGPT 误推荐用药剂量的事故,内部对 AI 信任度低
「在医疗这个行业,我们宁可 AI 慢一点、谨慎一点 ——
但每一次输出都要可解释、可追溯。」
但每一次输出都要可解释、可追溯。」
—— 客户合规负责人,首次访谈记录
方法论
我们把审校链路拆成 私有化 RAG 检索 + 双模型交叉审 + 人工终审 三段式。每一段都有显式的 trace 输出,让合规专员可以从任何一个判断结论反查回到原文 chunk。
STEP 01
标准文档结构化
扫描版 PDF 统一 OCR + 段落分级,把 47 份文档切成约 6,200 个语义块
STEP 02
私有化向量库
在客户内网部署 Qdrant + bge-m3,所有 embedding 计算不离场
STEP 03
Claude 3.7 双角色审校
一份文档先由「扫描者」模型挑出可疑段,再由「复核者」模型逐段对照标准引用
STEP 04
可追溯 trace
每条 AI 判断都会输出引用了哪个 chunk + 对应的原文位置,合规专员一键跳转
STEP 05
人工终审
AI 输出 risk-ranked 报告,合规专员只需 review Top 风险项,工作量从 3 天压到 4 小时
STEP 06
回归监控
30 份历史合规事故文档作为回归集,每次模型或库更新都自动跑一遍
对比 · Before / After
BEFORE
「本系统支持医生根据症状作出诊断,辅助医院提升诊疗效率。」
问题:「诊断」在 NMPA 二类器械语境下需特殊声明,直接使用属合规风险
AFTER
「本系统提供症状信息整理与参考资料检索,供医生在临床决策时参考。最终诊断结论由医生负责。」
改进:用语贴合 NMPA 医疗器械软件指导原则,明确责任主体
注:示例为脱敏后的简化版本。
成果数据
单次发版审校耗时 · 工时
v1.8 起启用 AI 审校管线
−87%
vs. 启用前 6 个版本均值
v1.5v1.6v1.7v1.8v1.9v1.10v2.0v2.1v2.2
客户原声
Z
"海帆团队最让我们印象深刻的不是模型多新,而是他们坚持把每一步 AI 输出都做成可追溯的证据链。这在医疗行业不是 nice-to-have,是 must-have。"
Dr. Zhang · 客户合规与法务总监 · HIS SaaS
技术栈
Claude 3.7审校核心模型Qdrant向量数据库 (私有化)bge-m3中文 embeddingRAGAS检索质量评测海帆 Trace可追溯审计