欧洲药典(Ph. Eur.)于12.3版发布了《5.38 数据质量》(Quality of Data)新通则,聚焦如何确保数据质量,以增强对数据驱动应用、模型及其预测结果可靠性的信心。对于依赖多源、大数据量的机器学习(ML)和人工智能(AI)而言,这一点尤为关键。
通则5.38为整个数据生命周期内的数字数据质量管理提供了框架,覆盖从实验室质量控制(QC)、过程分析技术(PAT)、实时放行检测(RTRT)、连续制造到基于ML/AI的自动化决策(ADM)系统,适用于大、小数据量,批处理或流式数据,结构化与非结构化数据,是对Ph. Eur. 现有的支持制药行业数字化和技术创新通则的进一步补充,这包括应用于分析数据的化学计量学方法(5.21)、多变量统计过程控制(5.28)、实验设计(5.33)、化学成像(5.24)和过程分析技术(5.25)。
这是主要监管机构首次针对“数据质量”这一概念发布指南级别的文件,其框架与业界熟知的数据可靠性(Data Integrity)不同,因其初衷侧重于确保高质量的数据用于各类信息化自动化工具,而非确保数据本身的合规性。为便于理解,两者的关联似可以类比为“药品质量”与“药品质量保证”之间的关系。
以下是通则重点内容摘要,供读者参考。
管理数据质量首先要梳理数据来源
理解数据的来源(即其物理来源)是评估数据质量的第一步。数据可通过数据录入获得,即人工从记录本录入,或自动从实验室仪器采集,也可通过第三方来源、数据库、实验室信息管理系统(LIMS)或云端提供,以不同格式、不同频率(批处理或流式)等方式生成。来自传感器等物联网设备的数据需关注设备运行条件与数据流转过程,以评估外部因素对数据完整性的冲击。
此外,来自本地数据库数据在到达一定规模后存在扩展与管理挑战,需建立规范流程保障数据安全与可恢复性;数据仓库、数据集市与数据湖在结构化程度与应用场景上各具特点。
GMP要求来自各种来源(生产系统、传感器、人工输入等)的数据必须准确且一致。数据的存储与保存必须符合既定的内部与外部标准及法规。这里将“数据质量”与“数据可靠性”建立了联系。
数据质量与数据可靠性:评估维度大同小异,各有侧重
数据质量水平取决于其符合用户自定义的质量维度及其具体度量值,从而确保数据适用于既定用途(fit for purpose)。
通则建议,质量度量标准的定义应由数据分析师与领域专家共同协作制定,同时给出了业界普遍接受的数据质量维度如下:
准确性(Accuracy/Trueness):与已知正确或真实值一致程度,控制系统误差/偏倚。
不确定性(Uncertainty):一组数据值围绕其均值的分散程度,支持合并标准不确定度。
精密度(Precision):重复观测值彼此接近的程度,控制随机误差。
完整性(Completeness):数据集包含其应包含的所有值的程度(即无缺失值)。
一致性(Consistency):数据集中、跨数据集、与标准定义保持协调。
及时性(Timeliness):数据首次创建至其可被下游流程和人员实际使用之间的延迟。
可重现性(Reproducibility):数据可被他人独立验证并重复。
真实性(Veracity):数据的准确性,与源数据验证相关。
读者可回顾“数据可靠性”的ALCOA+原则(翻译采用《药物临床试验计算机化系统和电子数据指导原则(征求意见稿)》)。
A(Attributable),可归因性;
L(Legible),易读性;
C(Contemporaneous),同时性;
O(Original),原始性;
A(Accurate),准确性;
C(Complete),完整性;
C(Consistent),一致性;
E(Enduring),持久性;
A(Available When Needed),可获得性;
T(Traceable),可追溯性。
对比可见,两者在基本质量维度上高度一致,均强调数据的准确性、完整性与一致性,但视角与适用范围也有所不同。数据质量水平是一个通用性框架,旨在确保数据“适用于既定用途”,其维度定义更侧重于技术度量与过程控制,如通过精密度(Precision)控制随机误差、通过不确定性(Uncertainty)量化数据分散程度,这些维度具有较强的统计与工程色彩,适用于广泛的数据管理场景。
数据全生命周期管理:围绕ETL流程
除了理顺数据源并提出数据质量标准,通则5.38还给出如何确保数据质量的管理框架。数据管理可概括为 ETL(Extract-Transform-Load) 流程:先从来源抽取数据,在暂存区内进行清洗、转换与增强,最后加载供使用。
抽取Extract
在数据抽取阶段,原始数据最好以开放格式直接进入标准化或自动化的工作流管道;原始数据及其配套的元数据必须包含足够的信息;所有原始数据与源数据必须可追溯、可检索,以供后续评估。数据可从不同位置或来源抽取(收集),加以整合。此外,应引入主题专家对数据进行审查,以评估其是否适用于既定用途,及时识别与解决数据异常情况。
转换Transform
在数据转换阶段,核心任务是将原始数据整理成适于分析的标准化格式,涵盖三个主要方面:
清洗,旨在解决数据一致性与完整性问题,依据规则处理异常值、重复值等,并通过可追溯的数据重构与策展提升处理透明度;
转换和集成,将数据整理成便于分析的格式与模板。标准化,可能包括过滤、聚合、汇总、单位与类型转换、(必要时)加密、执行治理审计及质量检查等操作。
增强,通过逐步或实时补充相关信息,以充实数据内容,使其更聚焦于分析目标。
加载Load
在数据加载阶段,转换后的数据被传送至目标位置供使用,例如:决策面板,支持灵活查询的数据库等。
在ETL过程中,数据进入目标暂存区后可能经历修改、生成新数据集,被丢弃、恢复或使用。对此过程应有完整文档记录,需包含数据的来源、格式、结构以及所作的任何转换或修改,这些记录可以通过版本控制系统进行有效跟踪和管理。
在ETL流程基础上,数据生命周期管理涵盖如质量评估、处理步骤、分析、计算与结果报告、数据集成与验证等内容。重点包括数据的归档与存储,在法定保存期内应检查存储数据的可获得性,必须在整个数据生命周期内证明所有数据的可追溯性与完整性。
四川省医药保化品质量管理协会党支部召
按照省市场监督管理局社会组织联合..关于举办2026年度四川省药品生产企业质
各药品生产企业: 2026年是我国..四川省医药保化品质量管理协会召开第七
2025年12月17日,四川省医药保化品..协会党支部组织党日主题学习会
协会党支部组织党日主题学习会 --..关于相关收费标准的公示
根据四川省医药保化品质量管理协会..协会党支部组织党日主题学习会
协会党支部组织党日主题学习会 --..