近日,作为制药业主流技术协会,美国注射剂协会(PDA)为应对人工智能(AI)和机器学习日益突出的重要性,通过其药品制造数字化倡议开发了一套专为制药行业量身定制的独特资源——AI术语表。该术语表提供了清晰、标准化的AI相关术语定义,并增补与药品制造相关的背景信息。
截稿时该表包含共计91个术语,预计会不断更新,点击“阅读原文”可直达PDA页面。
AI在药品生产制造和质量管理中的应用愈加广泛,但如识林专题文章《全球主要药监机构 AI 监管的进展与方法概览》所述,国内药监部门尚无官方的AI定义和相应的术语表。眼下各种概念层出不穷,已成为业内日常谈资,其定义(尤其是边界)却往往模糊不清,药企在使用AI和面对AI监管时可能遇到各种问题。PDA的这份术语表可以作为一个依据。
现将部分重点术语翻译如下,按字母顺序排列,供读者参考。
人工智能(AI)
人工智能是一门位于计算机科学、应用数学和工程学交叉领域的科学学科,致力于开发能够执行传统上需要人类智能才能完成的任务的系统。从功能角度来看,AI 可以定义为在机器中模拟或近似人类智能。AI 包括机器驱动的学习、推理和感知,广泛应用于包括金融和生命科学在内的各个行业。
通用人工智能(Artificial General Intelligence,AGI)
一种高度先进的人工智能形态,具备理解、学习和跨广泛任务应用知识的能力,其水平可与人类智能相媲美。在制药应用中,AGI 可通过自主设计实验、优化复杂流程、解读大量科学数据以及生成新假设等方式彻底变革药物发现、开发和制造。
算法(Algorithm)
软件系统中用于解决特定问题或高效执行任务的结构化步骤序列。算法分析复杂数据集、检测模式、预测结果,并优化制药行业的药物发现、开发和制造流程。定制方法包括机器学习、深度学习、自然语言处理和优化算法。
大数据(Big Data)
需要先进处理方法的极其庞大且复杂的数据集。在制药领域,大数据应用包括识别特定药物疗法的患者亚群、优化制造流程以及预测安全或监管风险。
关键数据元素(Critical Data Element,CDE)
确保药品质量、安全性和有效性的特定且关键的数据,它在决策、监管合规和制造可靠性(manufacturing integrity)中发挥着重要作用。常见的CDE包括原料属性、工艺参数、质量控制指标和产品质量标准。关键示例包括关键工艺参数(CPP)、关键物料属性(CMA)和关键质量属性(CQA),以及它们的接受标准和合规值。
交叉验证(Cross-Validation)
一种验证方法,将数据集分割成多个子集,用其中一些来训练模型,而用另一些来测试模型。这种方法有助于更好地泛化并减少模型偏倚(Bias)。
数据治理(Data Governance)
用于管理数据收集、存储、使用和安保的一套政策和程序。强大的数据治理确保数据可靠性、安全性和监管合规,并支持药物开发和制造过程中的明智决策。
数据科学(Data Science)
一个跨学科领域,结合了统计学、AI、计算机科学和领域专业知识(例如化学计量学),从大型和复杂的数据集中提取可操作的洞察和知识。制药行业的应用包括使用光谱数据识别药物处方中的关键化学成分、在制造过程中监控工艺参数以及确保产品质量和一致性。
数字孪生(Digital Twin)
物理制造流程、系统或设备的复杂数字副本,涵盖其结构、行为、性能和功能。数字孪生整合传感器和设备数据,创建实时模拟以反映实际系统行为,使公司能够监控、分析和优化生产工艺、设备性能和产品质量。更多好处包括预防性维护、流程优化和无需中断实际运行即可进行情景测试。
可解释性(Explainability)
机器学习模型的决策过程被人类理解并解释的程度。可解释性对于信任、透明度、监管合规以及确保制药应用中由 AI 驱动的决策可诠释性(interpretable)至关重要。
垃圾进/垃圾出(GIGO)
一个强调输入数据质量差会导致 AI 生成的结果不可靠且不准确的概念,突出了高质量的、经过适当处理的数据的重要性。
生成式AI(Generative AI)
生成式 AI 是人工智能的一个子集,能够基于从现有数据中学习到的模式和示例创建新内容,如图像、文本或音乐。制药行业的应用包括:1)训练算法,使其能够基于已知药物化合物及其生物活性的大型数据库来预测可能具有类似药理学效应的新分子;2)设计优化的药物处方和递送系统,考虑溶解度、稳定性和生物利用度等因素。
幻觉(Hallucination)
AI 系统(尤其是基于像 GPT-4 这样的先进模型)生成错误、误导或无意义的输出的情况,尽管它们表现出高度的自信。幻觉可能是由于训练数据中的偏差、模型限制或问题空间(problem space)中的固有不确定性造成的。
大型语言模型(LLM)
能够理解和生成类似人类文本的计算机程序。在制药行业中,LLMs 作为智能助手处理大量书面信息,使研究人员和专业人士能够做出更明智的决策。
窄人工智能(Narrow Artificial Intelligence)
为特定任务设计和开发的人工智能应用和技术,例如语音识别、图像分类、欺诈检测和预防性维护。与通用人工智能(AGI)不同,窄人工智能(也称为弱人工智能,weak AI)专门针对特定任务或有限范围的任务,以高效率和准确性执行,但不具备人类般的通用推理能力。它依赖于明确定义的数据集、结构化目标和清晰的操作环境,这在需要可预测性、可靠性和可解释性的 GMP 环境中是完美的组合。制药行业的应用示例包括:1)在灌装至最终操作中的异常检测;2)无菌生产设备的预防性维护;3)环境监测数据分析;4)实时工艺参数优化;5)注射产品的自动化目检;6)外包装的标签确认;7)AI 驱动的偏差管理中的根本原因分析(RCA);8)用于在线监测的过程分析技术(PAT)模型。
过拟合(Overfitting)
机器学习模型对训练数据学习得过于彻底,捕捉到噪声或随机波动,导致在新的、未见过的数据上表现不佳。过拟合可以通过正则化、剪枝和使用更多样化的数据来缓解。
提示词工程(Prompt Engineering)
在语言模型(如 GPT)的背景下,对提供给 AI 模型的指令进行系统设计和优化,以提升用户交互和生成输出的质量。有效的提示词工程能够增强模型的准确性和相关性,改善自动化文本生成、对话式 AI 和决策支持系统等应用。
负责任的 AI(Responsible AI)
负责任的 AI 涵盖了人工智能技术的伦理和负责任的开发、部署和使用,包括旨在确保 AI 系统的设计、实施和治理以优先考虑患者安全、隐私、透明度、公平性、社会效益和监管合规的原则、实践和政策。在制药行业,关键考虑因素包括数据隐私和安全、算法偏差和公平性、AI 模型的可解释性(explainability)和可诠释性(interpretability)、监管合规以及临床应用中的伦理决策。制药公司遵循负责任 AI 的原则,能够与利益相关者建立信任,降低 AI 部署的风险,并最大化 AI 驱动的创新在医疗保健领域的社会价值。
标记(Token)
自然语言处理(NLP)中的基本构建块,通过将文本分割成更小的组成部分,如单词、子词(sub-words)或符号来创建。标记代表个体语言单位,包括单词、标点符号和数字,使 AI 模型能够高效地处理和理解人类语言,在情感分析、机器翻译和语音识别等任务中发挥作用。
验证数据(Validation Data)
与更广泛的验证概念(即确保制造过程的一致性、可靠性和合规性)不同,验证数据是用于评估机器学习模型性能的单独的、有文档记录且可追溯的标记数据子集。这些数据可能包括从不同来源或时间段收集的独立数据集,用于评估模型在未见过的数据(unseen data)上的表现。通过使用验证数据对机器学习模型进行严格的验证,制药公司可以识别和缓解潜在的偏倚、过拟合和其他错误来源,确保预测模型的可靠性,并在支持药物发现、开发和监管决策方面发挥效力。最佳实践是验证数据应有文档记录且可追溯。
认真落实巡视组反馈意见,进一步规范协
按照四川省市场监督管理局党组巡视..关于相关收费标准的公示
根据四川省医药保化品质量管理协会..关于召开会长办公会的通知
各会长、副会长单位: 根据四川..四川省医药保化品质量管理协会组织召开
2025版《中国药典》将于2025年10月..四川省医药保化品质量管理协会召开第七
四川省医药保化品质量管理协会第七..“两新联万家,党建助振兴”甘孜行活动
为深入贯彻落实省委两新工委、省市..学习传达中央八项规定精神专题会议
2025年4月22日,协会党支部组织召..关于收取2025年度会费的通知
各会员单位: 在过去的一年里,..四川省应对新型冠状病毒肺炎疫情应急指
四川省应对新型冠状病毒肺炎疫情应..四川省应对新型冠状病毒肺炎疫情应急指
四川省应对新型冠状病毒肺炎疫情应..