导 读
为探究我国标准数字化工作的进展情况,2023年12月10日,《中国标准化》杂志社邀请中国标准化协会理事长于欣丽为主持人,中国标准化研究院国家标准馆副馆长甘克勤、中国标准化研究院标准化理论战略研究所副研究员刘曦泽、中国标准化研究院基础标准化研究所副所长王海涛、机械工业仪器仪表综合技术经济研究所所长欧阳劲松、国网思极数字科技(北京)有限公司副总经理王思宁、中国电子技术标准化研究院标准创新服务中心主任崔静、中国航空综合技术研究所研究员/专业总师曹平、中兴通讯有限公司首席ITU标准总监曲至诚为嘉宾,展开了一场标准人的对话。
习近平总书记指出,数字经济是全球未来的发展方向,要大力发展数字经济,加快推进数字产业化、产业数字化,推动数字经济和实体经济深度融合。2023年2月,中共中央、国务院印发了《数字中国建设整体布局规划》。该规划指出,建设数字中国是数字时代推进中国式现代化的重要引擎,是构筑国家竞争新优势的有力支撑。加快数字中国建设,对全面建设社会主义现代化国家、全面推进中华民族伟大复兴具有重要意义和深远影响。
当前,百年变局与世纪疫情交织叠加,经济全球化遭遇逆流,新一轮科技革命和产业变革加速演进,做大做强数字经济意义重大而深远。这不仅是提升产业链供应链自主能力、打造未来竞争新优势的迫切需要,也是推动制造业高质量发展、支撑构建新发展格局的重要途径,更是抢占国际竞争制高点、把握发展主动权的战略选择。
数字经济时代,数字化变革触及我们生产生活的方方面面,改变了传统的业务模式和价值链,模糊了物理世界和数字世界之间的界限。与第四次工业革命相关的数字产品和服务已经深刻改变了我们的生产和消费方式。
标准,作为质量基础设施的重要组成部分,无论对于政府、企业和整个社会,高质量的标准及其有效实施都是推动数字化变革的关键因素。
今天我们以“标准数字化的阶段性目标与实践”为题,以对话形式邀请学术界和产业界的嘉宾交流我国标准数字化工作在科研和实践中的进展。
今天的对话围绕5个问题进行:一是对标准数字化顶层设计的理解与建议,请国家标准馆甘克勤副馆长来介绍;二是标准数字化推进的阶段性设计与目标,请标准院战略所刘曦泽来介绍;三是标准数字化的重点突破口(核心难点或问题),请标准院基础所副所长王海涛来介绍;四是标准数字化国际进展情况及与国内的对比,请机械工业仪器仪表综合技术经济研究所所长欧阳劲松来介绍;五是本行业在标准数字化方面的实践与探索,请欧阳劲松所长,以及国网思极数字科技(北京)有限公司、中国电子技术标准化研究院标准创新服务中心、中国航空综合技术研究所、中兴通讯有限公司分别介绍各自的工作情况。
话题1:对标准数字化顶层设计的理解与建议
对标准数字化顶层设计的理解与建议,我主要分三个层面来说,一是标准数字化顶层设计的理解,二是标准数字化的需求和存在问题,三是标准数字化的建议。
第一、标准数字化顶层设计的理解
对标准数字化顶层设计的理解离不开ISO SMART的定义,ISO SMART(Standards Machine Applicable, Readable and Transferable)为机器可应用、可识读、可理解的标准。第0层是传统纸质标准(PAPER)。第1层是开放数字格式标准,“提供检索和阅读,比如PDF格式”。第2层是机器可读文档,即“结构化标准文档,内容可被软件处理”,这是在“语法”层面把标准进行拆解,拆成篇、章、节等段落,以及表格、图片等语法层面的内容碎片,进而存成XML(Extensible Markup Language, 扩展标记语言)或JSON(JavaScript Object Notation,一种轻量级的数据交换格式)。目前,标准馆用技术手段把所有的标准进行了OCR识别,并自动生成机器可读文档,该项工作在2013年已经全部完成。第3层为机器可读内容,即“语义增强内容,为一个目的接受多个标准的内容”,这是在“语义”层面,把标准组织成知识图谱,也是我们常说的标准剪裁。举个例子,喝茶至少和三类标准有关,茶叶标准、饮用水标准、杯子标准,可三类标准剪裁成专门针对喝茶的标准。尽管其存储形式也是XML或者JSON,但“机器可读内容”与“机器可读文档”最大区别正是其语义的表达。产品标准的语义,就是揭示标准化对象及其属性的关系。这也是标准馆目前在做的工作。我们针对26,000余项国家、行业、地方标准中的产品标准,做了标准化对象和指标项的知识组织,形成了87万余条的指标数据,初步具备了开展机器可读内容层面的标准知识服务能力。第4层为机器可解释内容,即“具备信息建模能力以表达内容关联要素,具备自学习的分析验证闭环能力,使得内容可达可推理,形成不间断的价值流,提供智能问答或预测内容”。这是在“语用”层面,描述标准文献的智能应用,主要包括:智能问答,基于标准知识图谱,能够去理解和回答问题,在一些实践应用场景,也能基于标准化对象和属性自动生成文档;不间断的价值流,就是展望从标准研制到应用的全流程,全部是数据形式,机器识读,没有人的参与,这就是价值流的不间断;具备自学习的分析验证的闭环能力,使内容可达可推理,即基于标准构建流程模型,使得内容可以进行推理,形成作业流程指导或者根因分析等专家系统,这也是我们目前正在研究的方向。
我认为标准数字化是一个交叉学科,包括图书馆学指导业务,标准化定义应用场景,计算机突破技术瓶颈,最终共同实现价值体现。我们需要用图书馆学、语义网和知识本体的理论去指导这个方法,用标准化理论与方法的来定义各种场景的应用需求。作为管理学科,在企业的应用场景中有没有数字化赋能标准化的需求,这种需求如何去提升,如何去挖掘?这是标准化学科需要做的事情。计算机学科做的是突破技术瓶颈,如高效计算、机器学习和自然语言处理等,机器能解决的只是代替人的重复性工作,解决的是从1到N的问题。从0到1的过程,一定是标准化的研究人员去根据需求分析出来,根据应用场景去设计。最后是价值体现,数字化赋能标准化、提升标准的实施能力,这是我现在认识的两个价值。我认为标准化本身是一个管理学科,在政府或企业的应用场景中,标准化还是应充分体现出管理特性,不管是标准大数据、标准制修订或者标准编写等软件平台,都是为政府或企业的标准化实施应用服务的,目标是提升它的数字化实施能力,让标准能够快速地应用到企业的具体工艺场景中,能够快速地让政府做出正确的决策。
第二、标准数字化的需求和存在问题
在需求上,标准数字化的信息服务,主要包括情报服务、检索服务和行业应用。情报服务,主要包括起草单位大数据分析,提出单位、归口单位、起草人和国别分析;检索服务,主要包括扩展全文搜索,建设指标数据库,细化检索体验,也就是要做到查到、查全、查准、关联;行业应用,包括标准制修订、标准编写、标准管理、标准查新查重、标准对比等。
信息服务包括传统服务和增值服务。传统的服务包括文献检索、文献阅览、信息咨询、信息跟踪、信息培训和信息推送,传统服务尽管需求明确,但是缺乏服务深化的潜力,而且供给饱和;增值服务主要包括专题的数据服务、知识服务、情报服务和工具服务,其主要问题为行业需求不明确,需要技术引领,产品先行,更多地引导和挖掘。
第三、标准数字化的建议
现阶段国家标准馆的标准数字化主要发展方向,一是定位需求痛点,用数字化赋能标准化,进而解决政府和企业的标准化管理需求,需求痛点就是标准化需要数字化赋能;二是补足短板,我们需要一个面向各行业的全流程解决方案,我们现有的全流程解决方案还存在着用户体验以及技术上的难题需要突破,需要大量的需求磨合和软件迭代升级;三是应用人工智能技术,包括解放传统工作和助力创新工作;四是延伸产品线,把标准数字化集成到企业的流程、设计、制造、管理、运维工具中。
点评:于欣丽甘克勤介绍了ISO SMART的定义,介绍了标准馆这几年对标准数字化所做工作,以及取得的成果。标准馆在2013年已经达到了SMART第2层,现在正在做第3层,取得了很好的成效。我们看到,在顶层设计方面,我国已经有了一个比较清晰的思路和框架,当然还需要不断完善。
话题2:标准数字化推进的阶段性设计与目标
我认为标准数字化推进的阶段性设计与目标这个问题,包括两个层次,第一个层次是要回答标准数字化作为一个新兴事物自身发展的规律是怎样的?第二个层次是面对这样的规律,我们如何更好地发挥它的作用,即开展阶段性设计。针对第一个层次的问题,可以参考一下知名咨询公司Gartner提出的技术成熟度曲线模型。我认为标准数字化作为一个新兴事物,是同样符合成熟度曲线的。首先,它会进入萌芽期,萌芽期间大家对相关概念、技术体系与技术路径并不熟悉;然后随着研究相关概念与技术路径的人员不断增多,很多技术解决方案就会被提出,这个时候就进入了膨胀期,这个时期会有很多的主体参与到标准数字化的研究与实践中,形成蓬勃向上的态势,目前我们就处于这一时期;第三个时期为冷静期,就是大家饱含热情去开展标准数字化研究与实践,发现还会面临许多更深层次的问题,比如数据之间通用性、兼容性、互操作性的问题,还有我们标准化体制机制转变的一些根本性的问题,此时,人们开始逐渐冷静思考如何构建标准数字化生态,各种实践方案也会逐渐通过标准化形成统一的接口,建立一致的底层框架与规则;第四个时期叫做复苏期,复苏期就会有比较成熟的企业或者机构站出来整合标准数字化相关资源,推进共识和底层规则的建立,构建共享的基础性框架,逐步形成相关的标准数字化生态,达到标准数字化真正支撑经济社会数字化转型的目的;最后一个时期是成熟期,这个时候会基于标准数字化的一些基础性成果衍生出很多新的商业模式、服务模式、工作模式,为大家提供更为明确的服务,满足人们的需求。这五个时期是从新生事物产生发展的内在规律角度,对标准数字化发展的可能趋势做的一个预测。
针对这样的内在规律,我们可以分四个阶段进行设计,以应对各个时期存在的可能风险。
第一个阶段叫做顶层谋划、系统布局阶段。这个阶段对应着标准数字化发展的萌芽期和膨胀期,目的在于尽快提出标准数字化可能的发展方向,有重点、分方向地推动标准数字化转型工作,避免萌芽期缺乏共识的情况,以及减少膨胀期自由发展可能造成的资源浪费。因此,这一阶段的工作重点是形成演进路线图、标准体系、建设指南等顶层设计成果。这一阶段持续时间不会太长,因为要尽快为大家指明一个方向。这一阶段主要包括三方面工作:第一,要跟踪国际立足实践,充分论证标准数字化转型的必要性与可行性。需要进行大量的用例征集,更清晰地进行需求分析与路径识别。第二,要设立国家级的科研项目,系统推进标准数字化关键技术攻关。因为我们知道标准数字化虽然是一个新生概念,但是其实它是涉及了一整套的技术体系。而且标准作为国家质量基础设施(NQI)的重要组成部分,需要有国家层面的项目来进行统筹和推进。现在我国已经围绕机器可读标准以及标准数字化演进关键技术与标准设立了两个重点研发计划项目。第三,要成立全国性的专业标准化技术组织,开展标准体系建设,去规范标准数字化转型的底层规则框架。现在我国也已经在国家标准委指导下成立了全国标准数字化标准化工作组(SAC/SWG 29)。经过这一阶段,基本能够构建标准数字化共识,明确发展方向与技术路径。
第二阶段是构建基础、有序推进阶段。我认为这一阶段大概需要使用3~5年的时间,完成相关基础性工作。这一阶段对应标准数字化发展的冷静期,要充分发挥好冷静期的优势,集中力量把转型基础构建好。主要包括四方面基础。第一是基础数据库与用例集的建设。标准数字化的核心资源就是数字化处理之后的标准内容数据。这些数据的生成、存储、共享共建、管理都需要花费大量人力物力来解决。同时,用例集作为数字化转型中必不可少的资源,也需要进行专门建设。它可以用于相关软件的需求分析、开发和测试,也可以用以帮助大家快速熟悉软件的使用和形成标准数字化时代所需的能力。第二是基础性标准。在数字化转型场景中,标准越来越起到引领的作用,针对标准数字化,需要尽快研制术语、分类、指南、规范、评价等系列标准。指导和支撑各主体开展标准数字化活动。第三是基础性制度的建设。标准数字化涉及的技术并非开创性的,但随着数字技术的引入,对现有标准化相关机制和制度造成的影响却是非常显著的。比如英国的BSI Flex采用数字技术和信息化的管理方式提升标准制定速度,将标准制定周期缩短到只有六个月,程序上更将新版本标准的征求意见环节与上一版本标准的使用环节合并为同一环节。这无疑需要建立新型的标准化机制,并制定和健全相应的标准化制度规范,才能保证这一程序有效运行。因此需要从理论方法、协作框架、业务机制等方面对基础性制度进行深入而系统的研究。第四是基础软件系统。其中的内涵很丰富,比如现在涌现出标准结构化编写工具,标准内容全生命周期管理系统,以及内容生成大模型的引入。这方面的基础建设可以说是标准数字化转型创造的新的价值增长点,也是大家都在踊跃尝试和参与的工作。但需要注意,软件系统虽然重要,建立好其他方面基础才能使软件系统得以体现价值。
第三个阶段是产业互联,打造平台阶段。这一阶段可能需要5年左右,对应标准数字化发展的复苏期。要充分发挥好产业龙头、链主企业的带头作用,将阶段二的基础性工作成果与产业发展深度融合,形成支撑产业高质量发展的平台。主要包括三方面工作:一是在广度上,将阶段二的各类基础性数据、标准、制度、软件进行推广应用,整合相关资源,推动各产业开展领域平台建设;二是在深度上,挑选重点产业,比如智能装备、航空航天、信息通信、检验检测等。面向具体场景打通标准、计量、检验检测、认证认可等方面的数字质量基础设施,推动产业链整体转型升级;三是开展标准数字化转型的经济效益评估,构建转型工作闭环,推广相关成果经验。
第四阶段是智慧融合、塑造生态阶段。这一阶段对应数字化发展的成熟期,是充分发挥标准数字化价值的阶段。经过前面几个阶段的努力,标准数字化转型工作已经具备与产业融合发展、服务经济社会需求的能力,需要开展长期建设与推进工作。主要涉及四个方面:一是要深入推进标准数字化与产业的融合,赋能产业链优化升级。在阶段三我们已经推动整个产业链的标准数字化转型,那这个阶段就需要进一步升级。二是要推进标准数字化自身向智能化发展,增强标准化能力,充分显示标准数字化转型的价值,例如可以深入地去探讨和使用大模型、人工智能技术在标准数字化领域更深层次的应用。同时,也需要我们去适应新型的面向数字化的标准化方式。第三是强化制度建设。保证面向数字化的标准化活动有序开展,有效支撑国民经济发展。第四,推广实践经验,加强国际合作与交流。这其实是一项需要贯穿1~4阶段的工作,我们国家的标准数字化转型有其自身特点,更多的是从系统顶层设计的角度、系统规划的角度、制度建设的角度去引领和推动相关科研与实践工作。通过建设国家层面的标准数字化基础设施引领、服务和支撑行业、领域、产业的数字化转型发展。这是我们的特点,也是宝贵经验,同时我们也需要学习国际国外先进的理论、方法以及制度建设经验。这样才能更好地融入国际标准数字化生态。
点评:于欣丽刘曦泽从战略的高度介绍了标准数字化的产生与发展。标准数字化经历了萌芽期、膨胀期、冷静期、复苏期和成熟期。分为四个阶段,第一阶段是顶层谋划、系统布局阶段;第二阶段是构建基础、有序推进阶段;第三阶段是产业互联,打造平台阶段;第四阶段是智慧融合、塑造生态阶段。刘博士提到了Flex标准,我认为它有很多优点,但是我们在看到它的优点的同时,行动上要慎重。BSI 2022年底国家标准53,500多项,而Flex标准是2020年1月才开始的第一项,截至2022年底,一共才22项,平均每年7项。它不是主流的,还处于探索期。
在标准数字化工作推进中,应该说在很长一段时间我们都会处于打基础、寻共识的初期阶段,在这个阶段,要不断吸纳各方,包括国际国外的思考和实践。
话题3:标准数字化的重点突破口(核心难点或问题)
标准数字化概念最早是从德国的工业4.0引出并不断演化延伸而来,在2018年形成了ISO SMART的概念,这一概念是集成性的概念。从ISO SMART的5层概念图可知,从0到3层主要描述标准形态和处理,第4层开始转向描述标准内容怎么用,面向应用来展开。标准数字化的目的是让标准更好地给人和机器使用,因此要兼顾人和机器两个角度。目前,标准数字化还有很多技术问题需要解决,一方面是自然语言的复杂性、内容多样性导致标准处理难;另一方面是标准应用难,应用场景复杂,标准中定性的内容(如原则要求等)也很难自动化应用。
目前我国国家标准数量很多,对企业、行业来讲,执行的不仅包括国家标准,还有大量的行标、地标、企标,也有各级管理机构发布的规范、指南等文件,这些都是标准数字化所要处理的对象。
标准数字化技术总体而言可分为两个层次:第一个是共性技术层面,解决通用、共性问题,并给出一般性解决方案,如自动解析处理、智能编写、全过程管理、结构化表示、智能应用等;第二个是个性技术层面,要结合具体领域特点,进行改造和优化,比如电力领域标准数字化就要考虑电力专业特点、场景和管理要求,需要具体问题具体分析。
标准解析、编写、管理方面,主要涉及自然语言处理、知识图谱、本体论、机器学习、大语言模型、数理逻辑等理论和技术。目前,这些技术都有比较广泛的研究和应用。特别是近两年,大语言模型(LLM)发展迅猛。大语言模型从通用性、处理效率及智能化程度上,确实有很大的优势,但在应用大语言模型的时候,要特别注意数据和算法倾向性、安全性、可靠性问题。无论是大语言模型还是其他技术,在标准化领域应用时,未必能直接使用,直接使用的效果未必很好,需要再训练、改造、优化或者适配。
其次,也要解决结构化表示问题,涉及存储、共享、处理、标注等一系列技术问题。对于内容的结构化形式和要求,有一些成果可以参考。比如国际标准化组织语言与术语技术委员会(ISO/TC 37)下面有两个分委会,其中术语资源管理分委会(ISO/TC 37/SC 3)提出了术语结构化的标准,目前已经纳入ISO标准数字化基本的标注框架。标准术语部分的结构化标注,就采用了ISO/TC 37发布的ISO 30042:2019《术语资源管理 术语数据库交换(TBX)》。另外,ISO/TC 37下还设有语言资源管理分委会(ISO/TC 37/SC 4),专门制定发布了一系列关于语言标注、内容标注、语义标注的国际标准,如针对时间、事件、角色、空间位置关系、数量信息等相关语义要素的标注,给出了标注基本要求、流程、方法、框架等。这些标准可以用来作为标准结构化的参考。结合具体的结构化要求,还需要设计专用的结构化表示方法。
另外还有标准应用相关的技术问题。标准数字化最终的目的都是为了让标准更好用。这更好用一方面是服务人,一方面是服务设备。要分析标准应用场景,将数字化手段与应用场景深度融合。举一个例子,医院的自动血压计是一个数字化的场景,血压计对血压有预设的指标,这些预设指标在医学里是标准指标。如果超过或者低于这个值都是不健康的。2022年,《中国高血压临床实践指南》对高血压判断标准进行了更新,我们可以把它视为标准的修订。修订之后,怎么让原有的血压设备或者机器能随之以最简单、人工干预最少的方式更新指标数据?例如:如何自动“通知”所有血压设备更新判断指标、设备如何自动获取并使用新的指标等。所以对于标准数字化应用场景已经不是简单的查询、浏览、检索,而是要与实际的行业、产业,甚至具体的设备进行密切的融合、整合。这也就是为什么第4层(level 4)特别提出通过自学习、分析、验证改进内容处理和访问能力,实现价值链中无干扰数据流,实现自动问答或预测性内容服务。
此外,商业模式、产业链、价值链的创新也是标准数字化的一个难点。由技术的变化、融合的需求,引发出商业模式的变化,同时市场格局、产业链、价值链也发生了变化。一方面是产业链各方在应用标准时,对自身价值链会产生影响,同时相互间在标准理解、应用方面将比较容易达成一致,提高市场共识和开放性,减少信息差所导致的纠纷。另一方面,信息技术公司将以标准数字化为切入点更加深度参与各行业数字化转型,这对信息技术公司的技术能力有了更高的要求,如必须要有机器学习、人工智能等相关积累,不再是简单实现查询检索和网页开发,从而提高了行业准入门槛。
针对技术方案、应用和商业模式的难点,国际上也是达成了共识。ISO/IEC SMART项目组也划分为三个子项目:技术方案、商业模式以及用户用例。用户用例是为技术方案研究、商业模式创新提需求。ISO/IEC最早开展工作的时候,不是做技术研究,是先做用户用例的调研,在所有的成员国和TC里调研相关的用户用例,去了解大家在行业里想怎么用,或者已经用了什么,然后再基于这些去设计技术方案,设计新的商业模式。可见,标准数字化不是一个简单的技术问题,是和产业行业深度融合、实现数字化转型的解决方案。
最后需要补充的是,以上这些都离不开基础性工作的支撑,如基础术语、基础资源等。例如,德国最早提出类似的概念叫做机器可执行标准,后来演变成了机器可用可读可迁移标准,就是SMART标准。在这个过程中,大家对术语的内涵的理解,其实是不断细化深入的。同时基础的数据资源也是不可或缺的。基础数据资源(如知识库、数据库等)是标准数字化所有处理、应用以及深度融合的重要支撑基础,尤其是涉及具体行业和产业层面的,更离不开专业领域的数据资源。
点评:于欣丽王海涛对SMART定义做了一些他的分享。实际上我理解就是标准数字化既要兼顾人,还要兼顾机器,是给人和机器两个方面使用的。另外在标准数字化过程中要兼顾到共性技术层面和个性技术层面的内容。他还介绍了ISO/TC 37的工作,关于语言和术语,我理解所有的标准都是语言,自然语言处理做了大概有30多项的国际标准,这些标准我们可以借鉴、可以用、可以转化,语言进入到了专业领域就是术语。在这方面,也充分发挥一些作用。
在国内,多个机构开展标准数字化研究,不能说哪个机构的路线就是正确的、科学的,同样也不能过于武断地说哪个机构做的是偏颇的、错误的,需要在不断碰撞中找出共识性的路径来。