首页 > 新闻动态 > 归档专题 > 数字化转型伙伴行动 > 转型案例

上海市构建科学领域模型区块链推进科创资源数据共享利用

发布时间:2020/07/03
来源:高技术司
[ 打印 ]

  为解决科研过程中因细分领域数据不完整而无法建模、因模型联合及利益共享机制不全数据不愿共享和跨领域知识受限等问题,推进科创资源共享利用,上海市探索构建了科创资源数据的模型区块链,为科创产业活动中大数据应用提供了新的解决方式。

  一、主要创新举措和步骤

  通过科学数据管理、科创资源数据管理的标准化、规范化体系及其管理工具平台的建设,实现数据标准统一、数据出口统一、数据口径统一的“三统一”,为科学领域的数据质量提供保障。上海市科委委托上海科技发展有限公司(以下简称“科发公司”)经过在科创资源数据领域的多年沉淀,已经形成了一套由主数据管理、元数据管理、数据模型管理、数据标准管理、数据质量管理、数据安全管理、数据服务管理、数据生命周期管理八大管理职能构成的数据管理体系。结合科学数据、科创资源管理数据的特点,参考数据管理能力成熟度评估模型分级实现(初始级、受管理级、稳健级、量化管理级、优化级)数据管理体系和管理实施的目标,确定力争短期内实现对科创资源数据管理的稳健级管理目标以及向量化管理级乃至优化级迈进的中长期目标。这一创新举措为实现模型区块链的第一步,即打通科创资源数据提供奠定了扎实的基础。

  打通海量科创资源数据,构建核心知识图谱,联通科研各要素,打破科学信息孤岛。实现基于大数据的科学研究第四范式(数据密集型的科学发现)是新时代科技创新的重要里程碑。打通海量科创资源数据,则是该完成里程碑的第一步。科发公司利用前述的适用于科创资源数据领域的数据管理体系优势,结合丰富的人工智能技术和数据科学优势,首次尝试分人才、机构、资金、物品(仪器设备和实验材料等)、技术五大主题打通海量科创资源数据。这一创新措施是基于长年工作在科创资源数据领域深挖的研究成果,通过连接多源异构数据为大数据的科学研究第四范式奠定了坚固的基础。

  建设适合大数据、人工智能科技创新的云基础,保障模型区块链的硬件设施。针对科技创新资源数据的大数据应用场景,构建了一套适合打数据、人工智能科技创新的云基础设施及解决方案。其特点有:1) 支持大规模机器学习与深度学习应用 2)部署多种典型深度学习框架和机器学习算法库环境,如TensorFlow,Caffe-MPI,CNTK 3)部署云与虚拟化资源管理平台、深度学习管理平台以及应用分析工具,实现资源的统一管理、调度、监控与应用特征分析 4) 根据机器学习、深度学习应用资源需求和计算特点,配置不同计算资源,如数据预处理CPU集群,实现训练数据的快速预处理;基于NVIDIA V100S提供高密度GPU集群,针对大规模大数据模型实现快速训练;针对推理识别深度学习应用,提供FPGA集群实现高吞吐、低延时处理。整个云平台提供大容量、高带宽、低延时存储资源、高速万兆/IB网络,提供快速的云服务。

  借鉴了区块链和联邦机器学习的先进理念和成果,形成基于科创资源数据的模型区块链。科创资源数据包含大量如论文、专利等的公开数据,利用这些公开数据抽象出的“科创基因”(科研过程中的共性属性),可以用作连接和脱敏不愿公开或无法公开数据的工具,从而实现在不交换数据的情况下进行数据模型能力的扩展和提升。所形成的模型区块链的另一大重要意义是所构建的模型区块链能够解决科研、科创过程中的“小数据”问题,从而达到对缺少数据的科技型中小企业“授之以渔”的效果。

  二、建设现状和主要成效

  1、目前建设现状

  一是已完善数据管理体系并初步建设数据管理体系实施的工具平台,并严格遵照数据管理手册执行数据治理相关的任务;二是已构建包含不少于500万节点、800万关系的核心知识图谱,成为首个涵盖专家人才、文献、专利、期刊、专项会议、软著、科技企业、科研院所、研发基地、仪器设备全类别、全产业链条的科技创新数据资源知识图谱;三是已构建用于科学计算的云基础设施,实现模型区块链的生产和落地完全自主可控,为打造模型区块链夯实了硬件基础;四是已累积部分模型区块链中模型实力,正通过咨询报告、接口调用的形式形成具体的服务案例。

  2、主要社会效益

  一是建成首个科创资源数据领域的数据管理体系,通过丰富的数据治理经验成为行业标杆,影响和推动本领域乃至科学数据领域数据管理的体系化和标准化建设,为打破科学信息孤岛、消除科学数据壁垒夯实基础。

  二是构建首个涵盖专家人才、文献、专利、期刊、专项会议、软著、科技企业、科研院所、研发基地、仪器设备全类别、全产业链条的科创数据资源知识图谱,为人工智能研发资源的一站式语义搜索、智能推荐、智能问答、趋势分析提供数据支持和保障;借助核心知识图谱实现科创资源数据一站式检索,满足本领域知识搜索的需求,以及整个科学领域的知识扩充诉求;实现中英双语图谱检索,进一步提升上海科技创新资源数据中心在国际上的影响力;

  3、预期经济效益

  一是核心知识图谱预计会产生不低于200万规模机构标准库、15万规模期刊标准库、200万规模消歧后的人才库。预期这些成果可以实现10-100万客单的收益。

  二是基于打通的科创资源领域数据、核心知识图谱、模型区块链,以及基于数据管理体系的大数据管理平台所形成的咨询报告服务,预期每年可产生千万级规模的经济收益;

  三是打造科学数据管理、科学知识库体系、科学大数据基础设施的一体化工程,消除和减少科学领域因交流不通常和计算机知识缺乏所造成的信息障碍,形成具有中国特色的科学大数据应用案例,并进行模式输出;

  四是通过科创资源数据模型区块链服务科技型中小企业的案例扩大社会影响力,吸纳更多的机构参与模型区块链建设;提升模型区块链整体服务水平以破除科学领域的信息孤岛,使被忽略的准垃圾数据通过数据的融合产生新的价值。

  三、突破的政策体制

  一是传统的技术中心企业转向数据创新中心企业,重视数据在科创过程中的全生命周期。

  二是为实现构建模型区块链的目标,设立各技术栈的重点实验室,包括:设立模型区块链研究实验室,负责整体牵头模型区块链构建这一创新措施的规划和研究;设立知识图谱联合研究实验室,与知识图谱界知名的高校实验室组成该联合实验室,共同研究和实施多模态、多源异构数据的打通以及知识图谱构建技术;设立大数据平台联合实验室,联合工业界经验丰富的企业以及科研界领先的实验室共建该联合实验室,负责研究和实施适用于大数据、人工智能、区块链的大规模并行计算云架构体系。

  四、可推广的创新点

  一是科创资源数据管理模式,可推广到整个科学数据领域,标准化的管理模式有有助于破除信息孤岛,打通数据壁垒。二是基于实验室,形成大数据应用生态链上的份工机制,有助于科学大数据生态的健康发展。三是聚集并打通科创资源数据,成为科技和大数据交叉领域的先驱,支撑模型区块链研发及其他科学大数据应用。四是构建了具有科创知识大背景的预训练模型,既能够满足不愿进行数据交换前提的模型能力共享的需求,又能够帮助科技型中小企业解决数据资源不充足的问题。五是可基于所形成的核心知识图谱实现一站式语义检索,提高科学领域检索效率;基于人机混合的知识图谱更新技术,能够在保证所构建知识图谱正确率的情况下提升知识图谱覆盖范围。

附件:

排行榜