第一章 总则
第一条 为进一步加强校内数据管理,不断完善学校核心数据库功能和覆盖范围,提高数据集成与数据服务质量,结合我校实际,特制定本规范。
第二条 数据集成是指学校核心数据库从校内各业务系统获取数据的过程,数据共享服务是指学校核心数据库为校内各单位提供其所需要数据的过程。所有数据均可以为线上数据,也可为线下数据。
第三条 校内各单位有义务为学校核心数据库提供各类基础数据,以不断完善学校核心数据库,提高核心数据库数据覆盖面。学校核心数据库由网络和数据中心管理,有义务为校内各单位提供其所需要的数据服务。
第四条 本规范中涉及以下专业术语:ETL工具、上行、下行,其中ETL工具指数据集成工具,如ODI/KETTLE/DI/DDI,上行指把数据从业务系统集成到数据中心,下行指把数据从数据中心共享到业务系统。
第二章 数据集成服务
第五条 数据集成由数据调研、数据抽取、数据清洗和数据转换四个基本步骤组成。
第六条 数据调研主要指对校内各业务系统整体情况和数据情况的调研,主要包括业务系统整体架构、基本功能、所使用的数据库类别及数据标准、业务数据信息、接口信息等。通过数据调研,全面了解业务系统情况,并确定上行集成数据项表、上行集成数据项字段等,为下一步数据抽取奠定基础。
第七条 数据抽取是指从各业务系统中不同的数据源抽取数据到学校核心数据库的过程。数据抽取可使用以下方法完成:
(1)如果业务操作型数据库和学校核心数据库之间的数据库管理系统完全相同,可以使用ETL工具直接访问,或者调用相应的SQL语句或者存储过程。
(2)如果业务系统操作型数据库和学校核心数据库的数据库管理系统不相同,可使用ETL工具导出成文本文件或者Excel文件,然后再进行统一的数据抽取。
(3)如果需要抽取的数据量非常庞大,则必须使用增量抽取。通常用触发器标记或者时间戳的形式,每次抽取前首先判断是否存在抽取标记或者是当前最近的时间,然后再进行数据的抽取。
第八条 数据清洗主要是指将脏数据(主要指不完整数据、重复的数据、错误的数据等)过滤掉形成有效数据的过程。一般情况下,数据经抽取后先到达ODS(数据准备区),数据在ODS(数据准备区)经清洗后将再次交由业务部门确认,确认无误后数据进入核心数据库系统。
第九条 数据转换是一个整合的过程,通过数据转换将不同业务系统相同类型的数据在核心数据库中进行统一。一般情况下,通过业务规则和数据粒度的转换,将从不同业务系统中抽取的相关数据按一定规则进行统一,以保证核心数据库中数据的统一性、一致性,方便对各类数据进行统计分析。
第十条 对于没有业务系统而无法实现线上数据集成的单位,可采用线下方式提供学校所需数据。比如可提供相应的EXCEL表格交由网络和数据中心处理后完成数据集成。
第三章 数据共享服务
第十一条 数据共享指由学校网络和数据中心根据核心数据库情况为校内各单位提供数据服务与支持。数据共享服务主要由数据申请、数据审批和数据提供三个步骤构成。
第十二条 数据申请。服务申请面向校内各单位和师生,通过填写学校“网上办事大厅”中的“西北大学数据资源使用申请表”(以下简称“申请表”)进行在线申请。“申请表”经申请者单位负责人同意后提交至网络和数据中心。
第十三条 数据审批。网络和数据中心对数据要求的合理性和安全性进行审核后,“申请表”将流转至所申请数据的数据源管理部门,比如申请“本科生成绩信息”则会流转至教务处,经数据源管理部门审批同意后,“申请表”返回网络和数据中心。
第十四条 数据提供。网络和数据中心在收到审批同意的“申请表”后,将按照最小化提供原则,确定下行数据项表、下行数据项字段等,提供加密API接口,向申请者提供相应数据。
第十五条 校内个单位和个人对获取的API数据接口文档应妥善保管,对获取的各类数据进行保密处理,不得私自交给第三方或用于其他用途。若由于管理不善出现数据泄露等情况,学校将追究其相关责任。
第四章 附则
第十六条 本办法由网络和数据中心负责解释,自2022年7月 1日起施行。