大数据化管理 大数据背景下档案管理数据化转型探析
大数据背景下档案管理的数据转换分析
●互联网时代,大数据引领着各领域、各行业的变革与转型。被称为“大数据之父”的美国数据科学家维克托·迈尔·舍恩伯格将大数据概括为“生活、工作和思维的巨大变化”。2014年3月,大数据首次写入政府工作报告;2015年8月,国务院印发《推进大数据发展行动计划》;2015年10月,党的十八届五中全会正式提出“实施国家大数据战略,推进数据资源开放共享”,表明我国已经把大数据作为战略资源,成为国家战略。大数据浪潮时代,档案部门应顺势而为,推动大数据时代档案管理转型升级。
●2019年4月,国家档案局、财政部、国家税务总局联合开展电子发票电子报账、核算、备案管理试点工作,确定了7家试点企业。此次试点的成功,意味着大量处于原始数据状态的档案资源将成为未来档案部门的主要管理对象。“万物皆数”的思维使得过去以传统载体形式存在的事物在未来以数据的形式存在,这也预示着档案与数据的界限在未来将会越来越模糊。狭义的档案管理数字化大致包括传统纸质档案和电子档案的数字化以及原始数据档案的管理。广义而言,档案管理数字化是档案管理数字化的深化和升级,是未来档案信息化建设的发展方向。
●档案管理正在经历从数字化到数字化的转变,这是纸质档案数字化的推进,是档案利用的深度发展,是推动档案服务升级的新机遇。本文认为,大数据背景下档案管理数据的转型主要体现在以下几个方面:
面向未来,大数据引领文件管理的数据思维变革
●在档案管理从数字化向数字化转型的过程中,管理对象的变化带来了许多问题和挑战。思维创新是引领档案管理向数字化转型的关键因素。要改变档案管理的数据思维,首先要明确档案与数据的关系。大数据时代对档案的定义将进一步巩固大档案观,拓展档案的内涵和外延。从大数据的角度来看,档案是一个包含丰富数据资源的宝库,可以把档案变成便于计算机处理的数据,也可以把档案变成用户可以使用的数据;数据也是一种档案,它带有信息社会中人类记录的印记。面对纷繁复杂的数据,档案部门应强化数据归档意识,及时改变传统的档案思维,树立以数据为导向的档案思维,把握档案管理数据的发展方向,积极应对档案管理数据带来的一系列挑战。
●勋伯格认为,大数据主要在三个方面改变人们的思维:开放整个数据模式,拥抱混杂,关注关联。事实上,这些思想可以映射到档案数据管理中的思维转变。首先,树立整体数据思维有助于利用海量档案数据,这意味着从开发到利用档案资源。目前,数字档案馆的全文开发利用刚刚步入正轨。2020年6月,上海市档案馆数字档案公共查阅平台可实现馆藏开放档案93万余件案级目录的在线查阅,并可申请部分原始档案的预约和档案移交,还可浏览2.3万余件档案和部分史料的数字化全文。然而,对数字化全文的检索仅仅达到了档案的文件级,而没有达到档案的内容级。因此,它并没有脱离把文件作为一个整体的管理思维。随着大数据技术的不断创新,海量的档案数据将形成庞大的档案数据库,档案信息资源的开发利用将更加多样化。其次,包容性并不意味着档案数据的质量和真实性会下降,而是意味着档案数据与不同格式的兼容性会提高。尽管复杂的档案数据对档案管理提出了挑战,但不同格式的档案数据可以超越传统档案管理的思维局限,打开看待整个档案的新视角。最后,重视相关性可以作为档案管理数据化的最终目标。档案数据化后,会随着粒度的减小而分散。重视档案数据之间的相关性,就是通过关联将零散的档案数据进行聚合和链接,而不是以档案和整体案例为开发单元,而是在更细的粒度层次上发掘更大范围的档案利用价值。
●电子发票是践行数据思维的典型案例。电子发票采用类似关系数据库的文件结构。这种文件只需要定义它的关键元数据和打印布局。所有发票元数据信息都以数据库的形式存储和管理。用户购买商品的发票数据自动写入数据库,成为关系数据库表文件中的数据记录。当用户需要下载和打印发票时,数据库表中的这一数据记录可以转换成PDF或JPG发票文档。以JD.COM集团为例,消费者购物后填写公司名称、手机号码、电子邮箱等与电子发票相关的信息,收货后申请开具电子发票。电子发票服务平台经过一系列上传和审核程序后,根据电子发票机制和要求,生成带有开票方签名的电子发票及其格式文件,消费者可自行下载。数据时代,很多电子文档生命周期中的管理环节,如生成、存储、保存、利用等,已经不适合遵循数字时代的思维模式,必须在数据思维框架下进行重构。
数据的广泛应用不仅改变了人们的记录方式,也革新了人们对世界的思维和视角。未来传统的档案思维也需要改革,即在重新审视档案与数据关系的基础上,建立以数据为导向的档案思维,从数据管理的角度思考档案管理。思维先行是档案部门应对大数据挑战的首要准备。
发展导向、落后需求和现实瓶颈驱动着档案资源的数字化
●推动档案管理从数字化向数字化转型的原因,既是现代科技的迭代更新,也是信息时代档案信息资源利用的现实瓶颈,即现有的数字档案资源已不能满足档案用户多样化的现实需求。我国档案数字化方兴未艾。虽然摆脱了纸质档案远程在线利用的困境,但尚未实现计算机可读、可理解的数据粒度级的管理和开发,尤其是研究用户的综合、多样化利用需求仍无法满足。任玥等学者在深入调研黑龙江省地级综合档案馆的基础上,总结出档案信息资源开发利用中存在的数据处理深度不足、档案机构数据意识淡薄、档案数据相关性低等现实问题。青岛市档案馆副馆长杨来青也立足档案工作实际,提出了档案内容的精细化管理和开发,这是档案“再信息化”战略的重要内容之一。
●利用需求与现有数字档案发展成果的不匹配,推动档案发展向数据层面转移,使得档案管理数据成为大数据时代档案发展的新方向。档案数字化的主要任务是档案内容的数字化,即把档案内容智能地分片、分解成计算机可读、可处理的数据形式,通过分片的数据和数据集来构造和重组数据之间的关系,最后对档案数据进行语义处理和可视化展示。文件内容的数字化体现在文件管理的递进层次、文件开发粒度的细化和文件内容语义关联的加强。首先,档案管理从数字化向数字化转型带来的最显著的变化是档案管理水平的进步和档案管理对象的转变,即从传统的管理文件向数据管理转变,数据处理后的档案和原生数据中的电子档案对以“档案”为管理单位的传统档案管理系统形成了挑战。其次,相对于传统纸质档案和电子档案的发展,数字化之后,档案资源的开发单位将从文档细化到内容,从语义上将内容转化为数据,档案开发的粒度将不断细化。分散在海量档案中的档案数据,通过本体、语义分析等技术,可以在更大程度上实现档案价值的深度开发。最后,归档内容数据的最终目的是利用归档数据实现海量档案中跨文件、跨卷的相关内容的关联,有利于用户检索,最终提供更好、更完整的归档服务。碎片化的档案数据需要语义处理等技术,基于语义对零散的档案数据进行分类合并,旨在突出档案数据之间的语义关联,从而优化档案的检索结果,探索档案之间的深层联系。
●档案内容数字化可视为档案管理数字化转型的核心内容,既是档案部门在大数据时代立足实践做出的适应性战略转型,也是信息时代档案用户使用需求与档案部门突破工作瓶颈、实现自我升级的完美契合点。目前,实现档案内容数字化的典型例子是各个国家或地区的数字人文项目。在数字化的基础上,对档案内容文本进行分类、聚合和关联,利用GIS、VR、AR等技术对档案内容进行展示。例如,1993年,美国弗吉尼亚大学数字历史研究中心发起的以美国内战时期平民生活档案为主题的“阴影谷项目”,将内战时期许多平民的原始记录进行了数字化和展示,如信件、日记、声明、公告、报纸和演讲等。
面向用户的数据授权升级了多样化的文件服务
档案的数据管理最终使档案使用者受益。基于数据的档案资源、数据处理技术和可视化技术的碰撞,将使未来的档案服务体验与传统的档案利用服务大相径庭,数据是提升档案服务的关键因素。
●首先,数据赋权和基于知识的档案服务。数据化档案资源为知识型档案服务提供了源源不断的原材料和坚实的数据基础,数据化档案管理是推动这一发展的强大动力。近年来,我国相关领域的学者开始尝试从理论层面探索历史文献等档案资料的数字化。例如,王开堆基于CDBD和中国地理信息系统的技术思想,将徽州家谱中的文字和地理信息数字化。实现基于知识的档案服务,需要借助语义、本体和知识图谱对档案内容进行语义拆分、清理、合并和可视化,最终呈现丰富全面的档案知识成果。随着技术的不断发展,档案资源的数字化程度将不断提高。档案服务将满足档案用户的日常需求,并将由数据驱动成为知识型。
●二是数据驱动的档案部门跨学科合作。在这个“数据为王”的时代,数据是组织间相互竞争的重要资源,但也是不同组织间战略合作的基础。2017年,文化部“十三五”文化科技创新规划提出:“依托数字文化资源元数据存储建设,收集数据、组织关联。研究用户数据采集标准,推动全国图书馆、博物馆、文化馆、美术馆用户数据的采集和共享。与社会力量合作开发利用文化资源数据,选择优质社会数据与文化资源数据的融合”。档案部门保存着大量的历史文化资源。然而,该计划并未明确提及档案部门应如何参与其中。目前我国还没有国家层面的档案部门跨学科合作的战略规划,这说明我国档案部门的跨学科合作还有很大的发展空间。2020年新修订的《中华人民共和国档案法》中明确提出“国家推进档案信息资源共享服务平台建设,促进档案数字资源跨地区、跨部门共享利用”。利用档案数据促进档案部门的跨机构、跨领域合作,积极借鉴国外档案、博物馆等领域合作联盟的相关经验,不断推进与图书馆、博物馆、美术馆、文化馆等文化遗产机构的合作,不断扩大档案数据资源库,是档案部门实现档案资源信息化建设和发展的必由之路。可以预见,图书馆、档案馆等机构间的数据共享以及数字人文项目等领域的合作,将在新技术的支撑下,为档案用户带来更加立体的利用体验。
●三是收集利用档案用户数据,优化档案服务。除了上面提到的文件内容数据,过去没有注意到的文件用户数据的收集和利用也是文件管理数据的表现形式之一。在保护隐私和安全的前提下,用户可以利用自己生成的大数据,提供更加个性化、精准化的归档服务。有档案学领域的学者提出利用个人用户形成的“小数据”,实现档案信息资源的精准服务。换句话说,就是利用个人用户形成的用户习惯、资源需求等数据,勾勒出“用户画像”,实现对档案用户的针对性服务,与用户积累的大数据发展并不矛盾。个人档案用户形成的“小数据”是形成档案用户大数据的数据库。海量的档案用户数据有利于大部分用户掌握档案利用的整体情况,有利于档案资源的利用率,有利于档案用户的满意度和反馈。对于档案用户数据的利用,可以采取“小数据”和大数据相结合的方式,在对档案用户利用有一个整体把握的前提下,进一步突出个性化服务。
总的来说,档案管理从数字化到数字化的跨越,是大数据时代档案部门信息化发展的关键,档案管理数字化也是大数据时代档案部门面向未来、面向自我发展、面向用户的重要发展战略转型。未来,档案管理数字化不仅要实现知识组织从档案数字化到内容数字化的转变,还要实现数字资源从内容数字化到数据智能化的价值拓展和智慧洞察。随着大数据的不断发展,智能数据将是未来影响档案管理数字化的另一个变革因素。随着档案管理数字化的逐步推进,智能数据将在海量档案数据的基础上完成原始数据的积累,未来的档案信息化建设将在数字化时代达到新的水平。
文章来源:中国档案网
作者单位:上海大学图书情报档案系
军用桥梁媒体——助力信息技术协同融合