您现在的位置: 首页 > 阅读详情
如何开展档案数字化扫描
 
发布日期:2024-04-17     来源:武汉云典智能科技有限公司      浏览次数:780     字体:      

目前的档案数字化主要是纸质档案的数字化,也就是通过扫描设备将纸质档案变成数字图像,供档案调阅利用的过程。数字化扫描工作开展的前提是将档案按照相关规范标准整理规范,然后建立目录数据库,按照统一标准著录目录数据,之后才能考虑如何进行扫描,如何进行管理和利用数字资源。

1、为什么要开展档案数字化扫描?

1.更便捷的管理和利用

传统的档案管理手段是通过档案目录检索到档案信息,通过库房调卷进行管理和利用档案。如果有数字化的电子目录,检索则较为容易,如果只有手工登记的纸质目录,检索的难度则成倍增加,甚至无法检索。检索到需要的档案信息,通过档号进行库房调卷,可以实现档案的管理和利用,但是效率较为低下。进行数字化扫描后,进行数据挂接,实现数字原文和档案目录的一一对应,将极大的提高档案的利用效率,减少工作人员的劳动负担。

2.保护纸质档案实体原件

减少纸质实体原件的利用,可以最大限度的保护纸质实体原件,避免不必要的磨损、老化,也避免原件可能出现的丢失、丢页等情况发生。

2、开展档案数字化工作的依据

1.中华人民共和国档案法(中华人民共和国主席令第47号)规定,各级人民政府应当将档案信息化纳入信息化发展规划,保障电子档案、传统载体档案数字化成果等档案数字资源的安全保存和有效利用。档案馆和机关、团体、企业事业单位以及其他组织推进传统载体档案数字化。已经实现数字化的,应当对档案原件妥善保管。

2.第13号国家档案局令《机关档案管理规定》规定,机关应当开展数字档案室建设,统筹传统载体档案数字化、电子文件归档与电子档案管理工作。

3、开展数字化扫描的步骤

制定工作方案,配备设施设备

① 工作方案应包括数字化对象、工作目标、工作内容、成本核算、数字化技术方法和主要技术指标、验收依据、人员安排、责任分工、进度安排、安全管理措施等内容。

② 建立岗位管理、人员管理、场地管理、设备管理、数据管理、档案实体管理等方面的数字化工作制度。

③ 配备专用加工场地,档案存放、数字化前处理、著录、扫描、图像处理、质量检查等工作区域分区布置;配备必要的计算机、扫描仪、存储磁盘、档案整理加工工具;配备防盗报警、视频监控等安全管理的设施设备;

④ 纸质档案数字化工作如需外包,应从企业性质、股东组成、安全保密、企业规模、注册资金情况等方面严格审查数字化加工企业的相关资质,指派专门人员参与外包业务的监督、指导,完成质量监控、进度监控、投资监控、安全监控和协调沟通等方面的工作。在项目实施过程中,从数字化场所、数字化加工设备、档案实体、数字化成果移交接收与设备处理等层面执行严格的安全管理要求。

做好档案出库工作

① 按照工作方案确定的数字化对象开展档案调取、清点、登记等前期准备工作,并提交档案出库申请,经相关责任人批准后,严格按照档案库房管理规定为数字化对象办理出库相关手续,并与数字化部门共同清点无误后,对档案进行交接出库。

② 纸质档案数字化过程中,应设置距离数字化加工场所较近的保管库用以临时存放纸质档案,并对纸质档案的领取与归还进行严格管理,认真做好检查、清点、登记等工作,确保纸质档案的安全。

数字化前处理

(1)确定扫描页

原则上应将确定为数字化对象的纸质档案全部扫描,不宜进行挑扫。如有不需要扫描的页面应加以标注。密级档案不得与普通档案一同扫描,如需要扫描,需另设专用涉密计算机、扫描仪、存储磁盘,单独扫描单独存储。

(2)编制页号

① 对没有页号或页号不正确的档案重新编制页号。② 重新编制页号时,应在统一位置书写页号,且不压盖档案内容。一般正面右上角,背面左上角的空白位置,距离垂直或水平顶边1CM处。如右上角、左上角已经编制页码,可以统一在左下角、右上角进行编制。③ 采用硬度较小的铅笔编制页号。下列情况重新编制页码:---案卷未编、错编页号;---原页号存在几个流水系列,混乱无序,难以识别;---原页号不连续,存在缺号、重号、无头、无尾号情况。 ④ 将破损页面、缺页等特殊情况进行登记。

(3)拆除装订

应以对纸质档案的保护为原则确定是否拆除装订。如需拆除装订物,应注意保护档案不受损害,并对排列顺序不准确的档案进行重排。特殊装订且拆除装订后需恢复的档案,在拆除装订物时应采用拍照等方式记录档案原貌,以便于恢复。

(4)技术修复

① 破损严重或其他无法直接进行扫描的纸质档案,应先进行技术修复,修裱技术标准参照《档案修裱技术规范》(DA/T25-2022)。② 折皱不平影响扫描质量的纸质档案应先进行压平等相应技术处理。

著录目录数据

① 使用档案管理软件建立档案门类,以“卷”为保管单位的档案建立案卷级和文件级目录,以“件”为保管单位的档案建立文件级目录。设定好著录项,包括全宗号、档案门类代码、保管期限、年度、实体分类号、卷号、件号、档号、文件编号、页号、页数、题名、责任者、文件形成时间、日期、密级等项,具体参照《档案著录规则》(DA/T18-2022)。配置时,可以联系当地档案行政部门或档案馆专业人员帮助设置。

② 确定“档号”规则,同一门类的档案,在本行政区域内需要保持一致,标准参照《档号编制规则》(DA/T13—2022),具体设置时,需要联系当地档案行政部门或档案馆专业人员帮助确定。

③ 按照《档案著录规则》进行著录项的数据著录,其中“全宗号、档案门类代码、保管期限、年度、实体分类号、卷号、件号、档号、页号、页数、题名、责任者、文件形成时间、归档日期”一般为必填项,其他著录项根据需要进行选填。

④ 著录项中的“题名”指文件材料的标题,没有标题、标题不规范,或者标题不能反映文件主要内容、不方便检索的,应全部或部分自拟标题,自拟内容外加方括号“[ ]”。

⑤ 著录项的数据格式需要统一,符合规范要求。如全宗号,当地档案馆统一编制,不应多写或少写字符;档案门类代码、实体分类号、保管期限一般采用大写字母;年度,四位阿拉伯数字,不加汉字“年”;页号、页数不得有符号或字母;文件形成时间、归档日期为8位阿拉伯数字等。具体参照《档案著录规则》(DA/T18-2022)。

 著录的“卷号、件号、保管期限、年度”要和档案实体的整理方案一致,不得有一点差异。

数字化扫描和 OCR 识别 

(1)档案扫描的基本要求

档案扫描应根据纸质档案原件实际情况、数字化目的、数字化规模、计算机网络和存储条件等选择相应的扫描设备,和进行相关参数的设置和调整。参数的设置和调整应保证扫描后数字图像清晰、完整、不失真,图像效果最接近档案原貌。

(2)扫描设备的选择

① 应特别注意对档案实体的保护,尽量采用对档案实体破坏性小的扫描设备进行数字化。纸张老旧、薄脆、破损的,不得使用高速扫描仪进行扫描。

② 超出所使用扫描仪扫描尺寸的档案可采用更大幅面扫描仪进行扫描,也可以采用小幅面扫描仪分幅扫描后进行图像拼接的方式处理。分幅扫描时,相邻图像之间应留有足够的重叠,并且采用标版等方式明确说明分幅方法;若后期采用软件自动拼接的方式,重叠尺寸建议不小于单幅图像对应原件尺寸的1/3。

③ 应遵循相关设备的使用规律进行定期维护、保养。

(3)扫描色彩模式

① 扫描的色彩模式应高于或等于 24 位真彩色模式。特殊纸张或档案原件清晰度不高的,需调整分辨率、亮度、对比度等技术参数,直至扫描图像清晰为止。

② 扫描的电子图像色泽、亮度、饱和度需要和档案实体原件基本保持一致。③ 扫描图像不得出现档案实体原件没有的异常颜色。

(4) 扫描分辨率

一般,纸质档案的扫描分辨率≧300dpi。照片档案、文字密集的档案、珍贵档案可以使用600dpi或更高的分辨率。

(5)存储格式

① 纸质档案数字图像长期保存格式为TIFF、JPEG等通用格式,同一批档案应采用相同的存储格式。

② 图像压缩率的选择可根据实际应用的需求而定。一般,A4幅面档案图像文件容量大小控制在500KB至1.5MB之间,A3幅面档案图像文件控制在500KB至2MB之间。

③ 纸质档案数字图像利用时,也可从网络浏览速度、易操作性、存储空间占用等方面进行综合考虑,将图像转换为PDF等其他格式。

(6)图像命名

① 应以档号为基础对数字图像命名,确保图像命名的唯一性。

② 建议将数字图像存储为单页文件,并按档号与图像流水号的组合对图像命名。

以“卷”为保管单位的档案

以“档号”+“-”+“扫描页顺序号”+“图像后缀名”的形式命名,扫描页顺序号一般采用三位阿拉伯数字。

如:

017-W1-020-001-0001.TIF(JPG、PDF)

017-W1-020-001-0002.TIF(JPG、PDF)

以“件”为保管单位的档案

以“档号”+“-”+“扫描页顺序号”+“图像后缀名”的形式命名,扫描页顺序号一般采用三位阿拉伯数字。

如:

A001-WS·2023-Y-BGS-0001-0001.TIF(JPG、PDF)

A001-WS·2023-Y-BGS-0001-0002.TIF(JPG、PDF)

③ 用“档号”的组成项来分类存储数字资源,确保数据挂接的准确性。

《归档文件整理规则》规定归档文件档号的结构宜为:

全宗号-档案门类代码·年度-保管期限-机构(问题)代码-件号

如:A011-WS·2020-Y-BGS-0001

那么,存储路径就可以是:

\全宗号\档案门类代码\年度\保管期限\机构(问题)代码\档号

即 \A011\WS\2020\Y\BGS\A011-WS·2020-Y-BGS-0001

在使用档号的组成项来分类存储数字资源时,可以按照档号的组成项先后顺序来分类存储,也可以根据实际工作情况进行调整,但是作为一个档案门类,一定要能够统一标准。

对图像OCR 识别制作PDF 时,保证图像完整。PDF文件应添加水印:“xxx 档案馆(室)”标识。 

图像处理

(1) 图像拼接

对分幅扫描形成的多幅数字图像,应进行拼接处理,合并为一个完整的图像,以保证纸质档案数字图像的整体性。拼接时应确保拼接处平滑地融合,拼接后整幅图像无明显拼接痕迹。

(2) 旋转及纠偏

① 对不符合阅读方向的数字图像应进行旋转还原,顺时针或逆时针90度、180度的旋转一般在扫描阶段即进行,不要等到图像处理阶段再来操作。

② 对扫描过程中由于人为、机器设备原因出现偏斜的图像应进行纠偏处理,以达到视觉上基本不感觉偏斜为准。档案实体本身偏斜的,扫描图像不需要纠偏。一般情况,人为、机器设备原因的,应通过制度约束、技术检测等手段予以控制,如发生及时重新扫描,不要等到图像处理阶段再进行修复调整。

(3)裁边

如需对数字图像进行裁边处理,应在距页边最外延至少2至3毫米处裁剪图像。一般情况下,数字图像档案页部分不得进行任何情况的裁边操作。

(4) 去污

如需对数字图像进行去污处理,以去除在扫描过程中产生的污点、污线、黑边等影响图像质量的杂质,应遵循展现档案原貌的原则,处理过程中不得去除档案页面原有的纸张褪变斑点、水渍、污点、装订孔等痕迹。

数字化质量检查 

(1)目录质量检查

①著录项完整性,按照规定将必填项填写完整,并符合著录规则;

②题名完整性,题名著录准确;题名不全或不能完整表达档案内容信息的需自拟题名,自拟题名规范、准确;

③准确规范,著录数据准确无漏字、错字、重字;责任者全称要准确,简称要统一规范;文件编号填写规范;页码、页数和实体档案一致;

④数据格式,档号、全宗、年度、期限、分类号、时间、卷号、件号、页码、页数等符合数据库格式要求;

⑤元数据采集,对数字化过程中的元数据进行采集、收集,并保存于档案著录条目数据中;

⑥条目的准确性,条目数据与纸质实体档案一致,与数字化扫描图像一致;

(2)图像质量检查     

①数字图像不完整、无法清晰识别或图像失真度较大时,应重新扫描。

②对于漏扫、重扫、多扫等情况,应及时改正。

③数字图像的排列顺序与档案原件不一致时,应及时进行调整。

④对数字图像拼接、旋转及纠偏、裁边、去污等处理情况进行检查,发现不符合图像质量要求时,应重新进行图像处理。

(3)抽检率 (采取按批次随机抽检方式安排质检任务,各单项抽检率不低于 10%)

①档案实体验收比例及合格率要求:档案实体验收比例 100%。合格率计算公式:(检查档案数/全部档案数)*100%。档案实体验收合格率=100%,则验收合格。

②目录著录的验收比例及合格率要求:目录抽检率不低于 10%。合格率计算公式:(抽查合格目录数/抽查的全部目录数)*100%。目录合格率≥98%,则验收合格。

③扫描图像的验收比例及合格率要求:图像抽检率不低于 10%。合格率计算公式:(抽查合格图像数/抽查的全部图像数)*100%。图像合格率≥98%,则验收合格。

④ 数据挂接验收比例及合格率要求:数据挂接抽检率不低于 10%。合格率计算公式:(抽查合格文件数/抽查的全部文件数)*100%。挂接合格率=100%,则验收合格。

⑤ OCR 识别成果的验收比例及合格率要求:OCR识别后的文件抽检率不低于 10%。合格率计算公式:(抽查合格文件数/抽查的全部文件数)*100%。识别合格率≥95%,则验收合格。

 ⑥ 6 数据存储备份验收比例及合格率要求:备份光盘抽检率不低于 10%。合格率计算公式:(抽查的合格光盘数/抽查的全部光盘数)*100%。备份合格率=100%,则验收合格。 整体验收合格。各分项验收全部合格,则项目整体验收合格。有一项验收不合格,则项目整体验收不合格,整批数据退回改正或重新加工。 

数据挂接

(1) 数据挂接。将目录和扫描图像导入实施单位档案管理软件中,并一一对应挂接。根据实施单位所使用的档案管理软件功能实际情况,服务机构应负责提供批量挂接方案和技术,研究解决批量挂接问题。 

(2)挂接的图像,同一全宗同一目录(或年度)应选择同一种格式,整体保持一致。挂接以一个目录(卷内文件)或一个年度(归档文件)的档案为单位进行挂接。 

(3)数据挂接完整无缺,不漏件,不漏页。

(4)扫描件页数、件页号----档案实体件页数、件页号----目录数据库中件页数、件页号三者完全一致。

(5)挂接后检查数据是否正确。如果有一条不对,则需全部检查或重新挂接。 

(6)挂接后系统运行正常。

上一篇:5月1日起正式实施!这些条款已被修订!
下一篇:新修订一部法律《中华人民共和国保守国家秘密法》,2024年5月1日起施行!