如何开展档案数字化扫描 |
发布日期:2024-04-17 来源:武汉云典智能科技有限公司 浏览次数:1087 字体: 小 中 大 |
目前的档案数字化主要是纸质档案的数字化,也就是通过扫描设备将纸质档案变成数字图像,供档案调阅利用的过程。数字化扫描工作开展的前提是将档案按照相关规范标准整理规范,然后建立目录数据库,按照统一标准著录目录数据,之后才能考虑如何进行扫描,如何进行管理和利用数字资源。 1、为什么要开展档案数字化扫描? 1.更便捷的管理和利用 传统的档案管理手段是通过档案目录检索到档案信息,通过库房调卷进行管理和利用档案。如果有数字化的电子目录,检索则较为容易,如果只有手工登记的纸质目录,检索的难度则成倍增加,甚至无法检索。检索到需要的档案信息,通过档号进行库房调卷,可以实现档案的管理和利用,但是效率较为低下。进行数字化扫描后,进行数据挂接,实现数字原文和档案目录的一一对应,将极大的提高档案的利用效率,减少工作人员的劳动负担。 2.保护纸质档案实体原件 减少纸质实体原件的利用,可以最大限度的保护纸质实体原件,避免不必要的磨损、老化,也避免原件可能出现的丢失、丢页等情况发生。 2、开展档案数字化工作的依据 1.中华人民共和国档案法(中华人民共和国主席令第47号)规定,各级人民政府应当将档案信息化纳入信息化发展规划,保障电子档案、传统载体档案数字化成果等档案数字资源的安全保存和有效利用。档案馆和机关、团体、企业事业单位以及其他组织推进传统载体档案数字化。已经实现数字化的,应当对档案原件妥善保管。 2.第13号国家档案局令《机关档案管理规定》规定,机关应当开展数字档案室建设,统筹传统载体档案数字化、电子文件归档与电子档案管理工作。 3、开展数字化扫描的步骤 制定工作方案,配备设施设备 ① 工作方案应包括数字化对象、工作目标、工作内容、成本核算、数字化技术方法和主要技术指标、验收依据、人员安排、责任分工、进度安排、安全管理措施等内容。 ② 建立岗位管理、人员管理、场地管理、设备管理、数据管理、档案实体管理等方面的数字化工作制度。 ③ 配备专用加工场地,档案存放、数字化前处理、著录、扫描、图像处理、质量检查等工作区域分区布置;配备必要的计算机、扫描仪、存储磁盘、档案整理加工工具;配备防盗报警、视频监控等安全管理的设施设备; ④ 纸质档案数字化工作如需外包,应从企业性质、股东组成、安全保密、企业规模、注册资金情况等方面严格审查数字化加工企业的相关资质,指派专门人员参与外包业务的监督、指导,完成质量监控、进度监控、投资监控、安全监控和协调沟通等方面的工作。在项目实施过程中,从数字化场所、数字化加工设备、档案实体、数字化成果移交接收与设备处理等层面执行严格的安全管理要求。 做好档案出库工作 ① 按照工作方案确定的数字化对象开展档案调取、清点、登记等前期准备工作,并提交档案出库申请,经相关责任人批准后,严格按照档案库房管理规定为数字化对象办理出库相关手续,并与数字化部门共同清点无误后,对档案进行交接出库。 ② 纸质档案数字化过程中,应设置距离数字化加工场所较近的保管库用以临时存放纸质档案,并对纸质档案的领取与归还进行严格管理,认真做好检查、清点、登记等工作,确保纸质档案的安全。 数字化前处理 (1)确定扫描页 原则上应将确定为数字化对象的纸质档案全部扫描,不宜进行挑扫。如有不需要扫描的页面应加以标注。密级档案不得与普通档案一同扫描,如需要扫描,需另设专用涉密计算机、扫描仪、存储磁盘,单独扫描单独存储。 (2)编制页号 ① 对没有页号或页号不正确的档案重新编制页号。② 重新编制页号时,应在统一位置书写页号,且不压盖档案内容。一般正面右上角,背面左上角的空白位置,距离垂直或水平顶边1CM处。如右上角、左上角已经编制页码,可以统一在左下角、右上角进行编制。③ 采用硬度较小的铅笔编制页号。下列情况重新编制页码:---案卷未编、错编页号;---原页号存在几个流水系列,混乱无序,难以识别;---原页号不连续,存在缺号、重号、无头、无尾号情况。 ④ 将破损页面、缺页等特殊情况进行登记。 (3)拆除装订 应以对纸质档案的保护为原则确定是否拆除装订。如需拆除装订物,应注意保护档案不受损害,并对排列顺序不准确的档案进行重排。特殊装订且拆除装订后需恢复的档案,在拆除装订物时应采用拍照等方式记录档案原貌,以便于恢复。 (4)技术修复 ① 破损严重或其他无法直接进行扫描的纸质档案,应先进行技术修复,修裱技术标准参照《档案修裱技术规范》(DA/T25-2022)。② 折皱不平影响扫描质量的纸质档案应先进行压平等相应技术处理。 著录目录数据 ① 使用档案管理软件建立档案门类,以“卷”为保管单位的档案建立案卷级和文件级目录,以“件”为保管单位的档案建立文件级目录。设定好著录项,包括全宗号、档案门类代码、保管期限、年度、实体分类号、卷号、件号、档号、文件编号、页号、页数、题名、责任者、文件形成时间、日期、密级等项,具体参照《档案著录规则》(DA/T18-2022)。配置时,可以联系当地档案行政部门或档案馆专业人员帮助设置。 ② 确定“档号”规则,同一门类的档案,在本行政区域内需要保持一致,标准参照《档号编制规则》(DA/T13—2022),具体设置时,需要联系当地档案行政部门或档案馆专业人员帮助确定。 ③ 按照《档案著录规则》进行著录项的数据著录,其中“全宗号、档案门类代码、保管期限、年度、实体分类号、卷号、件号、档号、页号、页数、题名、责任者、文件形成时间、归档日期”一般为必填项,其他著录项根据需要进行选填。 ④ 著录项中的“题名”指文件材料的标题,没有标题、标题不规范,或者标题不能反映文件主要内容、不方便检索的,应全部或部分自拟标题,自拟内容外加方括号“[ ]”。 ⑤ 著录项的数据格式需要统一,符合规范要求。如全宗号,当地档案馆统一编制,不应多写或少写字符;档案门类代码、实体分类号、保管期限一般采用大写字母;年度,四位阿拉伯数字,不加汉字“年”;页号、页数不得有符号或字母;文件形成时间、归档日期为8位阿拉伯数字等。具体参照《档案著录规则》(DA/T18-2022)。 ⑥ 著录的“卷号、件号、保管期限、年度”要和档案实体的整理方案一致,不得有一点差异。 数字化扫描和 OCR 识别 (1)档案扫描的基本要求 档案扫描应根据纸质档案原件实际情况、数字化目的、数字化规模、计算机网络和存储条件等选择相应的扫描设备,和进行相关参数的设置和调整。参数的设置和调整应保证扫描后数字图像清晰、完整、不失真,图像效果最接近档案原貌。 (2)扫描设备的选择 ① 应特别注意对档案实体的保护,尽量采用对档案实体破坏性小的扫描设备进行数字化。纸张老旧、薄脆、破损的,不得使用高速扫描仪进行扫描。 ② 超出所使用扫描仪扫描尺寸的档案可采用更大幅面扫描仪进行扫描,也可以采用小幅面扫描仪分幅扫描后进行图像拼接的方式处理。分幅扫描时,相邻图像之间应留有足够的重叠,并且采用标版等方式明确说明分幅方法;若后期采用软件自动拼接的方式,重叠尺寸建议不小于单幅图像对应原件尺寸的1/3。 ③ 应遵循相关设备的使用规律进行定期维护、保养。 (3)扫描色彩模式 ① 扫描的色彩模式应高于或等于 24 位真彩色模式。特殊纸张或档案原件清晰度不高的,需调整分辨率、亮度、对比度等技术参数,直至扫描图像清晰为止。 ② 扫描的电子图像色泽、亮度、饱和度需要和档案实体原件基本保持一致。③ 扫描图像不得出现档案实体原件没有的异常颜色。 (4) 扫描分辨率 一般,纸质档案的扫描分辨率≧300dpi。照片档案、文字密集的档案、珍贵档案可以使用600dpi或更高的分辨率。 (5)存储格式 ① 纸质档案数字图像长期保存格式为TIFF、JPEG等通用格式,同一批档案应采用相同的存储格式。 ② 图像压缩率的选择可根据实际应用的需求而定。一般,A4幅面档案图像文件容量大小控制在500KB至1.5MB之间,A3幅面档案图像文件控制在500KB至2MB之间。 ③ 纸质档案数字图像利用时,也可从网络浏览速度、易操作性、存储空间占用等方面进行综合考虑,将图像转换为PDF等其他格式。 (6)图像命名 ① 应以档号为基础对数字图像命名,确保图像命名的唯一性。 ② 建议将数字图像存储为单页文件,并按档号与图像流水号的组合对图像命名。 以“卷”为保管单位的档案 以“档号”+“-”+“扫描页顺序号”+“图像后缀名”的形式命名,扫描页顺序号一般采用三位阿拉伯数字。 如: 017-W1-020-001-0001.TIF(JPG、PDF) 017-W1-020-001-0002.TIF(JPG、PDF) 以“件”为保管单位的档案 以“档号”+“-”+“扫描页顺序号”+“图像后缀名”的形式命名,扫描页顺序号一般采用三位阿拉伯数字。 如: A001-WS·2023-Y-BGS-0001-0001.TIF(JPG、PDF) A001-WS·2023-Y-BGS-0001-0002.TIF(JPG、PDF) ③ 用“档号”的组成项来分类存储数字资源,确保数据挂接的准确性。 《归档文件整理规则》规定归档文件档号的结构宜为: 全宗号-档案门类代码·年度-保管期限-机构(问题)代码-件号 如:A011-WS·2020-Y-BGS-0001 那么,存储路径就可以是: \全宗号\档案门类代码\年度\保管期限\机构(问题)代码\档号 即 \A011\WS\2020\Y\BGS\A011-WS·2020-Y-BGS-0001 在使用档号的组成项来分类存储数字资源时,可以按照档号的组成项先后顺序来分类存储,也可以根据实际工作情况进行调整,但是作为一个档案门类,一定要能够统一标准。 对图像OCR 识别制作PDF 时,保证图像完整。PDF文件应添加水印:“xxx 档案馆(室)”标识。 图像处理 (1) 图像拼接 对分幅扫描形成的多幅数字图像,应进行拼接处理,合并为一个完整的图像,以保证纸质档案数字图像的整体性。拼接时应确保拼接处平滑地融合,拼接后整幅图像无明显拼接痕迹。 (2) 旋转及纠偏 ① 对不符合阅读方向的数字图像应进行旋转还原,顺时针或逆时针90度、180度的旋转一般在扫描阶段即进行,不要等到图像处理阶段再来操作。 ② 对扫描过程中由于人为、机器设备原因出现偏斜的图像应进行纠偏处理,以达到视觉上基本不感觉偏斜为准。档案实体本身偏斜的,扫描图像不需要纠偏。一般情况,人为、机器设备原因的,应通过制度约束、技术检测等手段予以控制,如发生及时重新扫描,不要等到图像处理阶段再进行修复调整。 (3)裁边 如需对数字图像进行裁边处理,应在距页边最外延至少2至3毫米处裁剪图像。一般情况下,数字图像档案页部分不得进行任何情况的裁边操作。 (4) 去污 如需对数字图像进行去污处理,以去除在扫描过程中产生的污点、污线、黑边等影响图像质量的杂质,应遵循展现档案原貌的原则,处理过程中不得去除档案页面原有的纸张褪变斑点、水渍、污点、装订孔等痕迹。 数字化质量检查 (1)目录质量检查 ①著录项完整性,按照规定将必填项填写完整,并符合著录规则; ②题名完整性,题名著录准确;题名不全或不能完整表达档案内容信息的需自拟题名,自拟题名规范、准确; ③准确规范,著录数据准确无漏字、错字、重字;责任者全称要准确,简称要统一规范;文件编号填写规范;页码、页数和实体档案一致; ④数据格式,档号、全宗、年度、期限、分类号、时间、卷号、件号、页码、页数等符合数据库格式要求; ⑤元数据采集,对数字化过程中的元数据进行采集、收集,并保存于档案著录条目数据中; ⑥条目的准确性,条目数据与纸质实体档案一致,与数字化扫描图像一致; (2)图像质量检查 ①数字图像不完整、无法清晰识别或图像失真度较大时,应重新扫描。 ②对于漏扫、重扫、多扫等情况,应及时改正。 ③数字图像的排列顺序与档案原件不一致时,应及时进行调整。 ④对数字图像拼接、旋转及纠偏、裁边、去污等处理情况进行检查,发现不符合图像质量要求时,应重新进行图像处理。 (3)抽检率 (采取按批次随机抽检方式安排质检任务,各单项抽检率不低于 10%) ①档案实体验收比例及合格率要求:档案实体验收比例 100%。合格率计算公式:(检查档案数/全部档案数)*100%。档案实体验收合格率=100%,则验收合格。 ②目录著录的验收比例及合格率要求:目录抽检率不低于 10%。合格率计算公式:(抽查合格目录数/抽查的全部目录数)*100%。目录合格率≥98%,则验收合格。 ③扫描图像的验收比例及合格率要求:图像抽检率不低于 10%。合格率计算公式:(抽查合格图像数/抽查的全部图像数)*100%。图像合格率≥98%,则验收合格。 ④ 数据挂接验收比例及合格率要求:数据挂接抽检率不低于 10%。合格率计算公式:(抽查合格文件数/抽查的全部文件数)*100%。挂接合格率=100%,则验收合格。 ⑤ OCR 识别成果的验收比例及合格率要求:OCR识别后的文件抽检率不低于 10%。合格率计算公式:(抽查合格文件数/抽查的全部文件数)*100%。识别合格率≥95%,则验收合格。 ⑥ 6 数据存储备份验收比例及合格率要求:备份光盘抽检率不低于 10%。合格率计算公式:(抽查的合格光盘数/抽查的全部光盘数)*100%。备份合格率=100%,则验收合格。 整体验收合格。各分项验收全部合格,则项目整体验收合格。有一项验收不合格,则项目整体验收不合格,整批数据退回改正或重新加工。 数据挂接 (1) 数据挂接。将目录和扫描图像导入实施单位档案管理软件中,并一一对应挂接。根据实施单位所使用的档案管理软件功能实际情况,服务机构应负责提供批量挂接方案和技术,研究解决批量挂接问题。 (2)挂接的图像,同一全宗同一目录(或年度)应选择同一种格式,整体保持一致。挂接以一个目录(卷内文件)或一个年度(归档文件)的档案为单位进行挂接。 (3)数据挂接完整无缺,不漏件,不漏页。 (4)扫描件页数、件页号----档案实体件页数、件页号----目录数据库中件页数、件页号三者完全一致。 (5)挂接后检查数据是否正确。如果有一条不对,则需全部检查或重新挂接。 (6)挂接后系统运行正常。 |
上一篇:5月1日起正式实施!这些条款已被修订! 下一篇:中华人民共和国保守国家秘密法实施条例(新旧对比) |