书通学习方法网 -包含小学、初中、中考、高中、高考等各种学习方法。
书通网logo
当前位置: 书通网 > 学习方法 > 古文字识别扫描(古籍扫描仪如何扫描破旧古籍及步骤)

古文字识别扫描(古籍扫描仪如何扫描破旧古籍及步骤)

时间:2023-03-16 分类:学习方法 来源:书通网

古籍,是传承人类文明的不可多得的珍贵载体。每一件古籍都富含文字、非文字的信息。而每一点信息,都是历史的遗迹。记录修复前的相关信息,可弥补古籍实体信息的损失。

我国抢救修复的古籍档案数量巨大,而古籍档案修复工作主要是修复档案中的文献数据,这些数据能够为多方面的科学研究提供依据。古籍档案修复经验的积累、理论知识与先进工艺的研究突破,能促使行业整体修复能力的提升。完备且科学的古籍档案修复数据则是一座巨大的宝库,蕴含着古籍文献的大量信息资源,对图书馆文献的典藏管理、对文献研究、对先进修复原则和技术的推广普及都有着重要意义。

那么现代的古籍扫描仪如何对这类古籍进行扫描?

珍贵的古籍是需要及时的保护修复在历史的长河中古籍保护势在必行。首先古籍扫描仪是专门针对古籍进行扫描的设备,不会对古籍自身造成损坏,源于非接触式不与古籍接触就可以扫描完成。

其次要打开要扫描的古籍善本,不需要拆书直接放到扫描区域就可以进行扫描。、古籍扫描景深可以达到15厘米不仅可以,还可以扫描立体的书籍比如古代的历史竹卷等等。

因为古籍扫描仪的分辨率很高光学分辨率在400dpi-800dpi会把图像呈现还原的特别的清晰,我们可以看到扫描完成的自己还有色彩还原度都是可以的。

在网络时代,任何知识信息得到充分利用的前提,是看其能否转化为数字化信息。古籍文献有很高的学术价值,东方明德采用计算机技术,对古籍文献进行全文数字化加工处理,制作成古籍文献书目数据库和古籍全文数据库,不仅有效保护古籍,而且能更好地传播利用古籍,提高古籍文献的使用率。

模化、流水线式的数字化加工

公司避于手工业作坊式的生产方式,建立了数字化加工工厂。并创立了从资料整理去污→扫描→图像处理(纠偏、消蓝、图像增强、去杂)→OCR识别(版面分析、识别、横向校对、纵向校对、导出文件)→建立索引→刻录光盘(可全文检索、二次检索、模糊检索)等全过程的流水线式加工方式,大大提高了加工效率和效果。规范了加工流程、项目管理方法和制度,合理的分配人员到各个流水线节点,创建了可优化的项目质量保证体系,使得每一次新的加工项目都能够继承原有项目的优秀经验,并使得在这次新的项目中产生的经验,能够有效的被下一个项目继承和发扬。

规模化的生产、流水线式的作业,使得加工工人能够从事自己最擅长和最熟练的工作,导致了项目质量的不断提高和单位成本的稳定下降。

成熟的软件产品

东方明德本着以广阔的胸襟,容纳各种优秀的人才和产品。由于经济的全球化带来的人才和竞争方面的压力,使得任何一个公司都不可能完全依赖于自己而立足于市场不败,要想在竞争中获得生存,就必须和其他人合作。

我们引进TH-OCR录入工厂,并与清华紫光建立了合作伙伴关系,在数字化领域进行多方面产品与服务合作。

流程管理和质量控制:

流程管理贯穿于整个录入工厂的生产流程中,服务器端控制整个流程,它将数据打包、分发给各个客户端;客户端接收数据包,完成流程当中的某个或某几个工序,完成后将数据打包发回给服务器。质量控制功能是检验最终文本错误率的有效工具,它通过独特的方法检验横向校对、纵向校对和综合校对之后的文本差错率以确保最终文本的差错率在一定范围之内。流程管理和质量控制是大批量数据高效、高质录入的必不可少的环节。

东方明德资料数字化解决方案以OCR录入工厂为核心产品,并辅助图像净化处理系统、图文校验工具,在整个的过程中融入东方明德多年的资料数字化领域的管理与制作经验,确保为用户提供优秀的产品和服务。

数字化流程

1、古籍领出登记:将珍贵古籍从馆里领出进行数字化扫描,做到每一本领出古籍都要严格登记,避免遗漏。登记时确认每本古籍的总页数,与管理人员进行交接

2、古籍整理:将领出古籍进行平整处理,确保古籍无粘连、折边、部分缺失等情况,确认处理好后开始利用书刊扫描仪进行数字化扫描。 如无页码的需进行人工编页码防止扫描是顺序错乱以及丢页。

3、古籍扫描:进行扫描时,根据每本古籍的不同情况做相应的处理。如古籍情况较好,则可以采用玻璃压稿台对古籍进行压平扫描;如古籍纸张较薄,则需用空白A4纸张进行插垫,确保获得的影像不会有背透而影响观赏效果;如古籍本身情况不理想,则不必使用玻璃压稿台进行压平,由书刊扫描仪自带PerfectBook 功能进行扫描处理。

4、图像修图处理:扫描后的图像进行纠偏、去黑边、分页、拼图等处理,更高的还原原图像。

5、图像质检:处理后的图像统一质检,质检视具体情况而言分为一次质检和二次质检。主要是检查图像的质量,和有无漏页、重复扫描等情况。 发现问题及时改正补扫等等。

6、识别录入:利用OCR对图像进行版面分析,比如文字的横向纵向、图片与表格等进行进行区分处理。将分析好的图像OCR进行智能识别并进行人工校对(可先进行纵校再横校),保证质量减少错误率。

7、格式转换-双层PDF图文格式: 用扫描方式制成TIFF图像,然后利用OCR技术将图像形式全部识别为可检索的汉字,并将文字和图像进行对应,制作成图像在上、文字在下的双层PDF格式文件。既便于用户快速准确地查找到所需内容,又能使用户古籍的原始面貌。双层PDF特别适合于古籍数字化,异写、通假、避讳等造成的众多汉字无法完全识别,用户通过图像即可对照。

8、数据存储:据及压缩转换后的数据进行存储,通过网络传输到磁盘阵列中进行存储。

9、古籍入库登记:完毕后,将扫描后的古籍及未完成的古籍进行入库。与管理人员进行逐一核对,核对无误后进行登记,登记完成后,古籍方可入库。

小编推荐: iphone刷机步骤(问答:iPhone等iOS设备如何刷机)如何玩魔方详细步骤图片高血压的人如何降压(总结4个步骤,具体方法已写出)

推荐阅读