欢迎来到桂林学院图书馆

当前位置: 本馆首页   >   业界资讯   >   正文

《长江商报(数字报)》:北京大学携字节跳动推古籍数字化平台,以公益方式推进古籍修复和活化

作者:    信息来源:    发布时间: 2022-10-31   点击数:

  1011日,由北京大学字节跳动数字人文开放实验室研发的古籍数字化平台识典古籍测试版正式上线。目前,该平台涵盖390部经典古籍,主要来自《四部丛刊》,共计3000多万字,即日起向公众免费开放。未来三年,识典古籍将陆续完成一万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录,届时将全部免费开放。

  据了解,上述实验室系今年3月北京大学与字节跳动合作成立,将人工智能技术应用于古籍资源的智能化整理。识典古籍平台上线,即是双方合作的最新进展。

  当前,中国的古籍数字化还处于初级阶段,面临技术难度高、资金缺口大、人才紧张等难点。相关资料显示,现存的20多万种古籍中,只有八万种完成影像数字化扫描,近四万种完成文本数字化。据专家统计,从1949年到2019年,国内共修复整理出版古籍近3.8万种,要将现存古籍全部修复整理出来,可能需要300年时间;若利用人工智能技术辅助修复整理,大概二三十年就能完成。

  早在20216月,字节跳动与中国文物保护基金会成立古籍保护专项基金,用于国家图书馆等机构的古籍修复、人才培养,目前国图修复珍贵古籍五十多册。20217月,字节跳动公益联合中国文物保护基金会、国家图书馆发起寻找古籍守护人活动,招募推动古籍活化、助力传统文化传承的创作者。

  据识典古籍项目负责人介绍,上述平台当前主要使用了三种技术,包括文字识别、自动标点和命名实体识别。文字识别技术,是对古籍的影印版文字进行单个切分,再进行文字识别和顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别技术,则是通过序列标注识别文本中的人名、地名、书籍、时间、官职等信息。据悉,目前行业内OCR识别准确率平均为93%94%识典古籍的准确率为96%97%

  与其他古籍数字化平台相比,识典古籍具有自身的特点,页面简洁,浏览流畅,提供影印底本作为参照,还具备主题词检索和繁简体转换功能,便于专业研究人员、广大古籍爱好者使用。同时,识典古籍书目将持续更新,后续将上线手机移动版。

  抖音集团副总裁李涛表示,此前团队曾调研了其他机构做的类似项目,发现大部分项目是出于商业目的考虑,从公益角度出发开展的项目比较少,这在一定程度上阻碍了古籍保护工作的快速推进。因此,我们选择通过公益的方式开展项目,这也是我们同合作的机构及专家一起讨论的结果,大家觉得这样推动项目开展可能更智能、更开放也更高效。

  据介绍,未来,识典古籍将向全社会开放古籍阅读检索研究能力,还将实现全自动整理校对,更高效地实现存量古籍全部数字化。同时,平台也鼓励拥有文献的学者自行上传文献,用户甚至可参与再创作和再阐释,助力古籍文化传承和研究。

  一年多来,字节跳动在古籍修复和活化上也有所进展。此前,字节跳动资助国家图书馆定向修复的珍贵古籍104册件,现已完成50多册件,包括一批稀有的样式雷图档。在活化方面,抖音平台推出寻找古籍守护人计划,旨在激励创作者通过音乐、说书、绘画、复原美食等形式,普及古籍知识、演绎古籍内容,让古籍鲜活起来。

 

地址:中国广西桂林市雁山区雁中路3号 邮编:541006
电话:0773-3696366 传真:0773-3696266   招生咨询电话:0773-3696116 (兼传真)
建议意见信箱:twxxzx@glc.edu.cn   图文信息中心投诉电话:0773-3696221

版权所有:桂林学院(原广西师范大学漓江学院)图书馆