打开浏览器,登录“智慧古籍平台”,可在线查阅4.4万篇古籍,除了著述、篇目详情等基本内容外,还有著者小传、人物行迹、世系图及社会网络关系图等延伸信息,全面立体地展现古籍内容,满足读者一站式查询、阅读与研究需求。
这是由浙江大学徐永明教授及其团队打造的人机交互式智慧数据共享平台,将中国古典文献和研究成果图谱化、智能化,打造了集浏览、查询、研究、欣赏于一体的古籍大数据平台,通过科技赋能,让古籍知识变得“触手可及”。
科技赋能,推动古籍资源“上线”
在浙江大学文学院,记者见到技术团队负责人徐永明时,他正专心致志地坐在电脑前,忙着审核已完成校对的古籍篇目并准备上线发布……
“目前平台已上线著述总字数约700万字。”说罢,徐永明招呼记者上手体验。在“智慧古籍平台”,古籍内容按“著述导览”“篇目导览”“著者导览”等板块分类呈现,界面设计古典雅致、功能齐全,令人眼前一亮……
“平台引入知识图谱理念,综合运用大数据进行计量统计、定位查询、聚类查询等,让读者轻松便利地获取古籍知识。”徐永明边演示边介绍,点击“篇目导览”按钮,即可进入文本阅读界面,“文本阅读是本平台的特色功能,为提高文本的真实性和准确性,平台提供了古籍图片与古籍数字化文本一一对应的功能。”
不仅如此,“智慧古籍平台”还有许多其他亮点:为降低阅读时查阅相关资料的频率,平台提供了关键字词释义功能,文本中重要信息及疑难词按照人名、地名、职官、时间、典故等不同类型以不同颜色显示,点击即可查看释义;借助地理信息系统软件,结合在线地理信息系统,古籍中留存的地理信息实现了可视化,点击著者详情,即可查看所链接的人物行迹图……
而提及地理信息可视化,不得不提徐永明团队的另一个平台——“学术地图发布平台”,其中汇集了李白、苏轼等500多位中华历史名人的行迹图、《全元诗》作者分布图等各类学术地图……“其实这个平台比‘智慧古籍平台’还要早一些,是中国首个综合性学术地图平台。”他介绍,平台迄今已发布1600余幅地图,共有70余个国家100万读者的访问量。
综合利用这两个平台,徐永明团队将文史数据与数字地图相结合,极大地增强阅读体验,旨在丰富读者对古籍知识的综合认知。
为解决技术难题,文科背景出身的徐永明自学编程
在徐永明看来,完善丰富的前端体验少不了强大的后台技术支持,“比如,要将古籍图像中的文字转换成文本格式,就需要OCR识别,即‘光学字符识别’技术,平台现用的OCR技术能较为精确地识别版刻古籍,准确率达到90%以上。”他向记者科普起来,再如,借助计算机学习技术,平台采用的“机器古籍标点技术”,可根据特定算法为古籍文本自动标注现代中文标点符号,准确率也稳定在90%以上。
“但正所谓‘隔行如隔山’,仅靠我一人无法建起这个平台,需要许多相关专业人员的支持。”他介绍,作为项目负责人,从2020年项目立项以来,他找来浙江大学计算机科学与技术学院、地球科学学院和校图书馆等相关学院和部门老师,组建起一支20余人的技术团队。
这期间,曾遇到不少难点,“比如,前期需要不断跟第三方公司磨合,解决前、后台页面设计、框架布局、功能模块等问题;到了后期,我们更换了合作方,又得重新磨合,主要解决地域导览、编辑器、职官图谱、智能OCR服务引入等相关问题。”徐永明说。
缘何要研发这样的古籍知识大数据平台?徐永明坦言,这跟自己早年的经历有关。上世纪90年代末期,他曾在浙江图书馆古籍部工作过一段时间,目睹了读者来看古籍善本有多不方便,比如只能抄录,复制的话也要经过许可,且费用很贵。
在他读博期间,国内还没有出全文检索的《四库全书》电子产品。那时,他写作博士论文材料,都是靠自己翻阅原书,一条一条抄录。这些经历让徐永明深深地感到,纸质文献难以保存传播,古籍信息存在“孤岛化”“碎片化”现象,“如今,数字技术发展日新月异,我们便琢磨着能否将大数据技术与古籍进行深度融合,为传承中华优秀传统文化探索新的可能。”
在“学术地图发布平台”开发阶段,面对界面不美观,操作不方便,功能有限,经常出现程序故障等问题,文科背景出身的徐永明开始了他的自学Python(计算机编程语言)开发之路。在他的朋友圈,他时常发布学习编程的动态、用Python完成的各种小成果、自己编写的代码,等等。
面对海量数据,徐永明善于利用团队的力量,“过去整理古籍,主要是个体作业,以书为单位,不能修改、不可关联,效率不高。”他说,“现在,我们将古籍整理任务通过勤工俭学、暑期社会实践等形式,遴选相关专业学生、专家,在线上线下一同参与,努力发挥集体的智慧。”
帮助读者扫除古代文献阅读障碍,推动古籍阅读普及化,激活学者的研究成果
浙江大学中国古代文学专业的博士生郝亚洁认领了新任务:对《徐文长文集》《吟香室诗草》等古籍的OCR校对结果进行二次审核。
“根据平台不同时期的需求,我的工作内容侧重点都有不同。”郝亚洁介绍,比如,在平台建设初期,同学们主要负责数据上传整理,“数据一般以一部文集为单位,需要制作目录文件把文集的文字内容按照篇目和影像一一对应。”后期,郝亚洁则负责OCR识别和机器标点校对后的人工审核等工作。
全程参与“智慧古籍平台”建设,让郝亚洁受益匪浅……在她眼中,徐永明是治学严谨的导师,自己从平台维护中收获良多。“比如,之前学过的Python计算机编程语言,就苦于没机会实践;现在的校对环节中,用Python代码检查不仅帮了我大忙,更体会到了什么叫‘活学活用’。”
平台运行至今获得各方好评,但徐永明坦言,“智慧古籍平台”建设任重道远,想要把浩如烟海的中华古籍资源利用起来,还有很长的路要走。“我们的初衷很简单,就是想为读者扫除古代文献阅读障碍,推动古籍阅读普及化,激活学者的研究成果,突破学术壁垒,将前沿的学术研究成果转化为社会大众共享的文化资源,同时改变‘数据在中国,数据库在国外’的现象。”
面向未来,徐永明团队定下了新目标:利用“智慧古籍平台”进一步推进古籍数据资源的整合和开放共享,用智慧化手段为中国古代典籍资源争取“主动权”,让古籍资源从“活下来”真正转变为“活起来”!