您的位置:首页 >要闻 > 正文

免费开放,字节跳动与北京大学合作研发的数字化平台“识典古籍”测试版上线

来源:IT之家2022-10-12 13:42:40  阅读量:7215  

据字节跳动宣布,由字节跳动和北京大学联合开发的古籍数字化平台读古籍测试版上线目前平台已推出390部经典古籍,共计3000多万字,免费向公众开放未来三年,知古籍将逐步完成1万种古籍的智能整理,基本覆盖儒释道核心书目

据不完全统计,我国约有20万种古籍,其中8万种完成了数字图像扫描,而数字化的只有3—4万种。

为了方便人们在图书馆中搜索和阅读古籍,阅读古籍平台主要采用了三种人工智能技术:

1.字符识别,即利用OCR技术将古籍影印图像识别为字符目前行业内OCR的识别准确率平均为93%到94%,读古籍将这一数字提高到96%到97%

二,自动标点,指的是算法,对古籍上原来缺少的标点符号自动进行处理比如《论语》以学而学不如说开头,自动标点的结果是学而学不如说

第三,命名实体识别,即古籍中专有名词的识别,包括名称,地点,书籍,时间,官职等。

本站了解到,未来读古籍将实现自动整理校对,并免费开放这一能力,推动库存古籍的数字化平台还将向全社会开放古籍阅读检索的研究能力,鼓励有文献的学者上传自己的文献用户也可以参与再创造和再诠释

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。