您好,欢迎来到图艺博知识网。
搜索
您的当前位置:首页东北少数民族文献资源数字化建设探讨

东北少数民族文献资源数字化建设探讨

来源:图艺博知识网
2013年第∞期 第29卷 (总343期) 吉林省教育学院学报 JOURNAL OF EDUCATIONAL INS'ITrLr ̄OF J】L玳PROVINCE Nn 07.2O13 Vo1.29 T0talNo.343 东北少数民族文献资源数字化建设探讨 张炳华,刘江龙 (大连民族学院图书馆,辽宁大连116600) 摘要:根据当前国际国内学术界对东北少数民族研究广泛关注的现状及发展趋势,本文阐述了东北少数民族文献资源数 字化的必要性和迫切性。依照文献数字化建设的所需信息交换、信息承载和信息检索三大基本过程。系统全面地探讨了民族 文献数字化的多种技术手段的应用,包括文本、图片和音视频数字化技术的应用策略;数字资源平台选择、信息存储和压缩技 术的应用策略;信息检索和安全技术的应用策略等。 关键词:东北少数民族;文献数字化;数字化技术;应用策略 中图分类号:G250.7 文献标识码:A 文章编号:1671--1580(2013)07---0129—o3 我国东北(本文指黑、吉、辽、内蒙四省)白山黑 水之域有满族、蒙古族、朝鲜族、回族、锡伯族、鄂伦 春族、达斡尔族、俄罗斯族、鄂温克族、柯尔克孜族、 赫哲族等少数民族。目前,学术界针对这些少数民 族丰富的文化特色和独特的社会、自然环境进行了 广泛的关注并进行了深入的研究,同时也取得了丰 大学建设的《蒙古学特色数据库》、宁夏大学建设的 《西夏文化数据库》等。【2 二、建设过程中技术的应用策略 文献数字化的实现要通过信息转换、信息承载 和信息检索三个基本过程和多种技术共同实现。第 一,信息转换过程应用信息处理与加工技术,是数字 硕的成果,形成了大量的东北少数民族研究文献资 源。这些资源在推动东北少数民族进一步的研究工 作中发挥了积极的作用,进而吸引了更多国内外学 化质量得以保障的关键性技术;第二,信息承载过程 应用信息存储技术和信息压缩技术,是存储和长期 保存信息的保障性技术;第三,信息检索过程应用文 献标引技术、检索技术和安全技术,是发布和交流信 息的保障性技术。 (一)信息转换过程 1.文本转化技术 文本转化技术主要包括:键盘输入技术、语音识 别技术、扫描技术和OCR识别技术等。 者从事这方面的研究。因此,东北少数民族研究信 息的需求陛和便捷性日趋突出,东北少数民族文献 资源数字化也就更具必要性和迫切性。 一、研究现状及发展趋势 目前,学术界对地方文化、民族文化和边缘文化 给予了高度重视,保护了丰富的文化资源,包括少数 民族文化资源等已经受到很多人的广泛关注。但由 于我国少数民族地区缺少统一的数字化标准和规 键盘输入技术是少数民族文献资源数字化的一 种最基本方法。除汉字外,蒙、维、柯、哈、彝、藏、壮、 傣、苗等多种文字都可以通过键盘输入并进行数字 划,特别是东北少数民族文献资源种类繁多,内容丰 富,呈现出多类型、多文种、多媒体、收藏分散等特 征,东北少数民族文献资源数字化工作还处于初探 阶段。-】 目前,我国已完成的区域及民族特色数据 库有:厦门大学建设的《东南亚及闽台研究数据 化处理,其标准可参考字模标准、键盘标准和编码字 符集标准等。在东北的l1个少数民族中,除回族、 鄂伦春族、达斡尔族、赫哲族和鄂温克族没有自己民 族的文字,锡伯族文字还没有进入国际标准 库》、吉林大学建设的《东北亚研究数据库》、中山大 学建设的《大珠三角地区研究文献数据库》、内蒙古 IS010646编码字符集外,满族、朝鲜族、蒙古族、俄 罗斯族、柯尔克孜族文字已经具有成熟的数字化技 收稿日期:2013-_o3_2O 作者简介:张炳华(1976一),女,辽宁营口人。大连民族学院图书馆,馆员,硕士,研究方向:信息资源管理和数字化。 刘江龙(196l一),男,黑龙江密山人。大连民族学院图书馆副馆长,副研究馆员,研究方向:图书馆自动化、网络化、数据库。 129 术。这些技术给东北少数民族文本文献数字化提供 了保障。键盘输入最大的优点是节省空间、技术指 标低、资金投人少,不足之处在于键盘输人效率低、 时耗长、错误率高。键盘输人法适用于建立书目型 数据库。 语音识别技术是一种便捷的方法,可以通过识 别语音将文字转化为文本。但目前这种技术并不成 熟,特别是少数民族语言转换还是没有实现。 扫描技术通过捕获图像将文本信息直接输入计 算机。因其操作方法简单而成为少数民族文字文献 数字化最常用的方法。由于扫描后的文件保存格式 为图片,不能进行编辑、排版、标引等深加工,字、词 的检索就无法实现,不能称之为真正意义上的数字 化。然而,对于一些需要考察资源原貌的研究,经过 扫描处理后,不仅能够进行网上阅读,而且能够达到 保护原件的目的。我国在对古籍或者珍贵民族文献 数字化时多采用扫捕技术。在对少数民族文献起到 保存保护作用的同时,为了检索利用的方便,扫描录 人后,再通过人工增加题名、作者、关键词、主题词等 检索方式,从而使得数字化文献得以广泛应用。【4 诸如享有少数民族英雄史诗美誉的蒙古族的《江格 尔传》和柯尔克孜族的《玛纳斯》,以及朝鲜族传统 医学的经典著作《东医寿世保元》等东北少数民族 经典文献采用扫描技术进行数字化,从而真实而全 面地反映资料的全貌,便于读者和研究者使用。 OCR技术是少数民族文字文献数字化最好的 技术手段。ocn(Optical Character Recognition,光学 字符识别)技术能够通过人工智能方法从图像文件 中自动抽取题名、作者、关键词等检索点,并转化为 索引,以供检索和利用。由于OCR技术识别率不能 达到百分之百,必须辅以自动校正和人工校正,从而 把错误率控制到较低。 由内蒙古师范大学、内蒙 古大学和内蒙古计算中心等联合研制的汉、英、蒙、 藏、维、哈、朝、满文兼容的操作系统能够在同一平台 上处理多文种信息。 2007年,“统一平台少数民族 文字(蒙、藏、维、哈、柯、阿、朝)文档识别综合系统” 由清华大学丁晓青教授主持开发完成,该系统具有 自动识别功能、版面分析功能、文本行字切分功能和 纵向文档图文对照编改等功能, 可以将东北少数 民族文字资源通过这些系统处理,把文本文件自动 转化成可编辑、检索的电子文档,从而摆脱人工录 入,准确、高效地实现了蒙、维、藏、哈、柯、朝、阿文的 文献数字化。 2.图片转化技术 图片转化技术有两种策略:第一,重新绘制。利 130 用绘图软件可以将一些简单的图形重新绘制,保存 为可编辑的矢量图形数据文件。这种方法工作量 大,消耗人力较大。第二,扫描。这种方法工作量相 对较小,可以保存图片的原貌,技术要求比较低。但 因为不是真正的数字化图片,必须配以人工标引,提 供检索索引。扫描后的图片以图片的方式进行保 存,占用存储空间较大,但能反映民族文献的原貌。 再加以提供必要的检索目录,使其能够检索利用,这 应该是少数民族图片资源数字化的较好途径。 8 3.音视频转化技术 音视频转化技术是利用音视频卡,把传统磁性 载体或光电载体上的模拟音视频信号采样量化转换 成计算机能够识别与处理的音视频数据文件。 通 过这种音视频转换技术可以更好地优化音视频文件 的声音和影像质量,在保证音视频资源的原始记录 性的同时,很好地保持了音视频的真实性。音视频 数字化的优点在于:声音和影像质量较高,可以编辑 处理数据,更关键的在于,以数据存储的方式可以长 期保存。同样,音视频文件需要配以索引,以便被广 泛地检索和使用。东北地区拥有大量历史悠久、脍 炙人口的口头非物质文化遗产代表作,诸如满族说 部、鄂伦春摩苏昆、赫哲族伊玛堪等这些口头文学, 如果能用音视频技术将其数字化,就能更好地用以 传承“民族文化记忆”。 (--)信息承载过程 1.数字资源平台选择 国内已经开发出多种数字资源平台,满足了日 益增长的数字资源)JU-r、制作、管理需求。主要的有 北京TRS、清华同方TPI、方正渊博、万方、SAP6.0数 字资源分布式建设与共享平台以及一些单位自行开 发的系统等。目前,相对比较成熟而且使用用户较 多的是TRS和TPI两个平台。TRS的用户多集中在 科技情报系统,TPI的用户多集中于高校图书馆。 用户在选择数字资源平台的时候,要了解各平台的 优劣势,依据实际情况,从标准化、先进性、开放性、 可扩展性、稳定性和经济性等方面综合考虑。 2.信息存储技术 目前,数字化信息存储技术有RAID、DAS、NAS 和SAN技术。RAID是把多块的硬盘按不同的 方式组合成硬盘组,从而提供比单个硬盘更高的存 储性能和提供数据自动备份技术。RAID技术不但 提高了存储速度,而且通过提供数据自动备份使得 安全性得以大幅提高。RAID技术在自建数据库存 储时应用较为广泛。DAS是把用户的数据存放在 数据库服务提供端,并让它们通过网络使用数据库 管理系统。DAS技术结构简单、安全性较高、对网 陆、IP控制和付费购买等简单的控制机制。 为了防止合理地获得数据后的非法复制和传 络带宽的依赖程度低、价格便宜、维护费用较低,在 图书馆数字化建设的早期较为广泛应用;但由于其 系统扩展性不强,集中管理和共享会受到。 DAS技术比较适合不需要严格保密和不提供 网络共享的小型数字图书馆。NAS是一种通过直 播,现在关于数字版权管理(DRM)技术采取了诸如 密钥管理技术、数字签名技术、数字水印技术等手 段o[141信息机构在数字化建设时要综合评估数据库 的价值、保密和面临的安全风险程度,认清网络的薄 接与网络介质相连的特殊设备实现数据存储的技 术。NAS技术可以实现多平台共享,具有简单灵活 性、可扩展性、安全性、高性能的特点。但由于其对 数据的备份不集中,一般适用于性价比要求较高的 中小型信息机构。 SAN是通过光纤交换机将存储设备相互连接, 并且连接到一个服务器或服务器组的网络,是 的高速专用存储网。由于其存储连接更为灵活,高 速共享存储可以真正实现。目前,SAN具有存储领 弱环节和潜在威胁,根据自身的需要,确定安全服务 类型和层次,采取有效的安保措施,建立全面的安全 保障系统。 东北少数民族文献资源承载着东北地区各民族 的历史和文化,是中华文化的重要组成部分,也是全 人类共同的文化瑰宝。为了保护、传承和弘扬少数 民族的优秀文化,应科学地对其挖掘、整理,进行全 方位、系统性、网络化建设。东北少数民族文献资源 数字化建设是一项长期而艰巨的工作。信息机构一 域里最大的容量、最高安全性、最快的速度、最强的 扩展性,是最完善的存储备份系统。但由于其较高 定要坚持已确立的建设目标、建设原则,依据总体的 发展规划和自身的实际情况,总结、借鉴他人经验和 教训,考虑用户特点、资源特点、经费等多方面因素, 依照文献数字化建设的三大基本过程,运用多种技 术手段进行科学的、有计划的、有重点的实施。 [参考文献] [1]张炳华.东北少数民族研究文献资源数字化建设探讨[D]. 东北师范大学,2011. 的技术管理要求和贵重的价格,没有成为大多数用 户的选择。¨ 3.信息压缩技术 压缩技术基于解码后的数据与原始数据是否完 全一致可分为无损压缩和有损压缩。东北少数民族 文献数字化时,为了确保文献的原貌和科学研究价 值不受影响,对具有珍贵保存价值的民族古籍、经 卷、史诗的抄本、民族画卷、画册等应该使用无损压 [2]陈洪波.少数民族文化数据库建设现状及发展思考[J].贵 州社会科学,2007(5). 缩技术。有损压缩技术可以提高数据的压缩比,能 够节省更多的数据存储空间和传输成本,从而获得 更高的效益。在不影响文献信息的前提下,适当降 低文献的质量,减少数据存储和运输的数量,从而压 缩后的数据量变小。有损压缩技术可以应用于解压 后对质量要求不高的文献(例如文本文献)等。 [3]王天亮.文献数字化技术在自建数据库中的应用策略研究 [J].现代情报,2009(12). [4]包和平.关于我国少数民族古籍资源数字化建设探讨[J]. 图书馆建设,2003(4). [5]陈诚.论古典文学数字化[D].苏州大学,2004. [6]嘎日迪,赵小兵,刘彦文等.多民族文字信息处理的计算机 平台研制[J].内蒙古师大学报(自然科学汉文版),2009(3). (三)信息检索过程 1.检索技术 目前,少数民族语言文字文本的检索技术也已 经达到了不受语种的全文匹配水平。图像的检 索技术除了传统的文本检索外,技术人员也开发研 究了根据内容、语义和知识等的信息检索。¨lJ20世 纪90年代末,基于内容的音频检索、基于隐马尔可 [7]克集.少数民族文字识别系统研制成功[N].中国质量报, 2007,03,13. [8]张桂荣.民族地区建设数字图书馆的方法和途径[J].图书 馆工作与研究,2007(2). [9]周惠泉.东北地区的非物质文化遗产及其重要价值[J].图 书馆工作与研究,2009(3). [1O]卢险峰.数字图书馆信息存储技术发展浅析[J].消费导 刊,2009(24). 夫模型的音频检索、基于模糊聚类表征的音频检索 和基于特征向量的音频数据分类检索等受到了广泛 的关注和研究。[121视频检索系统主要有IBM的 QBIC、哥伦比亚大学的VideoQ、清华大学的TV—FI 以及广泛应用于互联网的检索系统谷歌搜索、新浪 [11]向友君,谢胜利.图像检索技术综述[J].重庆邮电学院学 报(自然科学版),2006(3). [12]柯育强,康耀红.1nternet音频检索技术综述[J].海南大学 学报(自然科学版),2008(1). 爱问、腾讯搜搜等。-】副 2.安全技术 [13]杨强,尹德辉,马森.视频检索技术应用及其发展趋势[J]. 电视技术,2007(2). [14]程巍,龚黎云,高传善.数字版权管理的相关安全技术和实 现方案[J].微型电脑应用,2004(2). 131 传统上,对数据库的访问控制主要采取注册登 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuoyibo.net 版权所有 湘ICP备2023021910号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务