1.3 多媒体关键技术
多媒体信息的处理和应用需要一系列相关技术的支持。以下几个方面的关键技术是多媒体研究的热点,也是未来多媒体技术发展的趋势。
1.大容量数据存储技术
早期的计算机所处理的信息主要是文本文件和数据文件,数据的类型比较单一,数据量也比较有限。随着多媒体技术的应用和普及,各种信息在介质中所占用的空间越来越大,在存储和传输这些信息时需要很大的空间和时间开销,解决这一问题的关键就是数据存储技术。
硬磁盘是计算机重要的存储设备。目前,单个硬盘的容量已达到上百个GB。磁盘阵列RAID(Redundant Array of Inexpensive Disk)是由许多台磁盘机或光盘机组成的快速、超大容量外存储系统,如图1.5(a)所示,其最大集成容量可达上千个GB或更多,在一些大型服务器和视频点播系统中广泛采用,是实现高可靠、快响应、大容量存储的必备设备。
光盘的发展速度也很快,如VCD采用MPEG—1图像压缩技术,已广泛用于电影、卡拉OK、广告、电子出版物和教育培训等方面,成为市场上最热门的光盘产品之一。DVD(如图1.5(b)所示)采用MPEG—2图像压缩技术,现已推出单面单层、单面双层、双面单层、双面双层4种记录密度,其单面单层容量为4.7GB,而双面双层容量可达17GB(均指12cm盘)。
图1.5 大容量数据存储技术
2.多媒体数据压缩与编码技术
数字化信息的数据量相当庞大,给存储器的存储容量、通信信道的传输速率(带宽)及计算机的处理速度带来极大的压力。考虑到技术与成本等诸多因素,解决这个问题单纯用增加存储器容量和通信信道的带宽,以及提高计算机的运算速度等办法是不现实的。多媒体数据压缩编码技术(如图1.6所示)是解决大数据量存储与传输问题的行之有效的方法。采用先进的压缩编码算法对数字化的视频和音频信息进行压缩,既节省了存储空间,又提高了通信介质的传输效率,同时也使计算机实时处理和播放视频、音频信息成为可能。
图1.6 数据压缩示意图
数据压缩技术目前已有以下一些国际标准:
(1)JPEG(Joint Photographic Experts Group)标准。JPEG是由国际标准化组织ISO等机构联合组成的专家组,专门负责制定静态图像数据压缩的工业标准,其所制定的标准便称为JPEG标准。它既可用于灰度图像又可用于彩色图像,由于综合采用多种压缩编码技术,因此经其处理的图像质量高、压缩比大。
(2)MPEG(Moving Picture Experts Group)标准。MPEG是负责制定视频和音频编码工业标准的专家组,旨在解决视频图像压缩、音频压缩及多种压缩数据流的复合与同步,它很好地解决了计算机系统对庞大的音像数据的吞吐、传输和存储问题,使影像的质量和音频的效果达到令人满意的程度。
有关音频和图像的压缩算法和标准将在后面的章节里做进一步的介绍。
3.多媒体通信技术
现代社会人们工作方式的特点具有群体性、交互性。传统的电信业务,如电话、传真等通信方式已不能适应社会的需要,迫切要求通信与多媒体技术相结合,为人们提供更加高效和快捷的沟通途径,如提供多媒体电子邮件、视频会议、远程交互式教学系统、视频点播等新的服务。
多媒体通信是一项综合性技术,涉及多媒体、计算机和通信等领域,它集计算机的交互性、网络的分布性和多媒体信息的多样性于一体,为人类提供了全新的服务。多媒体通信是继电报、电话、传真之后的第4代通信手段。
4.多媒体数据库技术
传统的数据库只能解决数值与字符数据的存储检索。多媒体数据库除要求处理结构化的数据外,还要求处理大量非结构化数据。多媒体数据库需要解决的问题主要有:数据模型、数据压缩/还原、数据库操作、浏览、统计查询及对象的表现。
随着多媒体技术的发展,面向对象技术的成熟和人工智能技术的发展,多媒体数据库、面向对象的数据库及智能化多媒体数据库的发展越来越迅速,它们将进一步发展或取代传统的关系数据库,形成对多媒体数据进行有效管理的新技术。
5.多媒体信息检索技术
多媒体信息检索是根据用户的要求,对图形、图像、文本、声音、动画等多媒体信息进行检索,得到用户所需的信息。对图像和视频等多媒体信息集来说,目前绝大多数检索系统仍采取文本搜索技术,例如,Google的图像和视频检索功能仍是基于文本关键词(Keyword)的,这些关键词可能来源于图片周围的文本、文件名等,其中少量的也可能来源于人工标注。由于多媒体信息制作者的文化背景不同、专业知识迥异,这些与图片关联的文本信息往往是极不可靠的。对于图像和视频等多媒体信息,一般难以用自然语言进行有效的、精确的描述,无法表达其实质内容和语义关系,所以这种依据文本信息检索图片和视频的解决方案很难满足人们的查询需要,搜索精度很低。
经过10多年的努力,许多学者试图实现基于内容的多媒体信息检索技术,以弥补上述多媒体信息检索技术的缺陷。国内外有很多学者在积极研究基于内容的多媒体信息检索技术,其中包括对图像(如图1.7所示)、视频和音频等多媒体信息的内容处理和分析(Parsing)、自动标注(Annotation)、构建索引(Indexing)和相似检索(Retrieval)等。
图1.7 基于内容的图像检索系统——PicToSeek
基于内容的多媒体信息检索技术是一种新兴的信息处理技术,它包含了自然语言处理、图像处理、视频处理、语音识别、数据库与数据挖掘、模式识别、人工智能、机器学习等众多学科,是一个长期的、复杂的、富有挑战性的研究课题。