W3CHINA.ORG讨论区 - 语义网·描述逻辑·本体·RDF·OWL--显示贴子

以文本方式查看主题

-  W3CHINA.ORG讨论区 - 语义网·描述逻辑·本体·RDF·OWL  (http://bbs.xml.org.cn/index.asp)
--  『 Web挖掘技术』   (http://bbs.xml.org.cn/list.asp?boardid=69)
----  多媒体信息中基于内容的检索[转帖]  (http://bbs.xml.org.cn/dispbbs.asp?boardid=69&rootid=&id=48140)

--  作者：DMman
--  发布时间：6/7/2007 11:14:00 AM

--  多媒体信息中基于内容的检索[转帖]

郝小花(西南师范大学计算机科学系  重庆  400715)

Abstract The basic concept of contentbased retrieval(CBR)system as well
as the CBR architecture and the retrieval method ar e introduced.The approach
es to extracting features,acquiring semantic informati on and retrieving are a
lso presented for various multimedia data such as image,video and text.

Keywords Multimedia\ Retrieval method/Content based retrieval

0 概述

所谓基于内容的检索(CBR)就是根据媒体和媒体对象的内容语义及上下文联系进行检
索。

基于内容的检索有如下特点：

(1)从媒体内容中提取信息线索。基于内容的检索直接对图像、视频、音频内容进行
分析，抽取特征和语义，利用这些内容特征建立索引，并进行检索。

(2)基于内容的检索是一种近似匹配。CBR采用相似性匹配的方法逐步求精，以获得查
询结果，这是一个迭代过程。这一点与常规数据库检索中的精确匹配方法不同。

(3)大型数据库的快速检索。多媒体数据库不仅数据量巨大，而且种类和数量繁多，
要求CBR 技术也象常规的信息检索技术一样，能快速实现对大型库的检索。

CBR不仅是基于内容，而且是一种信息检索技术。它从认知科学、用户模型、图像处
理、模式识别、知识库系统、计算机图形学、数据库管理系统，以及信息检索等领域中获
得启发，引入新的媒体数据表示和数据模型，产生出有效、可靠的查询处理算法和可视化
查询接口，以及与领域无关的检索技术和系统结构。CBR与模式识别、图像处理及计算机视
觉等学科的重要区别在于CBR是一种信息检索技术，能从大型分布数据库中，以用户可以接
受的响应时间，查询到所要求的信息。它不需要理解或识别媒体中的对象，所关注的是基
于内容，并快速地发现信息。

CBR技术是一项实用的高技术，主要应用于以下几个方面：将基于内容检索引擎嵌入
到常规数据库管理系统中，以实现多媒体数据的检索；在信息检索系统中，对专用领域的
视频、图像和文档库进行检索；对因特网上包含在万维网中的HTML页面上的多媒体数据进
行基于内容检索等。

1 系统结构 

1.1 系统构成

完整的CBR系统一般由两个子系统构成，即数据库生成子系统和查询子系统。每个子
系统由相应的功能模块和部件组成。

(1)对象标识。为用户提供一种工具，以全自动或半自动方式对静态图像、视频镜头
的代表帧等媒体中用户感兴趣的区域及视频序列中的动态对象进行标识，以便针对对象来
进行特征提取、描述和查询。如果进行整体内容的检索，则利用全局特征，而不用对象标
识功能。

(2)特征提取。对视频、图像等多媒体数据自动或半自动地提取用户感兴趣的、适合
检索要求的特征。特征提取可以是全局性的，如针对整幅图像和视频镜头，也可以是针对
某个对象。

(3)数据库。由媒体库、特征库和知识库组成。媒体库包含多媒体数据，如图像、视
频、音频、文本等；特征库包含用户输入的客观特征和预处理自动提取的内容特征；知识
库包含领域知识和通用知识，其中的知识表达可以更换，以适应不同领域的应用要求。

(4)用户查询和浏览接口。主要以示例查询(QBE)和模糊描述等可视查询形式向用户提
供查询接口。查询允许针对对象、整体图像、视频镜头以及任意特征的组合形式来进行。
由于多媒体数据的视觉和听觉特性，不仅查询时需要通过浏览确定查询要求，而且查询后
返回的结果也需要浏览，尤其是视频浏览。

(5)搜索引擎。搜索是利用特征之间的距离函数来进行相似性匹配，模仿人类认知过
程，近似得到数据库的认知排序。对于不同媒体的数据类型，具有各自不同的相似性测度
算法，在搜索引擎中包括一个较为有效、可靠的相似检测度函数集。

(6)索引／过滤器。搜索引擎通过索引／过滤机制来达到快速搜索的目的，从而可以
应用于大型多媒体数据集中。过滤器作用于全部数据，过滤出的数据集合再用高维特征匹
配来检索。索引用于低维特征，可以利用R树，以加快检索。

1.2 基于内容的查询和检索过程

基于内容的查询和检索是一个逐步求精的过程，检索经历了一个特征调整、重新匹配
的循环过程。

(1)初始查询说明。用户查找一个对象时，最初可以用QBE或查询语言来形成一个查询
。系统提取该示例的特征或把查询描述映射为具体的特征矢量。

(2)相似性匹配。将查询特征与特征库中的特征按照一定的匹配算法进行相似匹配。

(3)满足一定相似性条件的一组候选结果，按相似度大小排列后返回给用户。

(4)特征调整。系统返回的查询结果用户可以挑选，直至得到满意的结果。或者从候
选结果中选择一个示例，经过特征调整后，形成一个新的查询。

(5)逐步缩小查询范围，直到用户对查询结果满意为止。

2 多媒体数据基于内容查询 

2.1 提交查询的方式

多媒体数据的结构化描述可以分为人工输入的特征描述和计算机自动或半自动抽取特
征的描述。常规数据库中的对象属性主要是依靠人工输入。这些客观属性反映了客观事物
的部分概念，用于查询是行之有效的。

综合查询也需要对客观属性描述。与常规数据库的结构查询相似，这时检索是基于属
性值的精确匹配。对于媒体视觉和听觉特征的描述，由于人为的主观性限制，一般利用计
算机自动或半自动来抽取。按照抽取的级别，特征分为物理特征和逻辑特征。物理特征是
经过变换和统计得出的低级特征，如视觉上的颜色和纹理、听觉上的音调和音色等。逻辑
特征是在物理特征基础之上，利用对象标识技术在知识库得出的高层描述对象及概念的特
征。

当用户表达不清楚检索要求或不熟悉媒体中的信息结构及类型时，则需要先浏览。通
过浏览，选择例子作为查询的条件。另外，查询返回的结果是按照相似性大小排序的一组
目标，也需要浏览。对于视频来说，浏览尤其重要。常规的VCR浏览不能给用户一个整体的
视频视图，也不能快速进入用户感兴趣的片断，另外，在快进和快退时，跳过的帧可能包
含重要的内容。因此，真正的视频浏览工具是基于内容信息的。视频浏览一般采用分层结
构和集束分类技术。

CBR向用户提供直观的图形查询界面。主要用以下两种形式提交查询说明，这两种形
式也可以结合使用。

(1)示例查询说明。用户通过例子来表达查询要求。用户可以从系统提供的示例模板
中选择或绘制例子，也可以通过浏览来选择库中的某个媒体作为例子。系统将从用户的示
例中实时提取特征矢量用于检索。

(2)表格说明。用户往往难以描述一种较为复杂的查询要求。在这种情况下，系统向
用户提供统一的表格形式，用于形成文本和音频。

2.2 查询类型

(1)图像查询。主要依据图像的颜色、纹理、形状特征，以及图像中子图像的特征进
行检索。其中有：颜色查询，使用户查到与用户所选择的颜色相似的图像；纹理查询，使
用户查到含有相似纹理的图像；形状查询，用户选择某一形状或勾勒一幅草图，利用形状
特征或匹配主要边界进行检索；图像对象查询，对图像中所包含的静态子对象进行查询。
查询条件可综合利用颜色、纹理、形状特征，逻辑特征和客观属性等。

(2)视频浏览和检索。视频可用场景、镜头、帧来描述。帧是一幅静态的图像，是组
成视频的最小单位。镜头是由一系列帧组成的一段视频，它描绘同一场景，表示的是一个
摄像机的移动操作、一个事件或连续的动作。一个镜头由一个或多个关键帧表示。场景包
含有多个镜头，针对同一批对象，拍摄的角度不同，表达的含义不同。

基于关键帧的检索，是对代表视频镜头的关键帧进行检索。关键帧是一幅幅图像，可
以采用与图像检索相似的方法。一旦检索到目标关键帧，用户就可以利用播放来观看它代
表的视频片断。

基于运动的检索，是基于镜头和视频对象的时间特征来检索，是视频查询的进一步要
求。可以查询摄像机的移动操作和场景移动，以及用运动方向和运动幅度等特征来检索运
动的主体对象。

(3)声音查询。利用声学的和主观的特性进行查询。声音的一些感知特性，如音调、
响度、音色等，与音频信号的测量属性非常接近，在音频数据库中记录这些特征，并利用
这些特征进行示例和指定特征值查询。

(4)图形查询。基于空间的约束关系进行查询。包括：点查询，查找某坐标处的目标
；线查询，查找线状目标两侧的目标；区域查询，查找某区域内的图形目标；关联查询，
利用两个或多个图形对象之间的空间和拓扑关系来查询。空间约束关系可以是方向、邻接
、包含等。

(5)文本查询。以往文本资料的检索是利用关键词，采用传统的数据库技术来实现管
理和检索。然而，由于关键词标引工作量大，而且标引同用户的检索概念可能不一致，导
致查准率和查全率低。因此，需采用直接对文本进行任意词和字的检索。根据实现方法的
不同，其检索分为串搜索、串匹配和全文检索，以字和词以及它们的逻辑组合为条件进行
查询。

2.3 索引和过滤

数据库中包含成千上万的图像、视频和文本数据，为了有效地查询，适宜的存取结构
和检索方法非常重要。在常规数据库中采用类似B树的结构索引，可提供有效的访问机制。
但对于多媒体数据库来说，需要研究新的适合多媒体内容特征匹配的快速访问结构。

索引是对特征库的快速访问。对于数据库中的每个数据项，索引项包含关键属性值以
及可以直接访问该数据项的指针。索引构成树结构，索引树中的中间节点是它们子节点的
抽象。一个索引树既可以自底向上通过抽象来构造，也可以自顶向下通过分类来构造。对
于多媒体数据，不仅仅用一个关键字属性来产生一个索引树，还要利用一种抽象数据类型
，它可以是特征矢量、多维矩阵或指向数据结构的指针。在索引树的不同级别上，所用的
关键属性可以不同。

从宏观上看，索引可分级以加快数据访问。索引级的最高层是总目，下级是逐步缩小
范围的具体索引项。

从应用的不同要求上考虑，索引可以分类向用户提供不同的检索方法。如在一个视频
数据库中，可以提供3种类型的索引：目录索引、结构索引(镜头、场景等)和内容索引(场
景中的角色、运动目标等)。

过滤是用快速计算的过滤器扫描数据库中的所有特征数据，只有通过了过滤器的项才
能计算其相似度以加快检索过程。如对于颜色查询，首先用三维颜色空间算法对10 000个
元素的数据库进行一次过滤，产生1 000个初步的匹配集合，然后，已过滤的元素顺序进入
较慢的256 维颜色直方图(矩阵矢量相乘)的计算和匹配操作，最后获得最佳的20幅匹配图
像显示给用户。 

3 有待研究的关键技术 

3.1 数据模型

数据模型是CBR系统的核心，决定CBR支持的查询类型和检索能力。建立的数据模型要
能够充分反映媒体对象的内容，反映与领域无关的和能够有效存储的物理特征及逻辑特征
。

3.2 特征提取和语义获取

需要易用的能对原始特征进行抽取的自动工具和获取逻辑特征的半自动工具用于开发
大型、实用的多媒体信息检索系统。另外，还需要新的特征表示方法，如基于分形或小波
的特征数学表示。

3.3 基于内容的编码

我们使用的媒体，其格式和编码没有考虑到内容，只是针对颜色、象素、样值来编码
，因此，从这些数据中抽取内容特征非常困难。如果我们在对媒体数据编码表示时就考虑
到媒体的内容，那么，对这些数据的内容进行检索就会更有效与准确。

3.4 查询说明模式

对于特定类型的查询，该领域专家可能宁愿需要一种功能丰富的复杂的图形接口，以
支持多种形式的查询类型。而非正式和普通用户可能宁愿用自然语言来说明查询。从映射
自然语言查询到通用查询类型仍然需要进一步研究。

3.5 索引和性能

研究适合于大型多媒体库检索的索引结构和过滤器，缩短系统的响应时间，提高查询
效率。

3.6 集成查询

用基于内容的查询补充和扩展已存在的数据库查询及信息存取方法。应用系统应能把
日期、价格等客观属性与内容特征，如颜色、纹理和形状等结合在一起集成查询。

3.7 扩展性和灵活性

系统的体系结构应该支持更新与扩充新的特征表示和新的匹配/相似性度量算法，以
使系统查询及检索的性能和功能不断增强。□

参考文献 

1 冯玉才.多媒体数据库的研究动态及关键技术.多媒体世界，1996，(7)

2 陈海军，等.多媒体技术及应用系统制作.北京：北京师范大学出版社，1994.

3 何光辉.全文信息检索系统.多媒体世界，1996，(10)

--  作者：timothy
--  发布时间：7/30/2007 8:49:00 PM

--
不错，还有别的关于国内外进展的资料没有！？
希望能提供更多的资料！

W 3 C h i n a ( since 2003 ) 旗下站点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》

46.875ms