視訊資料庫之內涵式檢索
Content-based Retrieval for Vide
o Databases
學生:余平
影像及視訊資料庫內涵式檢索
資訊科技的快速發展,儲存及顯示大量
的影像、音訊、視訊等多媒體資料的技
術也大幅提昇
最自然的檢索方式
多媒體資料本身內涵
傳統資料庫系統無法有效管理及檢索
缺乏管理空間及時間關係能力
3/39
內涵式檢索架構
原始 資料 影 像 及 視 訊 內 涵 資 料 庫 內 涵 式 檢 索 查 詢 介 面 影像 特徵模型化 特徵萃取處理 物件識別處理 物件模型化 語意模型化 語意識別處理 視訊格 關鍵視訊格 空間關係處理 時間關係處理 空間模型化 時間模型化 切割模型化 原始資料 內涵萃取 內涵模型化 瀏 覽 查 詢 結 果影 像 及 視 訊 內 涵 內 涵 式 檢 索 查 詢 介 面 特徵模型化 特徵萃取處理 物件識別處理 物件模型化 語意模型化 語意識別處理 關鍵視訊格 空間關係處理 時間關係處理 空間模型化 時間模型化 切割模型化 內涵萃取 內涵模型化 瀏 覽 查 詢 結 果
特徵萃取層
5/39
特徵萃取層
低層次影像處理
常用的影像特徵
顏色
紋理
形狀
顏色直方圖
像 素 個 數4 8 白色 : 8/16 可容忍場景改變7/39
顏色動差 (color moments)
根據顏色分布得到顏色統計的機率分配
3 1 N 1 j 3 i ij i N 1 j 2 1 2 i ij i N 1 j ij i)
)
P
(
N
1
(
s
)
)
P
(
N
1
(
P
N
1
ijP
影像中第 j 個像素的第 i 個顏色組成
萃取顏色分佈的空間資訊
顏色空間資訊
9/39
顏色相關直方圖
(Color Correlogra
m)
相同或不同顏色在空間上分布的機率
顏色 c i 與該點距離 k 處有一個顏色為 cj像素的機 率 自動顏色相關直方圖 (autocorrelogram)
相同顏色的顏色相關直方圖 距離 1: 藍藍 :2 /(8×1×2)=0.125 紅紅 :14/(8×1×6)=0.292 距離 2: 藍藍 :0 /(8×2×2)=0 紅紅 :28/(8×2×6)=0.389 距離 3: 藍藍 :6 /(8×3×2)=0.125 紅紅 :62/(8×3×6)= 0.431紋理
由重覆 pattern 元素 e 依 placement rule
(R) 所組成
11/39
Tamura 定義六種紋理基本特
徵
Coarseness
Coarse vs. fine Contrast
High contrast vs. low contrast
Directionality
Directional vs. non-directional
line-likeness
Line-like vs. blob like
Regularity
Regular vs. irregular Roughness
Rough vs. smooth D20 D34 D93 D98 D15 D33 D9 D34 D9 D98 D34 D98形狀
難由影像中切割出有興趣的物件
處理演算法會相依於不同的特定領域影像
探測出具有物件及位置化
利用邊探測 (edge detection) 技術
原始影像 邊影像 形狀影像13/39 原始 資料 影 像 及 視 訊 內 涵 資 料 庫 內 涵 式 檢 索 查 詢 介 面 影像 特徵模型化 特徵萃取處理 物件識別處理 物件模型化 語意模型化 語意識別處理 視訊格 關鍵視訊格 空間關係處理 時間關係處理 空間模型化 時間模型化 切割模型化 原始資料 內涵萃取 內涵模型化 瀏 覽 查 詢 結 果
物件識別層
物件識別層
分析低層萃取特徵在影像中識別出物件
物件模型是描述特定物件的樣板 (template)
,包含物件所具有的各種特徵
匹配品質:物件樣板精準度及詳細程度
二種類型的樣板匹配方法
固定樣板匹配 可變形的樣板匹配15/39
固定樣板匹配 : 影像相減方法
查詢影像 目標影像
顏色相減
可變形的樣板匹配範例
移動 旋轉
17/39
空間關係層
原始 資料 影 像 及 視 訊 內 涵 資 料 庫 內 涵 式 檢 索 查 詢 介 面 影像 特徵模型化 特徵萃取處理 物件識別處理 物件模型化 語意模型化 語意識別處理 視訊格 關鍵視訊格 空間關係處理 時間關係處理 空間模型化 時間模型化 切割模型化 原始資料 內涵萃取 內涵模型化 瀏 覽 查 詢 結 果空間關係層
2D String 參考點為物件的重心 (centroid) 運算子 ”<” left-right 及 below-above ”=” 相同位置 ”:” 相同集合CD
u: A<B=C:D<E
19/39
RS-String
物件在環形方向 (ring-direction: R-String) 及
扇形方向 (sector-direction: S-String) 的相對
空間關係
R-String : A<B=C S-String : A %(B<C) 0o A B C A B C 0o A B C語意表示層
影 像 及 視 訊 內 涵 內 涵 式 檢 索 查 詢 介 面 特徵模型化 特徵萃取處理 物件識別處理 物件模型化 語意模型化 語意識別處理 關鍵視訊格 空間關係處理 時間關係處理 空間模型化 時間模型化 切割模型化 內涵萃取 內涵模型化 瀏 覽 查 詢 結 果21/39
語意表示層
空間語意 (semantic) 事件和影像資料結合
查詢通常為描述性
限制式方法論 (constraints-based methodolog
y)
語意由一組限制 (constraint) 和一些 formal expres
影像理解組件 自然語言處理組件 控制組件 原始影像 影像標題 : 在電機館前 Francis 在 Jaehyung 的左邊
23/39
視訊切割
原始 資料 影 像 及 視 訊 內 涵 資 料 庫 內 涵 式 檢 索 查 詢 介 面 影像 特徵模型化 特徵萃取處理 物件識別處理 物件模型化 語意模型化 語意識別處理 視訊格 關鍵視訊格 空間關係處理 時間關係處理 空間模型化 時間模型化 切割模型化 原始資料 內涵萃取 內涵模型化 瀏 覽 查 詢 結 果視訊切割層
- 關鍵視訊格
兩大類鏡斷點探測方法
視每個視訊格如影像
以上述特徵萃取方式,如像素的比較 (pixel-level
comparison) 、顏色直方圖 (color histogram)
通常越複雜的方法其計算的成本也越高
對壓縮視訊資料處理
對壓縮的結果來處理,計算成本遠較其它方法好
25/39
切割結果範例
(59 個關鍵視訊
視訊切割
影 像 及 視 訊 內 涵 內 涵 式 檢 索 查 詢 介 面 特徵模型化 特徵萃取處理 物件識別處理 物件模型化 語意模型化 語意識別處理 關鍵視訊格 空間關係處理 時間關係處理 空間模型化 時間模型化 切割模型化 內涵萃取 內涵模型化 瀏 覽 查 詢 結 果27/39
時間關係模型化
時間上物件行為的表示
簡單事件:
觀察一個物件在視訊片斷中的描述 複雜事件:
由簡單事件遞迴定義出來視訊事件語意表示
Name: 分數 SuperClass: #table[NBA, 實況 , 比賽 ] SubClass: void Instance: 100 比 107 Description: 湖人對金磚 , 湖人勝 Video: demo.mpg NBA 實況 比賽 球員 遊戲 訪問 個人 教練 場次 地點 動量 練習 廠商29/39
代數式時間事件
萃取出物件追蹤其軌跡
建立 <object 、 trajectory 、 location> 的 t
riple
<O, T, L> where: O is defined as (Global_ID:23456, Shot_ID:5678-5722), World_name:{“ball”, ”basketball”,…}, Real_Color:<200,120,35>Picture:2.gif, shape: round,…) T is the chain code represented as (4,4,4,3,2,2,1,1,7)
L is the centroid of the region occupied by (.42, .12) R:0 1 2 3 4 5 6 7 8
3D-List
X-string: A B Y-string: B | 3 A time-string: A B A B A A 視訊 1 可利用增加數量資訊改進 視訊 1:A3 B1 視訊 2:A1 B331/39
空間
- 時間邏輯
Spatial assertion : Temporal assertion : S=<V,Obj,F>V: 維度數 Obj:S 中所具物件 F: 物件座標點 S1 S2 S3 S4 防守球員 (p1) x y z 球員 (p8) time 相對於 p8 的 p1 運動軌跡 球員(p8) 球員 (p1) ) P | ) z , P , S (( : P | ) z , P , S ( : P | ) y , P , S ( : ) P | ) x , P , S (( : P | ) x , P , S ( : 8 1 E 5 8 1 E 4 8 1 E 3 8 1 E 2 8 1 E 1 1 P 1 P 1 P 1 P 1 P )] ( [ ] [ )] ( [ | ) 0 , ( 4 t t 5 3 t 2 t t 1 always -temporal : eventually -temporal : t t 視訊語意方向圖形
V1 O11 O21 O31 V2 V 3 t1 1009 O11球員 1 O21球員 1 O 31球員 2 t2 1012 t3 1026 t4 1029 視訊片斷33/39
空間
- 時間邏輯: n-ary 關係
針對每個關鍵視訊格建立簡單空間事件
)
,
(
C
)
,
(
O
E
s
8x
bx
8y
by O:Overlap ; C:Contains空間
- 時間邏輯法
簡單時間事件可用 n-ary 關係將空間事件
結合起來
複雜時間事件用簡單時間事件結合
))
E
(
d
),
E
(
d
(
B
E
st
s1 s2))
E
(
d
),
E
(
d
),
E
(
d
(
B
E
ct
st1 st2 st3 ) E ( d st1 d(Est2) d(Est3)35/39 灌籃 傳球
代數視訊模型
遊戲 實況轉播 傳球事件 Algebraic video Algebraic video 灌籃事件 灌籃事件 得分事件 Algebraicvideo Algebraic video
階層式時間結合 得分 灌籃 C1=Create NBA. 場次 .200,300 C2=Create NBA. 場次 300,360 C3=Create NBA. 場次 1290,1700 得分 288 200 300 325 360 12901380 1700 D1 =Description C1 “ 傳球‘ D2 =Description C2 “ 灌籃‘ D3 =Description C3 “ 灌籃‘ 得分事件 = D1∪D2∪D3 具重疊及結合性質的 VIDEO EXPRESSION
無綱目視訊物件描述模型
OVID(Object-Oriented Video Information
Database)
視訊物件是語意上有意義的幕
每個視訊皆具有獨立的性質,無法用以往關
聯式資料庫事先定義屬性的方式來掌控,且
其亦無法提供動態的 schema evaluation
建構 schemaless 的物件導向資料庫
實況轉播 1 實況轉播 2 球隊: 隊 1, 隊 2 下一場: 實況 2 賽程: 對抗賽 球隊: 隊 2, 隊 3 下一場: 實況 3 賽程: 季後賽 球隊:g1,… 下一場: 無 賽程: 全部比賽 o3 中場事件 前場事件 活動: 傳球 活動: 灌籃 o4 o2 o9 o10 i3 i9 i10 中場事件 前場事件 活動: 傳球 活動: 灌籃 o11 o12 i11 i12 前場事件 活動: 灌籃 i14 o13 得分事件 1 活動: 得分 i6 o6 i4 得分事件2 活動: 得分 i7 o7 得分事件3 活動: 得分 i8 o8 時間軸 NBA 轉播 遊戲 1 i1 i2 球隊: 隊 1,… 下一場 : 遊戲 1 賽程: 全部比賽 o1 球隊:g1,g2 賽程 : 總決賽 o5 遊戲 1 i5 ] : ,...; 1 : ; NBA : [ v v ] 2 : [ v v ] : ; 3 , 2 : ; 3 : [ v ] : ; 2 , 1 : ; 2 : [ v 4 3 4 3 4 3 全部比賽 賽程 隊 隊伍 轉播 下一場 隊 隊伍 季後賽 賽程 隊 隊伍 實況轉播 下一場 對抗賽 賽程 隊 隊伍 實況轉播 下一場 轉播 得分事件 實況轉播 得分事件 轉播 實況轉播 NBA 1 1 1 NBA 1 ) v }, i { , oid ( o ) v }, i { , oid ( o ] o , : 2 ; o , : 1 ; : [ v ) v }, i { , oid ( o 10 10 10 10 9 9 9 9 10 9 6 6 6 6 6 灌籃 事件 傳球 事件 得分事件 活動
視訊資料庫模型化方法比較
模型 空間- 時間模型 ( 事件表 示) 模型化方法 萃取語意的模式 查詢方法 Smoliar [SZ94] 事先定義的SCD-based model 分析及切割 自動 視覺式瀏覽工具 Yeung [YYW95] 階層式Scene transitio n mraph 分析及切割 人工或自動 視覺式瀏覽工具 Chen [CTD98] 無 分析及切割 人工或自動 視覺式瀏覽工具 Golshani [DKG00] Algebraic 物件識別及運動分析 自動 Algebraic expression Day [DDI95] Spatio-temporal logic u sing object & event物件識別及運動分析 人工輔助 Logical
expression Bimbo
[BVZ95]
Spatio-temporal logic u sing object & event
物件識別及運動分析 人工輔助 By sketch
39/39
結論及未來研究方向
發展有效率的內涵萃取方法
發展有效率的內涵式檢索演算法
視覺式的查詢及瀏覽
研究方向
發展有效率的視訊內涵萃取模型
由低層特徵到高層語意的表示