Zero-Shot Learning for Novel Attribute Synthesize

Avatar of 趙梓吟.
Avatar of 趙梓吟.

Zero-Shot Learning for Novel Attribute Synthesize

國立交通大學研究助理
Hsinchu City, Taiwan 300

Training Phase

Infereence Phase

[負責項目] 演算法之設計與實踐(論文為共同第一作者) [專案目標] 為資料集標註細緻的屬性標籤(attribute label)所需的人力成本很龐大。以CUB鳥類辨識資料為例,每張照片需要標註312個屬性標籤,諸如"有紅翅膀"、 "有綠色胸"……等。因此,本案目標為開發可有條件的減輕標註負擔的技術。 人類可以理解語意間的組合,並且透過邏輯組合舉一反三的運用。例如,教一個人辨識紅翅膀、藍翅膀後,他很大機率就能理解"翅膀"這個概念,也能和其他已知概念例如"藍色"組合運用。受此啟發,我們開發一種可對訓練完成之影像特徵識別器進行邏輯操作的網路。例如,給定訓練好的"藍胸"、"綠胸"、"紅翅膀"、"紅頭"特徵識別器權重,可以透過邏輯運算模型以(紅頭⋂紅翅膀)得到"紅", (藍胸⋂綠胸)得到"胸",最後再利用(翅紅∪胸),在沒有任何"紅胸"訓練影像的情況下得到"紅胸"的識別器。 如此一來,若將來某新資料集需要標註屬性標籤,且其屬性標籤間能夠用邏輯組合互相描述,便只需人工標註最低限度種類,剩餘可由本方法自動標註完成。 [專案績效] 1. 本研究展示於標註CUB dataset上,人工標註32種attribute標籤後,可透過本方法自動標註出另外207種新穎類型的標籤。 2. 使用本方法標記出的attribute標籤作為類別語意(class semantic)訓練不同Generalized zero-shot classification的演算法,可以達到與使用人類標註attribute標籤作為類別語意訓練相近(甚至略佳)之效能。 [專案進度] 完成,研究成果已經投遞至研討會進行同行審議[1] [專案挑戰] 1. 克服人類與機器學習模型的語意間隙(Semantic gap),訓練之特徵偵測器(attribute detector)需能運用與人類理解一致的特性執行判斷。(例如,判斷一張圖片中含有”紅色翅膀”,則其響應位置必須落在紅色翅膀上) 2. 如何訓練可以對特徵偵測器權重執行邏輯運算(聯集/交集)的模型,確保組合出之新特徵偵測器能正確捕捉對應特徵。 [專案設計] 為應對上述挑戰,本案的核心想法如下: 第一個步驟為根據現有人工屬性標籤種類訓練出對應屬性辨識器(即Seen attribute detector)。對應挑戰1,由於訓練出來的辨識器將會被用來做邏輯運算,因此確保其響應的特徵正確至關重要。我們做出兩個設計: 1. 辨識器的權重皆為正值:藉由這個設計可以強迫辨識器學習尋找正面證據來做辨識。若把圖片特徵向量中的每個維度數值理解為"含有有多少這種特徵的成分",那麼描述一種屬性的辨識器就是利用"成分組成比例"的方式來呈現。如果要準確描述一種屬性,例如"紅色翅膀",我們希望辨識器是因為圖片"紅色"比例高且"翅膀"比例高而判斷其"高機率含有紅色翅膀",而非因為其他成分,例如"藍色"比例高就降低判斷"含有紅色翅膀"的機率。 2. 利用損失函數約束辨識器的響應盡量集中(L_umc):藉由這個設計可以避免辨識器學習過於概括、模糊的特徵。 接著,我們利用剛剛訓練好的Seen attribute detector的權重作為訓練資料,進一步訓練intersection網路(Union在我們的實驗中發現使用簡單的average效果較佳)。具體來說,intersection和Union的輸入都是兩個偵測器權重,輸出則為邏輯組合後的對應語意偵測器權重。因此我們利用手邊擁有的Seen attribute detector以邏輯組合互相描述,再重構損失(L_rec)來訓練網路。 最後,待網路訓練完畢,即可使用這兩個邏輯操作組合出新種類的屬性偵測器(Unseen attribute detector),並使用這些偵測器標註資料集。 [1] Y. -H. Li*, T. -Y. Chao*, C. -C. Huang, P. -Y. Chen, W. -C. Chiu, “Make an Omelette with Breaking Eggs: Zero-Shot Learning for Novel Attribute Synthesis”, arXiv:2111.14182 (Preprint), 2021. (* equal contribution.)
Avatar of the user.
Please login to comment.

Published: May 30th 2022
49
8
0

Tools

python
Python

Representation learning
Deep learning
Zero-shot learning
Computer vision

Share