Zero-Shot Learning for Novel Attribute Synthesize

By趙梓吟

國立交通大學研究助理

・

Hsinchu City, Taiwan 300

Training Phase

Infereence Phase

[負責項目] 演算法之設計與實踐(論文為共同第一作者) [專案目標] 為資料集標註細緻的屬性標籤(attribute label)所需的人力成本很龐大。以CUB鳥類辨識資料為例，每張照片需要標註312個屬性標籤，諸如"有紅翅膀"、 "有綠色胸"……等。因此，本案目標為開發可有條件的減輕標註負擔的技術。人類可以理解語意間的組合，並且透過邏輯組合舉一反三的運用。例如，教一個人辨識紅翅膀、藍翅膀後，他很大機率就能理解"翅膀"這個概念，也能和其他已知概念例如"藍色"組合運用。受此啟發，我們開發一種可對訓練完成之影像特徵識別器進行邏輯操作的網路。例如，給定訓練好的"藍胸"、"綠胸"、"紅翅膀"、"紅頭"特徵識別器權重，可以透過邏輯運算模型以(紅頭⋂紅翅膀)得到"紅"， (藍胸⋂綠胸)得到"胸"，最後再利用(翅紅∪胸)，在沒有任何"紅胸"訓練影像的情況下得到"紅胸"的識別器。如此一來，若將來某新資料集需要標註屬性標籤，且其屬性標籤間能夠用邏輯組合互相描述，便只需人工標註最低限度種類，剩餘可由本方法自動標註完成。 [專案績效] 1. 本研究展示於標註CUB dataset上，人工標註32種attribute標籤後，可透過本方法自動標註出另外207種新穎類型的標籤。 2. 使用本方法標記出的attribute標籤作為類別語意(class semantic)訓練不同Generalized zero-shot classification的演算法，可以達到與使用人類標註attribute標籤作為類別語意訓練相近(甚至略佳)之效能。 [專案進度] 完成，研究成果已經投遞至研討會進行同行審議[1] [專案挑戰] 1. 克服人類與機器學習模型的語意間隙(Semantic gap)，訓練之特徵偵測器(attribute detector)需能運用與人類理解一致的特性執行判斷。(例如，判斷一張圖片中含有”紅色翅膀”，則其響應位置必須落在紅色翅膀上) 2. 如何訓練可以對特徵偵測器權重執行邏輯運算(聯集/交集)的模型，確保組合出之新特徵偵測器能正確捕捉對應特徵。 [專案設計] 為應對上述挑戰，本案的核心想法如下：第一個步驟為根據現有人工屬性標籤種類訓練出對應屬性辨識器(即Seen attribute detector)。對應挑戰1，由於訓練出來的辨識器將會被用來做邏輯運算，因此確保其響應的特徵正確至關重要。我們做出兩個設計： 1. 辨識器的權重皆為正值：藉由這個設計可以強迫辨識器學習尋找正面證據來做辨識。若把圖片特徵向量中的每個維度數值理解為"含有有多少這種特徵的成分"，那麼描述一種屬性的辨識器就是利用"成分組成比例"的方式來呈現。如果要準確描述一種屬性，例如"紅色翅膀"，我們希望辨識器是因為圖片"紅色"比例高且"翅膀"比例高而判斷其"高機率含有紅色翅膀"，而非因為其他成分，例如"藍色"比例高就降低判斷"含有紅色翅膀"的機率。 2. 利用損失函數約束辨識器的響應盡量集中(L_umc)：藉由這個設計可以避免辨識器學習過於概括、模糊的特徵。接著，我們利用剛剛訓練好的Seen attribute detector的權重作為訓練資料，進一步訓練intersection網路(Union在我們的實驗中發現使用簡單的average效果較佳)。具體來說，intersection和Union的輸入都是兩個偵測器權重，輸出則為邏輯組合後的對應語意偵測器權重。因此我們利用手邊擁有的Seen attribute detector以邏輯組合互相描述，再重構損失(L_rec)來訓練網路。最後，待網路訓練完畢，即可使用這兩個邏輯操作組合出新種類的屬性偵測器(Unseen attribute detector)，並使用這些偵測器標註資料集。 [1] Y. -H. Li*, T. -Y. Chao*, C. -C. Huang, P. -Y. Chen, W. -C. Chiu, “Make an Omelette with Breaking Eggs: Zero-Shot Learning for Novel Attribute Synthesis”, arXiv:2111.14182 (Preprint), 2021. (* equal contribution.)