我是一名熱情的軟體工程師。畢業於國立台灣科技大學電子所,研究方向為機器學習與電腦視覺,善常撰寫高效率的TensorFlow程式,近期熱衷於動作偵測辨識及定位、多物件偵測/追蹤。 常常閱讀CVPR研討會論文,學到了很多影像處理的相關知識,也對最近幾年非常熱門的深度學習有許多經驗,特別是訓練旋積神經網路的技巧。 碩士論文以深度學習為基礎,利用光達(Lidar)與影像(RGB)兩種資訊的結合,建構一個三維空間的多物件偵測旋積神經網路模型,並應用於汽車自動駕駛系統上。
Python、TensorFlow、Deep Learning、Machine Learning、Image Processing
軟體、演算法、影像處理工程師
Deep Learning
Machine Learning
Image Processing
Python, C
Matlab
TensorFlow
Caffe
OpenCV
比起二維物件偵測網路能達到超過90%準確率,三維物件偵測網路(約75%準確率)還有很大的進步空間。目前最主要的目標為提升執行速度與精準度,像是用更精準的編碼方式法表達三維空間中的特徵、改變網路架構更能對抗over-fitting的問題、改變感測器資訊融和的方法等。
參與工業技術研究院資通所計畫「碰撞偵測-應用於自動駕駛系統」,只透過單一影像(無雙鏡頭與深度感測器)辨識行進車道與預測前方車輛軌跡,實現車輛碰撞前警示。其中,利用Faster RCNN進行物件偵測、Mask RCNN進行車道辨識、LSTM預測前方車輛軌跡、Self-supervised估計深度,並結合以上特徵進行決策,判斷即將碰撞的可能性。
參與工業技術研究院資通所計畫「影片標記註釋-應用於自動駕駛系統」,只透過少許人力手動標記影片註釋與Weekly-supervised的方式蒐集並更新資料,結合物件偵測(Faster RCNN)與追蹤(SiameseFC tracker),達到自主學習標記準確率極高的影片註釋。另外,值得一提的是人力標記的部分,我們寫了一個群眾外包(crowd-sourcing)的APP減低標記時的成本。
除了校內的課程,我很高興能上 IEEE International Elite School 開的 “Machine Learning for Big Visual Data” 課程,由美國華盛頓大學電機系黃正能教授教授電腦分析和學習影像的技術,並且介紹目前國際權威的設計原理和方法,深入探討視覺數據的監督式與非監督式學習、從類神經網路、深度學習到影像物件追蹤的應用等。讓我對這個領域有更多不同面向的了解,也學習到很多校內課堂上沒有的資訊和知識。
有著探索新技術及解決問題的熱枕,利用網路資源自己精進,像是Stanford University的CS231n:Convolutional Neural Networks for Visual Recognition和CS224d:Natural Language Processing with deep Learning、University of Toronto的CSC321:Intro to Neural Networks and Machine Learning等,除了新技術的學習,也培養自己設計上的靈敏度。
二維空間的資訊(RGB影像)不足以準確描述道路駕駛環境,結合三維資訊(Lidar光達),利用Lidar與RGB兩種資訊的結合,互補不同sensor的優缺點,實現三維空間的物件偵測模型。