Aug 2020 - Present
大數據服務架構設計與開發:從零建立一套全公司共用的數據服務平台,銜接各事業處RDB資料,整理出多種節點與連線,供BA、DA、Marketing人員進行Customer Exploration & Modeling,並持續因應需求變化進行資料流之品質、擴充彈性與效率的強化與提升,同時因應組織與稽核要求規劃對應的權限控管與血源衝擊管理機制。
ETL框架設計:主導設計結構化資料框架以幫助公司資料科學團隊在低轉換成本將類pandas資料處理pipeline導入airflow自動排程系統,並同時提供底層自動銜接CuDF加速容器功能,使資料運行瓶頸能達到400倍以上加速。
ETL效能提升研究:指導實習生建置類pandas套件的速度與空間效能的profiling實驗框架與模擬環境,以協助資料科學團隊快速評估各種ETL元操作與其使用之套件的最佳組合方案。
信貸行銷方案產製專案:在此跨部門合作專案中,代表AI部門協助與指導業務部門以python與SQL將業務邏輯整合進框架中,主導行銷方案運算的框架的設計以支援未來貸款方案擴增彈性及跨部門協作的方便性,另外,也針對運算瓶頸協助透過多進程與多容器運算將700萬顧客資料的inference 時間從5天加速到8小時。
房貸比較法Graph 模型研發:深入了解不動產估價技術法規,改寫學界的深度學習房屋估價模型以加入符合法規要求的解釋性,並以Google SCANN加速估價案例發查速度,以提升模型training 與inference data的產製速度以及提升可擴充的彈性。
Deep Learning 實驗框架設計:以pytorch-lightning 與lazy-computation 為核心建構規格化的深度學習實驗框架,以加速外部合作學術機構所研發的模型架構導入,並以Ray tune 建置多進程平行調參功能以加速模型優化速度。
GitHub SideProjects:
- JSON Schema 自動生成
- 資料管線 Monad Design Pattern 研發
- PyPi 套件Dependency Graph爬蟲
- 加密貨幣市場趨勢分析平台API
- Python Multiprocessing 平行運算工具研究
- Ray Multiprocessing Actor 實作開發
- Python AST 語法樹研究
- 基於Ray的模型自動調參工具研究