公司介紹
我們的客戶為台灣具指標性的大型金融機構,長期被市場視為金融科技與 AI 落地的領先者。近年在 Generative AI 領域投入大量資源,不僅推動多項 GenAI 旗艦方案,更成功將 AI 技術導入實際營運流程,建立可複製、可擴展的企業級應用模式。
本職缺隸屬於核心的轉型單位(約百人規模),高階長官具備資工博士級背景,組織定位關鍵、決策鏈短,並直接影響 AI 產品是否能安全、穩定地交付給最終客戶。
職務說明
我們正在尋找一位 AI 模型主管,從零建立企業級 AI 品質與評測體系。
你將擔任 AI 產品上線前的 「守門員(Gatekeeper)」,全權負責 LLM、RAG 與 ML 系統的評測標準、發布流程與風險控管,平衡模型效能、安全性與合規性,對產品能否正式上線具有關鍵影響力。
工作內容
一、AI 評測策略與框架建立
從零打造企業級 AI 評測架構,定義 LLM / RAG / ML 系統的核心評估指標
評測面向涵蓋:準確率、相關性、真實性(Faithfulness)、一致性(Consistency)
將 Responsible AI 原則納入驗收標準(公平性、偏見、可解釋性)
推動評測流程自動化,並與 MLOps / CI-CD 深度整合
二、基準測試與資料治理
規劃並管理 Golden Dataset,涵蓋關鍵業務流程、Edge Cases 與對抗性樣本
追蹤並評估主流評測工具與方法(如 RAGAS、DeepEval、Arize Phoenix)
建立模型版本間可比較、可追蹤的 Benchmark 體系
三、AI 安全與紅隊演練
建立 AI 安全防護與風險驗證機制
主導 LLM 紅隊演練(Red Teaming)
制定並驗證 Prompt Injection、Jailbreaking、PII 洩露等風險的防禦與壓力測試標準
四、跨部門協作與團隊領導
與演算法、後端工程、產品團隊密切合作,建立錯誤分析回饋迴圈
針對生產環境 Bad Cases 進行 RCA,提出 Fine-tuning / Prompt Engineering 優化建議
負責團隊培育、流程標準化與評測文件制度建立
5 years of experience required
Managing staff numbers: not specified