公司介紹
我們是一家深耕金融科技與資料智能應用的技術團隊,正積極將 大型語言模型導入高風險、高標準的實際業務場景。不同於單純模型實驗,這裡更關注 AI 是否「可靠、可驗證、可長期運作」。
團隊由資深工程與資料背景成員組成,文化務實、重視工程品質,並持續投入 AI Safety、模型評測與自動化流程,打造能被真正信任的生成式 AI 系統。
工作內容
設計並開發 LLM / RAG 系統的自動化評測工具與流程
建立模型多維度評分機制(Accuracy、Relevance、Faithfulness、Consistency)
將評測流程整合至 CI/CD(Jenkins / GitLab CI),確保模型版本品質穩定
與業務及資料團隊合作,建立高品質 Golden Dataset 與 Synthetic Data
執行 Prompt Injection、Jailbreak 等 LLM 安全與紅隊測試
分析失敗案例,協助定位 Retrieval 或 Generation 問題,驗證修復成效
使用的技術
Python、Pytest / unittest
LLM / RAG Framework:LangChain、LlamaIndex、Semantic Kernel
資料分析:Pandas、NumPy、Visualization Tools
評測框架:RAGAS、TruLens、DeepEval、Promptfoo(加分)
CI/CD、Git
Docker / Kubernetes(加分)
3 years of experience required
No management responsibility