我們從計程車叫車 App 出發,55688 App 已突破 720 萬會員、累積超過 100 萬次下載,並維持 4.8 星高評價。隨著服務擴展至快遞、找專家、洗衣等生活服務,我們正朝向能承載高即時流量與高可靠度需求的 Super App 邁進。
目前團隊已具備研發與第一線維運人員,正在建立 SRE(可靠度工程)能力,希望邀請對系統穩定性、工程化改善有熱情的工程師,一起把基礎打好、制度建起來。
一、職務定位
1. 負責維持系統在 7x24x365 營運模式下的穩定性、可用性與可擴展性,透過工程化方式降低事故發生率、縮短復原時間,並建立自動化、標準化的部署與維運流程,使系統能安全、快速、可預期地持續交付。同時與研發工程師密切合作,將穩定度、可維運性與交付能力內建於產品開發流程中。
2. 這是一個 SRE / DevOps 的探索與建設角色(0→1),我們不期待你一來就建立完整 SRE 體系,能與團隊逐步建立可靠度工程的基礎能力與共識。
二、Incident / on-call 分工說明
1. L1(第一線)即時應變:由維運人員負責。
2. 本職位為 L2 on-call 支援角色,專注在可靠度與穩定性。
3. 核心價值在於:
* 事後改善。
* 制度建立。
* 用工程方式降低事故發生率與影響範圍。
三、你會做的事(工作內容)
(一) SRE(可靠度工程|L2)
1. 與團隊一起盤點關鍵服務,逐步導入服務可靠度目標:
* Service Level Agreement
* Service Level Objective
* Error Budget
2. 協助設計與改善系統架構:
* 高可用架構(Load Balancer、Auto Scaling、Failover)。
* 健康檢查與自動復原機制。
3. 進行容量規劃與壓力評估:
* Capacity Planning。
* 事前評估壅塞與資源不足風險。
4. 建立與優化可觀測性(Observability):
* Metrics(CPU、Memory、QPS、Latency、Error Rate)
* Logs(集中化日誌)
* Tracing(分散式追蹤)
5. 設計合理告警策略:
* 避免大量無效或過度頻繁告警。
* 讓告警更貼近實際風險與業務影響。
6. 參與 L2 on-call 支援:
* 協助分析系統性問題與 Root Cause。
* 評估是否需要:
a. 回滾版本。
b. 降級服務。
c. 進行跨系統處置。
7. 主導或協助完成 Incident Report 與 Postmortem:
* 系統性整理事故過程與影響。
* 將每一次事故轉化為具體改善行動與制度。
* 追蹤改善措施的落實情況。
(二) DevOps
1. 建立與維護 CI/CD Pipeline:
* 例如 Jenkins、GitLab CI、GitHub Actions。
* 確保流程穩定、可重複且易維護。
2. 將以下流程自動化,降低人工操作風險:
* Build。
* Test。
* Security Scan。
* Deploy。
3. 支援多環境的一致性與部署效率:
* Dev 環境。
* Staging 環境。
* Production 環境。
4. 導入 Infrastructure as Code:
* 例如 Terraform。
* 提升環境管理與佈署的可重現性與可追蹤性。
5. 建立與完善發布與回復機制
6. 與 QA、RD 協作:
* 透過流程與工具設計降低發版風險。
* 在速度與穩定之間取得平衡。
(三) 與研發與維運團隊協作
1. 與 RD 協作,將穩定度與可觀測性納入開發流程,例如:
* 設計 Health Check 機制,讓系統狀態可被自動偵測與監控。
* 規劃服務降級與備援設計,確保在部分功能異常時,核心流程仍可運作。
* 持續消除單點故障(SPOF),提升整體架構的高可用性。
2. 提供標準化平台能力,讓各產品團隊能共用:
* CI/CD Pipeline 範本。
* 監控標準模組。
* 告警標準規則。
3. 與研發與維運團隊共同建立基礎 SRE 實踐:
* Incident handling 流程:
a. 通報。
b. 應變。
c. 復原。
* Runbook 撰寫與持續改善:
a. 讓常見情境有標準作業手冊可依循。
* 基本 SLO / Error Budget 導入與追蹤。
4. 透過文件、分享與實務協作:
* 提升團隊對 SRE 思維與方法的理解。
* 建立跨團隊對穩定度的共同語言與共識。
四、我們期待你具備的條件
(一) 必備條件
1. 3–5 年以上 DevOps 或 SRE 相關實務經驗。
2. 熟悉作業系統與網路基礎:
* TCP/IP。
* DNS。
* HTTP。
* Load Balancer 等相關概念。
3. 熟悉至少一種雲端平台:
* 例如 GCP 或 Azure。
4. 熟悉容器與編排技術
5. 具備 CI/CD Pipeline 建置或維護經驗。
6. 熟悉或曾接觸 Observability 工具,例如:
* Prometheus / Grafana。
* ELK(Elasticsearch / Logstash / Kibana)。
* Datadog。
* OpenTelemetry 等。
7. 能配合 L2 on-call 支援:
* 接受輪值制度。
* 願意以工程方式持續降低 on-call 負擔與頻率。
8.具領導資淺同仁、指派工作經驗,協同完成工作內容。
(二) 加分條件
1. 有即時高流量系統經驗(即時服務、電商、金流)。
2. 具效能調校、容量規劃或壓力測試實務經驗。
3. 具雲端或平台資安實務經驗,例如:
* 權限設計。
* 資安防護。
* 合規與稽核相關經驗。
這不是一個「只是在前線救火」的職位, 而是一個能與團隊一起把 SRE 能力與制度從 0 建起來的角色。
如果你喜歡把混亂變成秩序、
把事故變成制度、
把人力應變變成工程化改善,
我們會很期待和你聊聊。
5 years of experience required
No management responsibility