Senior SRE/DevOps Engineer(營運部)

Job updated 9 days ago
The employer was active 8 days ago

Job Description

我們從計程車叫車 App 出發,55688 App 已突破 720 萬會員、累積超過 100 萬次下載,並維持 4.8 星高評價。隨著服務擴展至快遞、找專家、洗衣等生活服務,我們正朝向能承載高即時流量與高可靠度需求的 Super App 邁進。

目前團隊已具備研發與第一線維運人員,正在建立 SRE(可靠度工程)能力,希望邀請對系統穩定性、工程化改善有熱情的工程師,一起把基礎打好、制度建起來。

一、職務定位

1. 負責維持系統在 7x24x365 營運模式下的穩定性、可用性與可擴展性,透過工程化方式降低事故發生率、縮短復原時間,並建立自動化、標準化的部署與維運流程,使系統能安全、快速、可預期地持續交付。同時與研發工程師密切合作,將穩定度、可維運性與交付能力內建於產品開發流程中。

2. 這是一個 SRE / DevOps 的探索與建設角色(0→1),我們不期待你一來就建立完整 SRE 體系,能與團隊逐步建立可靠度工程的基礎能力與共識。

二、Incident / on-call 分工說明

1. L1(第一線)即時應變:由維運人員負責。

2. 本職位為 L2 on-call 支援角色,專注在可靠度與穩定性。

3. 核心價值在於:

* 事後改善。

* 制度建立。

* 用工程方式降低事故發生率與影響範圍。

三、你會做的事(工作內容)

(一) SRE(可靠度工程|L2)

1. 與團隊一起盤點關鍵服務,逐步導入服務可靠度目標:

* Service Level Agreement

* Service Level Objective

* Error Budget

2. 協助設計與改善系統架構:

* 高可用架構(Load Balancer、Auto Scaling、Failover)。

* 健康檢查與自動復原機制。

3. 進行容量規劃與壓力評估:

* Capacity Planning。

* 事前評估壅塞與資源不足風險。

4. 建立與優化可觀測性(Observability):

* Metrics(CPU、Memory、QPS、Latency、Error Rate)

* Logs(集中化日誌)

* Tracing(分散式追蹤)

5. 設計合理告警策略:

* 避免大量無效或過度頻繁告警。

* 讓告警更貼近實際風險與業務影響。

6. 參與 L2 on-call 支援:

* 協助分析系統性問題與 Root Cause。

* 評估是否需要:

a. 回滾版本。

b. 降級服務。

c. 進行跨系統處置。

7. 主導或協助完成 Incident Report 與 Postmortem:

* 系統性整理事故過程與影響。

* 將每一次事故轉化為具體改善行動與制度。

* 追蹤改善措施的落實情況。

(二) DevOps

1. 建立與維護 CI/CD Pipeline:

* 例如 Jenkins、GitLab CI、GitHub Actions。

* 確保流程穩定、可重複且易維護。

2. 將以下流程自動化,降低人工操作風險:

* Build。

* Test。

* Security Scan。

* Deploy。

3. 支援多環境的一致性與部署效率:

* Dev 環境。

* Staging 環境。

* Production 環境。

4. 導入 Infrastructure as Code:

* 例如 Terraform。

* 提升環境管理與佈署的可重現性與可追蹤性。

5. 建立與完善發布與回復機制

6. 與 QA、RD 協作:

* 透過流程與工具設計降低發版風險。

* 在速度與穩定之間取得平衡。

(三) 與研發與維運團隊協作

1. 與 RD 協作,將穩定度與可觀測性納入開發流程,例如:

* 設計 Health Check 機制,讓系統狀態可被自動偵測與監控。

* 規劃服務降級與備援設計,確保在部分功能異常時,核心流程仍可運作。

* 持續消除單點故障(SPOF),提升整體架構的高可用性。

2. 提供標準化平台能力,讓各產品團隊能共用:

* CI/CD Pipeline 範本。

* 監控標準模組。

* 告警標準規則。

3. 與研發與維運團隊共同建立基礎 SRE 實踐:

* Incident handling 流程:

a. 通報。

b. 應變。

c. 復原。

* Runbook 撰寫與持續改善:

a. 讓常見情境有標準作業手冊可依循。

* 基本 SLO / Error Budget 導入與追蹤。

4. 透過文件、分享與實務協作:

* 提升團隊對 SRE 思維與方法的理解。

* 建立跨團隊對穩定度的共同語言與共識。

四、我們期待你具備的條件

(一) 必備條件

1. 3–5 年以上 DevOps 或 SRE 相關實務經驗。

2. 熟悉作業系統與網路基礎:

* TCP/IP。

* DNS。

* HTTP。

* Load Balancer 等相關概念。

3. 熟悉至少一種雲端平台:

* 例如 GCP 或 Azure。

4. 熟悉容器與編排技術

5. 具備 CI/CD Pipeline 建置或維護經驗。

6. 熟悉或曾接觸 Observability 工具,例如:

* Prometheus / Grafana。

* ELK(Elasticsearch / Logstash / Kibana)。

* Datadog。

* OpenTelemetry 等。

7. 能配合 L2 on-call 支援:

* 接受輪值制度。

* 願意以工程方式持續降低 on-call 負擔與頻率。

8.具領導資淺同仁、指派工作經驗,協同完成工作內容。

(二) 加分條件

1. 有即時高流量系統經驗(即時服務、電商、金流)。

2. 具效能調校、容量規劃或壓力測試實務經驗。

3. 具雲端或平台資安實務經驗,例如:

* 權限設計。

* 資安防護。

* 合規與稽核相關經驗。

這不是一個「只是在前線救火」的職位, 而是一個能與團隊一起把 SRE 能力與制度從 0 建起來的角色。

如果你喜歡把混亂變成秩序、

把事故變成制度、

把人力應變變成工程化改善,

我們會很期待和你聊聊。

1
5 years of experience required
50,000 ~ 80,000 TWD / month
Partial Remote Work
Personal Invitation Link
This is your personal referral link for job invitation. You'll receive an email notification when someone applied for the position via your job link.
Share this job
People who applied for this job also applied for

About us

55688集團-台灣智慧生活網股份有限公司

55688集團從過往以『車』為中心轉變為以『人』為核心,從民眾生活面向發展平台媒合,子公司台灣智慧生活網的成立,更是期待透過乘車大數據和AI技術,開放平台成為場域提供者,廣邀其他生態圈加入,攜手創造平台多元化的價值。55688集團旗下關係企業,包括:台灣大車隊、55688代駕、全球快遞、潔衣家、生活大管家、金讚保修和台灣大旅遊等,皆以新創經濟為主軸,不斷擴展多角化的商業模式,相信將成為集團未來強大的發展助力。

台灣智慧生活網將專注生活服務媒合為核心量能,透過數位科技、大數據運用、AI分析、全方位金流支付與高含金的680萬用戶數,媒合供需雙邊形成「新生活服務生態圈」,創造平台流量與價值,發展超級APP(super app)。

如果你正在尋找一個能發揮自己的實力、揮灑無限創造力的舞台,
55688集團誠摯邀請您成為我們的夥伴。