Cake Job Search

Advanced filters
Off
Logo of OpenNet 開網有限公司.
If you● Are a self-driven DevOps Engineer with proven experience in large-scale micro-service systems hosted on AWS● Have a deep understanding of cloud architecture, AWS technologies and cloud security best practices● Are following the latest industry trends and are passionate about cloud computing for large-scale systems Key Responsibilities● Work in a team of DevOps and DBA professionals – initially 3 people, although this will expand throughout the country expansion● Improve existing infrastructure and CI/CD procedure● Holistically improve all aspects of our infrastructure, including reducing costs, improving build and deployment times, streamlining environment provisioning, lowering load times, incorporating the latest techniques and technologies, and more● Monitor and maintain the existing cloud infrastructure via autoscaling, automated alerts● Take ownership and responsibility for our cloud operation activities● Liaise with external security agencies for annual audits as well as perform our own internal security sweeps● Aid in reconfiguring existing architecture to allow for rapid deployments to new countries● Report to DevOps Leader/DirectorOur Stack● Backend Application Framework: Spring Boot (Java Config + Embedded Tomcat)● Frontend Application Framework: VueJS● Micro Service Framework: Spring Cloud Dalston (Netflix Eureka + Netflix Eureka + Netflix Ribbon + Feign)● Database: AWS RDS, RDS Proxy, MONGODB● Public Cache: AWS ElastiCache + Redis● Message Queue: Apache RocketMQ, RabbitMQ● Distributed Scheduling: Dangdang Elastic Job● Data Index and Search: ElasticSearch● Log Real-time Visualization: ElasticSearch + Logstash + Kibana, Grafana Loki● Business Monitoring: Prometheus + Grafana● Reverse Proxy: Nginx● CDN: Cloudflare● Server Virtualization Container: AWS EKS + AWS EC2● Server Operation System: CentOS● Static File Storage: AWS S3● Inner DNS Resolution: AWS Route 53● Network Management: AWS VPC● Cluster Management and Scaling: AWS OpsWorks● Cluster Monitoring: Prometheus + AWS CloudWatch● HTTPS Certificate Management: AWS Certificate Manager● Malicious Attack Defending: AWS WAF Shield● Cluster Alert: AWS SNS + Slack● Continuous Integration/Deployment: Jenkins, Rancher, ArgoCD● Configuration Tool: Ansible, Chef, Sal
台灣台北
Terraform
Kubernetes (k8s)
900K ~ 2.2M TWD / year
3 years of experience required
No management responsibility
Logo of 55688集團_台灣智慧生活網股份有限公司.
我們從計程車叫車 App 出發,55688 App 已突破 720 萬會員、累積超過 100 萬次下載,並維持 4.8 星高評價。隨著服務擴展至快遞、找專家、洗衣等生活服務,我們正朝向能承載高即時流量與高可靠度需求的 Super App 邁進。 目前團隊已具備研發與第一線維運人員,正在建立 SRE(可靠度工程)能力,希望邀請對系統穩定性、工程化改善有熱情的工程師,一起把基礎打好、制度建起來。 一、職務定位 1. 負責維持系統在 7x24x365 營運模式下的穩定性、可用性與可擴展性,透過工程化方式降低事故發生率、縮短復原時間,並建立自動化、標準化的部署與維運流程,使系統能安全、快速、可預期地持續交付。同時與研發工程師密切合作,將穩定度、可維運性與交付能力內建於產品開發流程中。 2. 這是一個 SRE / DevOps 的探索與建設角色(0→1),我們不期待你一來就建立完整 SRE 體系,能與團隊逐步建立可靠度工程的基礎能力與共識。 二、Incident / on-call 分工說明 1. L1(第一線)即時應變:由維運人員負責。 2. 本職位為 L2 on-call 支援角色,專注在可靠度與穩定性。 3. 核心價值在於: * 事後改善。 * 制度建立。 * 用工程方式降低事故發生率與影響範圍。 三、你會做的事(工作內容) (一) SRE(可靠度工程|L2) 1. 與團隊一起盤點關鍵服務,逐步導入服務可靠度目標: * Service Level Agreement * Service Level Objective * Error Budget 2. 協助設計與改善系統架構: * 高可用架構(Load Balancer、Auto Scaling、Failover)。 * 健康檢查與自動復原機制。 3. 進行容量規劃與壓力評估: * Capacity Planning。 * 事前評估壅塞與資源不足風險。 4. 建立與優化可觀測性(Observability): * Metrics(CPU、Memory、QPS、Latency、Error Rate) * Logs(集中化日誌) * Tracing(分散式追蹤) 5. 設計合理告警策略: * 避免大量無效或過度頻繁告警。 * 讓告警更貼近實際風險與業務影響。 6. 參與 L2 on-call 支援: * 協助分析系統性問題與 Root Cause。 * 評估是否需要: a. 回滾版本。 b. 降級服務。 c. 進行跨系統處置。 7. 主導或協助完成 Incident Report 與 Postmortem: * 系統性整理事故過程與影響。 * 將每一次事故轉化為具體改善行動與制度。 * 追蹤改善措施的落實情況。 (二) DevOps 1. 建立與維護 CI/CD Pipeline: * 例如 Jenkins、GitLab CI、GitHub Actions。 * 確保流程穩定、可重複且易維護。 2. 將以下流程自動化,降低人工操作風險: * Build。 * Test。 * Security Scan。 * Deploy。 3. 支援多環境的一致性與部署效率: * Dev 環境。 * Staging 環境。 * Production 環境。 4. 導入 Infrastructure as Code: * 例如 Terraform。 * 提升環境管理與佈署的可重現性與可追蹤性。 5. 建立與完善發布與回復機制 6. 與 QA、RD 協作: * 透過流程與工具設計降低發版風險。 * 在速度與穩定之間取得平衡。 (三) 與研發與維運團隊協作 1. 與 RD 協作,將穩定度與可觀測性納入開發流程,例如: * 設計 Health Check 機制,讓系統狀態可被自動偵測與監控。 * 規劃服務降級與備援設計,確保在部分功能異常時,核心流程仍可運作。 * 持續消除單點故障(SPOF),提升整體架構的高可用性。 2. 提供標準化平台能力,讓各產品團隊能共用: * CI/CD Pipeline 範本。 * 監控標準模組。 * 告警標準規則。 3. 與研發與維運團隊共同建立基礎 SRE 實踐: * Incident handling 流程: a. 通報。 b. 應變。 c. 復原。 * Runbook 撰寫與持續改善: a. 讓常見情境有標準作業手冊可依循。 * 基本 SLO / Error Budget 導入與追蹤。 4. 透過文件、分享與實務協作: * 提升團隊對 SRE 思維與方法的理解。 * 建立跨團隊對穩定度的共同語言與共識。 四、我們期待你具備的條件 (一) 必備條件 1. 3–5 年以上 DevOps 或 SRE 相關實務經驗。 2. 熟悉作業系統與網路基礎: * TCP/IP。 * DNS。 * HTTP。 * Load Balancer 等相關概念。 3. 熟悉至少一種雲端平台: * 例如 GCP 或 Azure。 4. 熟悉容器與編排技術 5. 具備 CI/CD Pipeline 建置或維護經驗。 6. 熟悉或曾接觸 Observability 工具,例如: * Prometheus / Grafana。 * ELK(Elasticsearch / Logstash / Kibana)。 * Datadog。 * OpenTelemetry 等。 7. 能配合 L2 on-call 支援: * 接受輪值制度。 * 願意以工程方式持續降低 on-call 負擔與頻率。 8.具領導資淺同仁、指派工作經驗,協同完成工作內容。 (二) 加分條件 1. 有即時高流量系統經驗(即時服務、電商、金流)。 2. 具效能調校、容量規劃或壓力測試實務經驗。 3. 具雲端或平台資安實務經驗,例如: * 權限設計。 * 資安防護。 * 合規與稽核相關經驗。 這不是一個「只是在前線救火」的職位, 而是一個能與團隊一起把 SRE 能力與制度從 0 建起來的角色。 如果你喜歡把混亂變成秩序、 把事故變成制度、 把人力應變變成工程化改善, 我們會很期待和你聊聊。
50K ~ 80K TWD / month
5 years of experience required
No management responsibility
Logo of 可可設計有限公司.
【工作內容】1.負責營運系統之正常運作,包含營運之伺服器及網路之故障排除及維護工作 2.系統故障解決,紀錄突發事件,查看系統監控、追蹤並回報處理狀況 3.充分瞭解營運系統之功能 並回應解決客戶提出的問題 4. 與團隊共同安排oncall 5. 協助營運系統測試【加分條件】-Postman 使用經驗: 熟練使用 Postman 進行 API 測試和調試,能夠設計和執行複雜的測試用例。-TCP/IP 和網路基本原理: 深入理解 TCP/IP 協議和網路基本原理,能夠分析和解決網路相關問題。-ELK 使用經驗: 具有 ELK(Elasticsearch, Logstash, Kibana)平台的使用經驗,能夠配置和管理 ELK 堆棧,進行日誌分析和數據可視化。-軟體手動測試經驗: 具備軟體手動測試的經驗,能夠編寫測試計劃和測試用例,並執行手動測試以確保軟體質量。【加分特質】- 具備基礎資訊知識與能力- 與RD、QA、、PM等跨部門的溝通能力- 對問題的分析力與應變突發狀況之反應力- 有良好的溝語言溝通能力和分析能力- 有責任心及團隊精神,思維嚴謹、邏輯性強 - 具備較強的責任心和執行力
TCP/IP
45K ~ 65K TWD / month
No requirement for relevant working experience
No management responsibility
Logo of Công ty TNHH Công nghệ thông tin Cá Voi Đen.
工作描述: 计算机或相关专业大专及以上学历;精通 Linux 操作系统的管理、配置及系统调优,熟悉脚本语言,如Shell等;熟悉TCP/IP协议,熟悉VLAN、DHCP、静态路由、动态路由等基本网络协议,熟悉网络基本分析工具;对网站自动化运维有浓厚兴趣,有大型网站自动化运维和抗恶意攻击经验者优先;具备网络故障定位与排查能力,如DNS、负载均衡、防火墙、路由等,理解CDN、VPC等概念和应用;自动化工具: 熟练使用Ansible, SaltStack, Chef, Puppet 等自动化运维工具进行配置管理和部署;CI/CD: 熟悉Jenkins, GitLab CI/CD, Travis CI 等持续集成/持续部署工具,能够设计和优化CI/CD流水线;监控系统: 熟练使用Prometheus, Grafana, Zabbix, ELK (Elasticsearch, Logstash, Kibana) 等主流监控和日志分析系统,能够搭建、配置和优化监控体系。 其他福利待遇: 十三薪,项目奖金;半年休假 7.5 天;房补6w日币,餐补交通补共2w日币;上班时间 :9:00 至 18:00 (月休6天)。
20K ~ 35K CNY / month
2 years of experience required
No management responsibility

Cake Job Search

Join Cake now! Search tens of thousands of job listings to find your perfect job.