吳宜庭

Yi-Ting
Email: [email protected]

學歷與個人進修

淡江大學統計系

文化大學推廣部 一系列投資理財課程 林成

NTC 大數據養成班成員、想見科技實習生

經歷

類神經網路 Data Scientist Engineer 2018.7~2019.7

NUWA 女媧科技 NLP 工程師 2019.11~2020.11

NTC.im 人才培訓中心 講師 2019~now Python 程式基礎, Python 網路爬蟲, MongoDB,

influxDB 累積授課時數: 104 小時/ 累積學生人數: 209 人

TSDC 淡江大學 Python 進階 業界講師 2020

TSDC 淡江大學 帶領學生做專案 2020-2021.7

大數據家教班 講師(Python、爬蟲等實務) 2020

痞客邦比賽 2019.7

緯創軟體 資料工程師 2021.12-2023.3

緯創資通 內部訓練講師 2022

城邦媒體控股集團 資料工程師 2023.4-2024.8

醫濟學甲志工

工作經歷

2023.4~2024.8 

資料工程師 

城邦媒體股份有限公司 TOC營運總部

1. Airflow 維運&開發優化:

確保數據管道的穩定性和可靠性,修復任何故障和錯誤

  1. 排程維護

  2. 資料補值、備份

  3. 優化排程節省成本

  4. 開發維護ETL(與各廠商客戶合作 klook/kkday/台灣旅圖/bridgewell/ forestbeauty/ ijysheng/ keraia/ meowservant/Rakuten/skm/ yessoymilk… 必要時與客戶開會


2. 專案:痞客邦手機版 生活甜甜圈(結合部落格文章與景點、實價登錄等在地資訊提供給使用者):

操作錄影:https://drive.google.com/file/d/14sEdPiiGsiDpSD7a89VwbYdN9O6pHH3b/view?usp=drive_link

  1. 店家優惠資訊資料新增(跨部門合作)

  2. 產生文章&google POI點資訊 (維護功能) 

  3. 加入生活甜甜圈自定義類別 (維護功能)

  4. 快速產生一個地點店家資訊與文章連結的評估、規劃、實作 

  5. 從資料中分離出地址(優惠券、文章)

  6. 地址轉經緯度(優惠券、文章)

  7. 產出外國語系

  8. 實價登錄數據算法優化

  9. 加入新地點(建案、交通、景點,etc.(維護功能)

  10. 其他:程式優化、提供相關的資料、跨部門溝通

使用工具:python pandas、selenium/airflow/gcp dataproc、composer

3. 爬蟲、資料處理&資料更新、回補:

  1. google POI 地點資訊 、 房產文章 、台灣實價登錄 、熊本實價登  錄、imdb電影(python selenium)

  2. 製作推薦文章資料的快取機制api(gcp app engine/redis)

  3. 優化爬蟲並規劃爬蟲機制:selenium grid,etc.

 4.其他

  1.  發現服務運行方式並規劃縮減資源&規劃可以優化的地方

(ex.rhino、app engine、k8s,etc.)

  1. 知識分享:與團隊分享如何操作gcp上的功能、datapipeline的機制

  2. 主機維運:多台主機的資源維護

  3. pa code設計:提供給前端工程師讓pm可以追蹤成效

2021.12~2023.3

資料工程師

緯創軟體 駐點緯創資通 

  1. 維護 Airflow Operator,與 infra team 合作確保部門間的數據交換可以順利進行。
  2. 開發 Airflow Operator 功能
    1. Airflow & Postgres 架設
    2. API 架設 (Python Flask)
  3. 平台轉換 
    1. PRD1 to PRD2
      1. MinIO 備份
      2. 跨部門溝通
      3. 時程規劃
      4. Airflow DAG 狀態控管
    2. Data Lake to Data Hub (數位轉型)
      1. 說明會規劃 & 執行
      2. 跨部門溝通 (至少 150 人)
      3. 時程 & 執行規劃
  4. Grafana 圖表製作
    1. 查看 Airflow 狀態
  5. 平台文件編輯 (第一版)
  6. 內部員工訓練 講師
    1. 教材製作
    2. 課程規劃

2019.11~2020.11

資料工程師

女媧創造NUWA

  1. 機器人回覆出現異常 debug
    1. FIXED EXAMPLE: 
      1. 和機器人講話無反應 or 長時間才回答 (爬蟲, Redis 快取)
      2. 機器人說出敏感字詞&雜訊 (爬蟲, 訓練資料調整, 資料處理)
      3. 度量衡計算錯誤
  2. 機器人功能開發
    1. 自訂語料 功能製作&維護
      1. 跨部門溝通
      2. 新增語料、刪除語料、修改語料、查詢語料、錄音功能 (Flask, MongoDB)
      3. 回答天氣功能 (爬蟲, Redis 快取)
      4. 說明文件
    2. 匯率(爬蟲)
      1. 幣別不同說法納入判斷
    3. 現在&未來天氣(爬蟲, Redis 快取, 重整程式)
    4. 新聞(爬蟲, Redis 快取, 重整程式)
      1. 過濾敏感資源 (建立詞庫)
  3. 爬蟲語料蒐集: (txt、json、pickle)
    • 語料來源:Youtube 影片字幕、reddit、pandora、learnex_easypace、yahoo answer、Britannica、gogakuru、openweathermap、mobile01、歌譜控、ehownet、維基百科、康健
  4. 協助優化分析模型(機器學習、深度學習、NLP)、開發相關 NLP 功能

2018.7~2019.7

資料工程師

類神經 Aiii

  1. Data pipeline: 使用 python 爬蟲中時報(關鍵字)、蘋果日報(關鍵字)、moneyDj(頁籤)資料並處理,並用 app engine 架爬蟲 API 讓資料流入 GCP BigQuery 和 storage
  2. 使用 GCP DataFlow 讓 GCP pub/sub 的數據(WiFi Log)即時進到 GCP BigQuery
  3. 用 Linebot 頁面蒐集到 User 特有 ID
  4. 負責公司研發產品 line chat bot: Money Monster 的主要功能製作及規劃資料庫架構(Angular, Typescript, Firabase)(跨部門溝通)
    1. 功能:記帳、加好友、遊戲開發、排行榜、帳簿編輯, etc.
  5. 外交部台北世貿旅展 (Angular, Typescript, Firabase) (跨部門溝通, 產品規劃)
    1. 功能:掃 QRcode 及取得 User 資料、抽獎, etc.
  6. 編輯 line 文件:把 line 不同功能以及解決問題的經驗寫成文件提供給全公司
  7. 受眾分析,解讀前端後端程式碼,賦予資料庫記錄的數據價值及意義
  8. 公司產品訂價、編輯公司 Medium 文章

TSDC專案

專案完成項目:

1. ETL: 爬取各大網站文章並清理入庫

2. 使用文字雲觀察新聞討論話題(資料視覺化)

3. 讓文章生成標籤(可用於行銷中的廣告推播)

使用技術:

Python :BeautifulSoup、Requests、Selenium: 爬蟲網站

MongoDB: 存入資料庫

Jieba: 建詞庫斷詞、計算 Term Frequency - Inverted Document Frequency(NLP)

Opencc: 繁簡體轉換

WordCloud / matplotlib.pyplot 生成文字雲 https://codepen.io/2375_takasugi/full/GRmJgqd

Flourish:呈現視覺化 https://public.flourish.studio/story/906725/

技能&能力

程式語言

基本(使用過): SPARK、HADOOP、Hive、Hue、Scala、ELK、Java

初階~中階: PHP、R、HTML/CSS/JS、Angular

熟悉: SAS、PYTHON、TYPESCRIPT

作業系統使用經驗

linux centos / ubuntu、windows、ios

平台使用經驗GCP: app engine / pubsub/ dataflow/ cloud functions/ firestore/ storage/ big query /data proc/ firebase/ Hosting/ cloud run/ dataproc/ composer

百度雲影像辨識

AWS: MinIO

資料庫

MongoDB、Redis、MySQL、Postgres

資料分析(Tableau、SAS、R、Python)

資料爬蟲、資料視覺化、資料清洗、迴歸分析、存活分析、類別資料分析、時間數列分析、

實驗設計、抽樣調查、無母數分析、影像辨識、NLP


感謝您願意撥出您寶貴的時間,閱讀我的履歷