2016 暑期高效能運算課程-臺大計資中心

Big Data 學習工作坊

基本資訊

【日期】 2016/7/12、7/13

【時間】 ■09:10~12:00 ■13:20~16:10

【地點】計中 106 教室

【費用】臺灣大學及國立臺灣大學系統 1000 元，其他 2000 元

【主辦單位】國立臺灣大學計算機及資訊網路中心（臺大計中）

【協辦單位】資訊工業策進會數據科技與應用研究所（資策會大數據所）

師資

資策會大數據所 / 黃彥文博士

黃博士於 2011 年加入資策會，現任於數據科技與應用研究所（大數據所）擔任巨資技術服務組組長，負責推廣巨量資料管理平臺 Bistro，以及對客戶提供專業規劃與技術支援服務。資策會任職期間參與經濟部技術處「雲端運算系統及軟體技術研發計畫」，以及「資策會創新前瞻技術研究計畫－巨量資料分析系統管理技術」，並擔任經濟部技術處「巨量資料分析平台技術先期研究計畫」的計劃主持人。黃博士的專長與研究領域包括雲端運算的基礎架構與系統管理、巨量資料運算平台與系統管理、通訊系統等。黃博士於元智大學獲得通訊工程博士學位。

課程簡介

在資訊爆炸的年代，如何面對及處理 Big Data 成為技術人員必備的課題。隨著電腦系統計算能力提升，以及網路頻寬的增加，分析 Big Data 不再困難，許多成熟的技術唾手可得。舉例來說，導入 MapReduce 思維，配合分散式的計算環境，可以分析及處理過去難以想像的資料量，同時這些資料的儲存方式，必須跳脫過往 Relational DB 的觀念，改用 NOSQL 資料庫，以提升資料整體吞吐量。

為了協助校內研究團隊在 Big Data 時代站穩腳步，加速各式研究的實驗分析，計算機中心特別與資訊工業策進會數據科技與應用研究所（大數據所）合作，導入大數據所開發的巨量資料管理平台（Bistro），提供校內研究團隊進行各式研究工作。並於 2016 暑假期間，舉辦「Big Data 學習工作坊」，議題從基本的Hadoop, Spark 語言開始，到 HBase 資料庫，希望能夠帶領研究團隊，盡快熟悉 Big Data 時代需要的技能，進而可以善用計算機中心提供 Bistro 計算平台，開始自身的實驗研究工作。

課程內容：

巨量資料管理平臺 Bistro 操作環境及使用方式
批次運算架構（Batch） - MapReduce, Spark
串流運算架構（Streaming） - Spark Streaming
分散式文檔存儲架構 – HDFS, Swift
大數據資料庫架構 – NOSQL, HBase
數據分析生命週期
藉由案例介紹，瞭解建構大數據應用專案的步驟

課程內容

第一天	第二天
大數據背景 - 巨量資料管理平臺 Bistro SE 介紹 - 實作：巨量資料管理平臺 Bistro 介紹部署大數據工具 - 巨量資料管理平臺 Hadoop Core 介紹 - 開發工具及環境簡介 - 實作：python 基礎線習與 ipython 應用練習大數據運算 - 大數據批次運算架構 - 大數據串流運算架構 - 實作：使用 python 開發 spark 應用程式大數據存儲 - 大數據分散式檔案系統 HDFS - 大數據數據資料庫 NoSQL - 實作：操作 HDFS 和 HBase	數據分析 - 數據分析的生命週期應用個案 1 - 個案一介紹 – 日誌檔分析 - 實作：環境與資料準備數據分析 1 - 數據格式－Apache 網頁伺服主機日誌格式 - 數據存儲－HDFS、HBase - 數據清理－正則表示式 - 實作：資料收集、存儲和清理實務數據分析 2 - 數據特徵值－找出與問題相關資料 - 數據分析－日誌內容：回應碼、存取次數、內容長度 - 數據呈現－matplotlib - 實作：資料轉換、分析和呈現實務應用個案 2 - 個案二介紹 - 客戶價值分析 - 數據分析案例設計探討－客戶價值、日誌檔、推薦

第一天

第二天

大數據背景

- 巨量資料管理平臺 Bistro SE 介紹

- 實作：巨量資料管理平臺 Bistro 介紹部署

大數據工具

- 巨量資料管理平臺 Hadoop Core 介紹

- 開發工具及環境簡介

- 實作：python 基礎線習與 ipython 應用練習

大數據運算

- 大數據批次運算架構

- 大數據串流運算架構

- 實作：使用 python 開發 spark 應用程式

大數據存儲

- 大數據分散式檔案系統 HDFS

- 大數據數據資料庫 NoSQL

- 實作：操作 HDFS 和 HBase

數據分析

- 數據分析的生命週期

應用個案 1

- 個案一介紹 – 日誌檔分析

- 實作：環境與資料準備

數據分析 1

- 數據格式－Apache 網頁伺服主機日誌格式

- 數據存儲－HDFS、HBase

- 數據清理－正則表示式

- 實作：資料收集、存儲和清理實務

數據分析 2

- 數據特徵值－找出與問題相關資料

- 數據分析－日誌內容：回應碼、存取次數、內容長度

- 數據呈現－matplotlib

- 實作：資料轉換、分析和呈現實務

應用個案 2

- 個案二介紹 - 客戶價值分析

- 數據分析案例設計探討－客戶價值、日誌檔、推薦

對象

具備Linux基本指令操作能力
具備基本程式寫作能力（Python或Java 或任一種 Script 語言）

備註

本課程使用階梯式教室，備有電源插座，建議學員自行攜帶筆記型電腦，以隨時配合講師操作實習。請預先安裝SSH client軟體（如putty）。
本課程提供午餐，限當日準時報到學員。
如因報名人數過多，本中心得更換教室。請學員務必於上課前三日，上網確認上課地點。
巨量資料管理平臺 Bistro 由資訊工業策進會數據科技與應用研究所（簡稱大數據所），基於開源社群在雲端計算及數據管理和分析軟體組件等技術，以整合與強化核心服務機制，並透過創新管理機制，為數據科學家和資料分析師創建所需的運算環境、為系統架構師確保現有基礎設施和系統，以及為系統管理者擁有完全的可視性和控制，並提供安全的數據隔離的多租戶環境。

立即前往報名