2016 暑期高效能運算課程

High performance computing and Big data.

140x140

基本資訊

 

【日期】 2016/7/12、7/13

【時間】 ■09:10~12:00 ■13:20~16:10

【地點】 計中 106 教室

【費用】 臺灣大學及國立臺灣大學系統 1000 元,其他 2000 元

【主辦單位】國立臺灣大學計算機及資訊網路中心(臺大計中)

【協辦單位】資訊工業策進會數據科技與應用研究所(資策會大數據所)


140x140

師資

 

資策會大數據所 / 黃彥文 博士

黃博士於 2011 年加入資策會,現任於數據科技與應用研究所(大數據所)擔任巨資技術服務組組長,負責推廣巨量資料管理平臺 Bistro,以及對客戶提供專業規劃與技術支援服務。資策會任職期間參與經濟部技術處「雲端運算系統及軟體技術研發計畫」,以及「資策會創新前瞻技術研究計畫-巨量資料分析系統管理技術」,並擔任經濟部技術處「巨量資料分析平台技術先期研究計畫」的計劃主持人。黃博士的專長與研究領域包括雲端運算的基礎架構與系統管理、巨量資料運算平台與系統管理、通訊系統等。黃博士於元智大學獲得通訊工程博士學位。


140x140

課程簡介

 

在資訊爆炸的年代,如何面對及處理 Big Data 成為技術人員必備的課題。隨著電腦系統計算能力提升,以及網路頻寬的增加,分析 Big Data 不再困難,許多成熟的技術唾手可得。舉例來說,導入 MapReduce 思維,配合分散式的計算環境,可以分析及處理過去難以想像的資料量,同時這些資料的儲存方式,必須跳脫過往 Relational DB 的觀念,改用 NOSQL 資料庫,以提升資料整體吞吐量。

為了協助校內研究團隊在 Big Data 時代站穩腳步,加速各式研究的實驗分析,計算機中心特別與資訊工業策進會數據科技與應用研究所(大數據所)合作,導入大數據所開發的巨量資料管理平台(Bistro),提供校內研究團隊進行各式研究工作。並於 2016 暑假期間,舉辦「Big Data 學習工作坊」,議題從基本的Hadoop, Spark 語言開始,到 HBase 資料庫,希望能夠帶領研究團隊,盡快熟悉 Big Data 時代需要的技能,進而可以善用計算機中心提供 Bistro 計算平台,開始自身的實驗研究工作。

課程內容:

  • 巨量資料管理平臺 Bistro 操作環境及使用方式
  • 批次運算架構(Batch) - MapReduce, Spark
  • 串流運算架構(Streaming) - Spark Streaming
  • 分散式文檔存儲架構 – HDFS, Swift
  • 大數據資料庫架構 – NOSQL, HBase
  • 數據分析生命週期
  • 藉由案例介紹,瞭解建構大數據應用專案的步驟

140x140

課程內容

 

第一天 第二天

大數據背景

 - 巨量資料管理 平臺 Bistro SE 介紹

 - 實作:巨量資料管理 平臺 Bistro 介紹部署

大數據工具

 - 巨量資料管理 平臺 Hadoop Core 介紹

 - 開發工具及環境簡介

 - 實作:python 基礎線習與 ipython 應用練習

大數據運算

 - 大數據批次運算架構

 - 大數據串流運算架構

 - 實作:使用 python 開發 spark 應用程式

大數據存儲

 - 大數據分散式檔案系統 HDFS

 - 大數據數據資料庫 NoSQL

 - 實作:操作 HDFS 和 HBase

數據分析

 - 數據分析的生命週期

應用個案 1

 - 個案一介紹 – 日誌檔分析

 - 實作:環境與資料準備

數據分析 1

 - 數據格式-Apache 網頁伺服主機日誌格式

 - 數據存儲-HDFS、HBase

 - 數據清理-正則表示式

 - 實作:資料收集、存儲和清理實務

數據分析 2

 - 數據特徵值-找出與問題相關資料

 - 數據分析-日誌內容:回應碼、存取次數、內容長度

 - 數據呈現-matplotlib

 - 實作:資料轉換、分析和呈現實務

應用個案 2

 - 個案二介紹 - 客戶價值分析

 - 數據分析案例設計探討-客戶價值、日誌檔、推薦


140x140

對象

 

具備Linux基本指令操作能力
具備基本程式寫作能力(Python或Java 或任一種 Script 語言)


140x140

備註

 

  1. 本課程使用階梯式教室,備有電源插座,建議學員自行攜帶筆記型電腦,以隨時配合講師操作實習。請預先安裝SSH client軟體(如putty)。
  2. 本課程提供午餐,限當日準時報到學員。
  3. 如因報名人數過多,本中心得更換教室。請學員務必於上課前三日,上網確認上課地點。
  4. 巨量資料管理平臺 Bistro 由資訊工業策進會數據科技與應用研究所(簡稱大數據所),基於開源社群在雲端計算及數據管理和分析軟體組件等技術,以整合與強化核心服務機制,並透過創新管理機制,為數據科學家和資料分析師創建所需的運算環境、為系統架構師確保現有基礎設施和系統,以及為系統管理者擁有完全的可視性和控制,並提供安全的數據隔離的多租戶環境。