High performance computing and Big data.
【日期】 2016/7/12、7/13
【時間】 ■09:10~12:00 ■13:20~16:10
【地點】 計中 106 教室
【費用】 臺灣大學及國立臺灣大學系統 1000 元,其他 2000 元
【主辦單位】國立臺灣大學計算機及資訊網路中心(臺大計中)
【協辦單位】資訊工業策進會數據科技與應用研究所(資策會大數據所)
資策會大數據所 / 黃彥文 博士
黃博士於 2011 年加入資策會,現任於數據科技與應用研究所(大數據所)擔任巨資技術服務組組長,負責推廣巨量資料管理平臺 Bistro,以及對客戶提供專業規劃與技術支援服務。資策會任職期間參與經濟部技術處「雲端運算系統及軟體技術研發計畫」,以及「資策會創新前瞻技術研究計畫-巨量資料分析系統管理技術」,並擔任經濟部技術處「巨量資料分析平台技術先期研究計畫」的計劃主持人。黃博士的專長與研究領域包括雲端運算的基礎架構與系統管理、巨量資料運算平台與系統管理、通訊系統等。黃博士於元智大學獲得通訊工程博士學位。
在資訊爆炸的年代,如何面對及處理 Big Data 成為技術人員必備的課題。隨著電腦系統計算能力提升,以及網路頻寬的增加,分析 Big Data 不再困難,許多成熟的技術唾手可得。舉例來說,導入 MapReduce 思維,配合分散式的計算環境,可以分析及處理過去難以想像的資料量,同時這些資料的儲存方式,必須跳脫過往 Relational DB 的觀念,改用 NOSQL 資料庫,以提升資料整體吞吐量。
為了協助校內研究團隊在 Big Data 時代站穩腳步,加速各式研究的實驗分析,計算機中心特別與資訊工業策進會數據科技與應用研究所(大數據所)合作,導入大數據所開發的巨量資料管理平台(Bistro),提供校內研究團隊進行各式研究工作。並於 2016 暑假期間,舉辦「Big Data 學習工作坊」,議題從基本的Hadoop, Spark 語言開始,到 HBase 資料庫,希望能夠帶領研究團隊,盡快熟悉 Big Data 時代需要的技能,進而可以善用計算機中心提供 Bistro 計算平台,開始自身的實驗研究工作。
課程內容:
第一天 | 第二天 |
---|---|
大數據背景 - 巨量資料管理 平臺 Bistro SE 介紹 - 實作:巨量資料管理 平臺 Bistro 介紹部署 大數據工具 - 巨量資料管理 平臺 Hadoop Core 介紹 - 開發工具及環境簡介 - 實作:python 基礎線習與 ipython 應用練習 大數據運算 - 大數據批次運算架構 - 大數據串流運算架構 - 實作:使用 python 開發 spark 應用程式 大數據存儲 - 大數據分散式檔案系統 HDFS - 大數據數據資料庫 NoSQL - 實作:操作 HDFS 和 HBase |
數據分析 - 數據分析的生命週期 應用個案 1 - 個案一介紹 – 日誌檔分析 - 實作:環境與資料準備 數據分析 1 - 數據格式-Apache 網頁伺服主機日誌格式 - 數據存儲-HDFS、HBase - 數據清理-正則表示式 - 實作:資料收集、存儲和清理實務 數據分析 2 - 數據特徵值-找出與問題相關資料 - 數據分析-日誌內容:回應碼、存取次數、內容長度 - 數據呈現-matplotlib - 實作:資料轉換、分析和呈現實務 應用個案 2 - 個案二介紹 - 客戶價值分析 - 數據分析案例設計探討-客戶價值、日誌檔、推薦 |
具備Linux基本指令操作能力
具備基本程式寫作能力(Python或Java 或任一種 Script 語言)