140x140

基本資訊

 

【日期】 2017/8/1(二),8/2(三),8/3(四)

【時間】 ■09:10~12:00 ■13:20~16:10

【地點】 計中 212 教室(電腦教室)

【費用】 臺灣大學及國立臺灣大學系統 1500 元,其他 3000 元

【主辦單位】國立臺灣大學計算機及資訊網路中心(臺大計中)

【協辦單位】資策會大數據所


140x140

師資

 

資策會大數據所 陳禹任

現任職於財團法人資訊工業策進會數據科技與應用研究所(大數據所)巨資系統平台組,負責巨量資料管理平臺Bistro開發與維運,專長是雲端運算的基礎架構與系統管理。目前為國立中央大學資訊工程學系博士候選人。


140x140

課程簡介

 

資訊科技持續在進步,如何面對及處理Big Data大數據不再只是技術人員必備的技能。隨著電腦系統計算能力提升以及網路頻寬的增加,分析 Big Data 不再困難重重,許多成熟的技術唾手可得。舉例來說,藉由將問題化繁為簡個別擊破的MapReduce思維,配合分散式的計算環境,可以分析及處理過去難以想像的資料量,同時這些資料的儲存方式,必須跳脫過往 Relational DB 的觀念,改用NOSQL資料庫,以提升資料整體吞吐量。

為了協助校內研究團隊在 Big Data 時代站穩腳步,加速各式研究的實驗分析,計算機中心特別與資訊工業策進會數據科技與應用研究所(大數據所)合作,導入大數據所開發的巨量資料管理平台(Bistro),提供校內研究團隊進行各式研究工作。並於 2017 暑假期間,舉辦「Big Data 教學工作坊」,議題從基本的大數據工具及運算平台開始,透過深入淺出的方式討論數據存取、處理、分析以及應用的方式。希望能夠帶領研究團隊,盡快熟悉 Big Data 時代需要的技能,進而可以善用計算機中心提供 Bistro 計算平台,開始自身的實驗研究工作。


140x140

課程內容

 

  • 巨量資料管理平臺 Bistro 操作環境及使用方式
  • 批次運算架構(Batch) - MapReduce, Spark
  • 串流運算架構(Streaming) - Spark Streaming
  • 分散式文檔存儲架構 – HDFS, Swift
  • 第一天
    1. 巨量資料平臺服務 (Platform as a Service) 介紹
    2. 巨量資料管理平臺 (Big Data Management Platform) 介紹
    3. 上機練習(一): 簡單的CUDA 平行程式開發
    4. 實作:巨量資料管理平臺部署
    5. 巨量資料生態圈介紹- Hadoop、Spark
    6. 開發工具及開發環境介紹-Python、iPython
    7. 實作:基於 iPython 的 Python 基礎練習
    8. 大數據批次運算架構介紹-MapReduce、Spark
    9. 大數據串流運算架構介紹-Spark Streaming
    10. 實作:使用 Python 開發批次和串流應用程式
    第二天
    1. 大數據分散式檔案系統介紹-HDFS、Swift
    2. 大數據數據資料庫介紹-NoSQL、HBase
    3. 實作:操作 HDFS 和 HBase
    4. 數據格式-日誌格式
    5. 數據存儲-HDFS、HBase
    6. 數據清理-正則表示式
    7. 實作:資料格式、存儲和清理實務
    8. 數據特徵值-找出與問題相關資料
    9. 數據分析-日誌內容:回應碼、存取次數、內容長度
    10. 數據呈現-matplotlib
    11. 實作:資料轉換、分析和呈現實務
    12. 行業應用案例-客戶價值分析-分享(2)
    13. 數據分析案例設計探討-客戶價值、日誌檔、推薦
    14. 實作: 實價登錄網資料取得與分析實務
    第三天
    1. 資料蒐集與實務
    2. 網路爬蟲
    3. 爬取內文資訊
    4. 實作:以Python撰寫一爬蟲應用程式
    5. 網頁結構化解析內容:使用Beautiful Soup
    6. 實作:以Beautiful Soup重新分析網頁
    7. 自由選擇公開資料來源,撰寫爬蟲取得資料流
    8. 政府資料公開平台http://data.gov.tw
    9. 臺北市政府資料開放平台http://data.taipei
    10. 分析與擷取網站資料內容
    11. 根據取得的公開資料,嘗試自行分析、歸納與整合產生新的資訊

    140x140

    對象

     

    具備Linux基本指令操作能力
    具備基本程式寫作能力(Python或Java 或任一種 Script 語言)


    140x140

    備註

     

    1.本課程不供餐,不提供上課證明或證書。
    2.如因報名人數過多,本中心得更換教室。請學員務必於上課前三日,上網確認上課地點。
    3.巨量資料管理平臺Bistro由資訊工業策進會數據科技與應用研究所(簡稱大數據所),基於開源社群在雲端計算及數據管理和分析軟體組件等技術,以整合與強化核心服務機制,並透過創新管理機制,為數據科學家和資料分析師創建所需的運算環境、為系統架構師確保現有基礎設施和系統,以及為系統管理者擁有完全的可視性和控制,並提供安全的數據隔離的多租戶環境。