d|Bootcamp Taipei 共筆 - 迎戰壞資料 - 實用工具與技巧

時間:2015/08/21 14:00 ~ 15:00

講師:吳泰輝 / foundi 房地資訊站共同創辦人

投影片網址

https://speakerdeck.com/tkirby/ying-zhan-huai-zi-liao-at-dbootcamp-taipei

請先進入真經:http://data.d3b.info/

先下載兩個檔案 ( excel, csv )

OpenRefine: 原本是google開發,後來釋出改名OpenRefine。吳老師是自己架設了一個server安裝OpenRefine。

(問:OpenRefine 是可以免費下載使用的嗎?有線上版嗎?)

http://openrefine.org/download.html

今天要玩的是:

Create Project後,去選擇下載的檔案匯入。

清理資料,r清理資料,然後匯出成 csv

資料視覺化:http://raw.infographics.tw/

拿到資料先用 facet 看一看資料有沒有爛掉的地方,是很好的習慣

請問講師的slides那裡找?  

建議講師可以講慢一點,對於沒有程式設計背景的有些吃力......(雖然時間有限)

如果時間有限還是要分清楚到底是要介紹還是要做教學應用,要不然實在跟不上。

三種清理資料的方式

1 逐一去改

2 text filter + transform

3 cluster