data.gov.tw 資料整理

這邊列出一些 data.gov.tw 資料整理的情況,列為給國發會的參考

整理規則

  1. 總資料數 13545 筆
  2. 先篩選有包含
    1. XML, JSON, RSS
    2. CSV, ODS, EXCEL, XLS, XLSX
    3. SHP, KML, KMZ
    4. ZIP / RAR / 7Z 解開來看
    5. 完全不包含以上檔案之資料組,濾掉 2858 個 (剩下 10687 個)
    6. https://worker1.sheethub.net/~srwang/data.gov.tw/no-support-format.csv
  3. 包含預算、決算、結算、會計等資料集
    1. 這些格式都超不統一又很不 table ,但說他們不 machine readable 也不是,因為它們都是 XML 為主,這些跳過不處理
    2. 包含預算、決算、會計等文字資料有 3274 個(剩下 7413 個)
    3. 感覺就是拿來湊數用的.....
    4. https://worker1.sheethub.net/~srwang/data.gov.tw/stats.csv
  4. 針對 CSV 先處理 ,一共有 5031 個
    1. CSV 檢查
      1. 欄位:
        1. 不能超過 128 欄 (超過的話有可能是解析錯誤)
        2. 不能有亂碼 (亂碼的檢查方式是把資料轉成 Big5 再轉成 UTF-8 要能不變)
        3. 不能有純數字 (不過會有例外,假如欄位是年份,而且寫成 2001, 2002, 2003, 2004 ....)
        4. 不能過長 (檢查方式,超過 64 bytes ,可能就是根本就不是 CSV)
        5. 不能重覆
        6. 不能有空白
      2. 值:
        1. 數量不能比欄位數多

TODO