透析貪污判決--揭露與查詢網站

最新內容請至 hackmd

https://g0v.hackmd.io/T-S5xZOVSIWdv45noYmsUA

(暫名,尚缺副標)

The Disclosure of Corruption Judgement,  the Web

可能網址:blackmoney.g0v.tw 歡迎各種建議

POREN:uncover.g0v.tw 之類的,感覺很有特務風XD

緣起

目標

一般民眾在意的點:

  1. 金額大的案子
  2. 牽涉政治人物的案子
  3. 跟企業財團有關的案子

與金權政治相關的法律刑責:1.貪污 2.賄選 3.公務員財產不明 4.公務員登錄不實 5.公務員洩密

預設欄位

由於一個案件通常會有複數被告,因此抽取案件資料傾向於以人作為抽取重點,這裡我的想法是一個判決書以兩段資料呈現:第一段是判決書的欄位,一份判決書一筆;第二段是被告的欄位,每個被告都有自己的欄位,故筆數取決於被告人數

以下是我想到覺得重要的欄位,歡迎各種建議

預定使用的資料庫:MySQL => 因為預定會使用到不只一個欄位的搜尋,資料庫的table可以直接用下面兩個資料表來製作,並把地址欄位加進去。

第一段:判決書部份

欄位 進度
資料ID*
裁判案號 100%
裁判日期 100%
法院別 100%
被告人數 95%
案件標的 0%
法官 0%

*資料ID暫時用檔名

第一段的部份除了「案件標的」、「法官」外,其他欄位已擷取:

google試算表

第二段:被告部份

欄位名 抽取段落 進度
被告姓名 被告 95%
行政區 事實 0%
工作/職位/關係 事實 20%
罪名 主文 附錄 70%
有期徒刑 主文 80%
易科罰金 主文 80%
緩刑 主文 80%
涉貪金額 主文 事實 附錄 50%
政黨屬性 外部資料查詢 0%

工人智慧/範例:

林益世貪污案一審

專案各階段

第零階段 爬貪污判決書(已完成)

2014-8 

利用iMacros從法律法源網爬所有案由為貪污的判決書(csv檔),地方、高等、最高三審級皆以爬完。法律法源網的更新頻率沒有司法院資料庫高,但是他的搜索系統比較完整好用。

判決書Data package . csv:

地方法院&高等法院(2000-2014) 7z

最高法院(1996-2014) 7z

待解問題:

民國100年以前絕大部分判決書,被告姓名與公司都被遮蓋起來,無法得知。據說司法院內部帳號可以看沒被遮蓋起來的版本。

11-28有寄信過去,不過還沒有回應:1208回應了,除了國家級研究案(如中研院申請),其他不予開放

第一階段 資料梳理、填充欄位(進行中)

由於發現到的遮蓋問題,決定先縮小處理範圍當作嘗試。民100-102年的判決書除了少數重審的案件外,其他都沒有匿名;而地院的內容相對單純,於是把他拉出來單獨打包:

100-102年地方法院判決包7z

判決書為了可讀性、整齊等等因素,會斷行。在資料處理上變得麻煩。

嘗試作了脫斷行符號的處理,另外判決書內含表格,決定先不動他:

100-102年地方法院判決包(脫符)7z

判決書欄位(第一段)的部份,欄位為(檔名/字號/時間/法院/檢察官起訴案由/被告名單),還有一些地方需要修。11-11 怒修,應該沒什麼大問題了(有四個案件沒抓到被告,但那四件都是很神奇的案子,判決結果都不受理,暫時放著):

欄位由左至右(檔名/字號/日期/法院/檢察官起訴案由/被告數/被告名單)

google試算表

判決書欄位(第二段)的部份,11-28 抓了絕大部分被告的主罪,手動將判決書格式正規化,有些被告公司與代理人的部份沒處理好,有些代理人非被告,故主文不會將之列入(但有些會,判決書在這塊寫得很凌亂,還要想一下如何抽取)

12-08抓了有罪被告的宣告刑,欄位(檔名/被告/罪名/徒刑/是否易科罰金/罰金/緩刑)->(連結

查詢g0v資料中心,發現有歷屆公職選舉資料(包含政黨屬性):

http://data.g0v.tw/dataset/92/resource/f52cb013-1a1c-467b-8a8c-0bef20d55936

也許這是查詢政黨屬性的起步

Big Issue

遇上一個大麻煩,有一部份主文在寫被告罪刑時,用附表呈現的方式(也就是在書尾的地方寫一個表格列出),舉例:

有沒有大大有好想法處理這段?

表格結構化?

由於在下不是資工相關科系出身,誠徵對判決書有興趣的高手助陣

各路大神提供的Approach: 

1.regular expression & pattern(目前作法)

2.machine learning

第二階段 網站上線

部份資料處理好之後,就可以開始想查詢網站的問題。

相對一般會google的問題,使用者知道問題但不知道答案;貪污查詢很可能面臨使用者「不知道問題也不知道答案」。

可以跟過去的新聞報導作連結

也可以跟其他專案整合

第三階段 擴充資料範圍

第一階段東西有刻出來的話,那地院就不是問題。接下來就是高等法院、最高法院的判決書處理,這時候就能夠加上案件從地方法院打到最高法院的歷審呈現。也可以爬其他相關的法律判決。

TO-DO list

  • 資料擷取部份
  • ------

  • 網站製作部份
  • 資料開放部份
  • 目前成果

    判決書Data package . csv:

    地方法院&高等法院(2000-2014) 7z

    最高法院(1996-2014) 7z

    100-102年地方法院判決包7z (1109:把一些當初抓跑掉的判決書補齊)

    100-102年地方法院判決包(脫符)7z (ver1129:手動修正跑掉的格式,1216發現做得不太好,很多地方沒脫到...)

    判決書欄位(第一段),欄位(檔名/字號/時間/法院/檢察官起訴案由/被告數/被告名單):google試算表

    判決書欄位(第二段部份),欄位(檔名/被告/罪名/是否易科罰金/罰金/緩刑):google試算表

    (2015-01-31 簡化罪名 and 罰金數字化)

    註1:covered指主文中被告匿名,無法確認哪位是哪位

    註2:need check目前剩下未列入主文的代理人或公司,還有名字英文三種

    原始碼 by 淵智(python2)(過期)

    讀取判決書內的表格(python3) by 煒清

    https://github.com/superChing/extract_declared_sentence

    從判決書拿出字號、日期、案由、被告 by csferng(過期)

    https://github.com/csferng/AnalyzeVerdict

    中文字大寫轉換(Python 3)

    https://github.com/rschiang/py-conv-digit

    初版網站@heroku

    http://g0v-uncover.herokuapp.com/

    需求&其他相關

  • 如果要顯示判決書稀少字
  • 司法院對於非big5編碼的字會用造字的方式處理,並提供下載:

    http://www.judicial.gov.tw/download/download01.asp#D01

    我自己使用的經驗,確實有些字因此顯示,但還是不全

  • 相關連結
  • FB貼文:中國國民黨政權涉及回扣貪汙一覽表(一)~(四)

    蘋論:彰化這一戰很關鍵

    FB貼文:國民黨未來對台灣危害最大的將是朱立倫,他是馬英九加強版。

    八卦版文章:中國黨貪污一覽表

    研究文獻:中研院政治所吳重禮:Chung-li Wu. Charge Me if You Can: Assessing Political Biases in Votebuying Verdicts in Democratic Taiwan (2000–2010). The China Quarterly, Available on CJO 2012 doi:10.1017/S0305741012000847  中文版:http://newsletter.sinica.edu.tw/file/file/77/7792.pdf 

    司法院量刑系統--量刑資訊系統將判決書加以「量化」,使用者只要在查詢介面 輸入查詢條件,量刑資訊系統就會將符 合查詢條件的所有類似案件檢索出來, 提供該類似案件的平均刑度、最高刑度、最低刑度及量刑分布全貌圖

    http://www.judicial.gov.tw/revolution/judReform06.asp

    http://www.judicial.gov.tw/jw9706/pdf/1700-1.pdf

    透過判決書萃取出貪污金額需要專業法律人閱讀判決之文意,也就是說,這需要大量的工人智慧,而司法院已經建立一個量刑系統,或許可以嘗試用他們的資料庫取得被告對應貪污金額及刑度的資訊

    網站可以參考的數據呈現方式

    http://designspiration.net/image/25875462678551/

  • 相關專案
  • 中文處理工具簡介

    議員判刑資料

    政商透明化

  • 參與活動
  • 1/25(日) 10:00 - 18:00 第零次法律松

    當天活動摘要:

        技術端:

    我們歡迎下列各種夥伴:

    1. 對判決書閱讀熟悉敏銳
    2. 自然語言處理高手
    3. 對網站提供內容有想法
    4. 對貪腐、貪污、官商勾結等相關議題有興趣

    ↓↓↓

    https://www.facebook.com/groups/876229695725086/

    歡迎加入討論

    Parse資料上線

    https://www.parse.com/apps/uncovertw/

    建了兩個表,分別是judgment和party。

    需要使用api或更新的人請找張淵智XD