開放資料的工作可能會遇到哪些問題?

g0v.tw   的核心理念之一是開放並呈現更多的政府資料,但是,除了公務員與內行人以外,鮮少人知道政府的資料是如何產生,很容易會忽略了資料本身可能是有誤甚至有 毒;此外,開放資料並不一定代表能提供正確的資訊,還需要嚴謹的解釋,否則可能會有強化社會既有污名的風險,而產生負面效果。

我將按「資料本身可能會有哪些問題」、「處理或呈現資料時可能又會有哪些(新)問題」和「建設性的建議」的順序來討論。

資料本身可能會有哪些問題

資料來自蒐集與編輯資料的人,必然帶著某一種觀點。g0v.tw 蒐集與呈現的資料多半來自政府,來自公務員的業務。不同政府部門帶著不同觀點,按照業務的要求,公務員替職業、經濟指標、預算項目、犯罪類型等事物分類。除非使用者比公務員更了解這個領域,否則公務員的分類方式通常不會被質疑。

犯罪率與交通違規的數據,顯示施政方向會左右資料。預算細項的例子,說明預算書等政府公開資料,不容易直接看出名堂。

把資料抓出來,放在網路上給公眾檢閱,是不是就足夠透明了呢?Aaron Swartz 寫道 :「人們可以來回檢閱[政府]資料,同時誰[此特指政府與管制者]都不信任」,「問題來了:如果管制者不可信,那你怎麼會認為資料可信呢?」資料本身不是透明的,所以光是把資料攤在陽光下還不夠。

處理或呈現資料時可能又會有哪些(新)問題

g0v.tw 呈現資料後,也有可能產生新的問題。資料涉及的事物,社會上可能已經有許多意見,這些意見不一定正確或錯誤,但 g0v.tw 呈現的資料,可能會加強既有的意見。我們不希望強化錯誤的意見。為什麼會有這個問題?一方面,資料本身帶有行政部門的觀點,因此不透明;更重要的是,我們通常需要其他資料、了解相關背景,才有辦法作適當的推論,並避免錯誤解讀帶著我們離事實越來越遠。

綜合來看,不論「資料本身的問題」或「處理或呈現資料的(新)問題」,都可以用「觀點間的爭議」來統整思考。g0v.tw 挖掘與開放的資料,許多是政府資料,帶著行政部門的觀點,不是所有人都苟同。另一方面,要對資料觸及的議題有所了解,才能適當地處理資料。何況,資料觸及的議題,往往有不少觀點(包括行政部門在內)彼此競爭是非對錯,以及「接下來該怎麼做」。

資訊人不可能一肩擔起這全部的工作。「太難閱讀不是生成資料庫所帶來的問題,」Swartz寫道,「問題在於對資料的考察不夠」。如果公私部門人員製作資料時撒了謊,那公開資料等於助長謊言。資訊人通常是對開放資料最敏感的一群人,卻不可能掌握資料觸及的各種議題。不過,資訊人可以打造平台,讓懂議題的人加入資訊人可以建立誘因,讓不同觀點競爭,確保資料被恰當運用。

接下來我想綜合「資料本身的問題」和「處理或呈現資料的(新)問題」,建議一些應對方式。

建設性的建議

不同觀點爭議著資料及其涉及的議題,由此出發,我們可以粗分 3 種開放資料的狀況:

  1. 資料本身目前無爭議或爭議不大,如失蹤兒童協尋、自學網等。
  2. 資料本身有潛在爭議,如犯罪率。
  3. 資料本身已是各方爭議的焦點,如立法院相關專案中的預算、立委投票行為等。

對於 (1),採 g0v.tw 通用的隱私政策、免責聲明等即可。

對於 (2),g0v.tw 使用的資料附上說明,並以明顯的方式提醒使用者應先閱讀說明。說明的內容可能包括,以犯罪率為例:根據既有的研究,要知道哪些相關條件才能較妥當地解讀與運用資料;說明為什麼犯罪率高不等於道德敗壞(避免加重刻板印象甚至污名)等。核心目標有二:避免重製既有的錯誤解讀避免加深既有的刻板印象與污名

對於 (3),需就專案個別討論,在此僅討論核心概念:建立平台和誘因。g0v.tw 的工作是建立呈現資料的平台,讓觀點不同的利害各方皆可參與,提高揭露謊言與誤用資料的機率。這裡的思路跟開放原始碼和維護言論自由是一致的[註]。另方面,g0v.tw 製作的平台若能簡化監督政府所需的繁瑣工作,懂議題的人就有參與的誘因。此外,g0v.tw 也可以在平台上提供利害各方爭取信用與成績(credit)的工具,更強化誘因之外,也讓不一定懂議題的廣大公眾能監督他們(懂議題的人)的工作,群策群力監督政府。

g0v.tw 的專案發展完整後,公民可望省下大把挖掘資料的時間精力,專注於議題本身,這是莫大貢獻,然而,披荊斬棘的開山刀也能殺傷人。先行防範我們能預見的風險,將讓同仁的努力盡善盡美。

[註]

本文沒有進一步討論觀點間的權力關係。沒有考慮權力關係就一味開放原始碼、開放資料、無條件支持言論自由,的確有可能適得其反,讓優勢方更容易維持現狀。不過,網路相關的技術目前還稍微起了門檻的作用,本文篇幅也有限,姑且留待未來再討論。