3/12 萌典/教育部會談紀錄

時間:103年3月12日(星期三)下午2時-4時50分

地點:國家教育研究院台北院區3樓會議室

參與人員:「萌典」創辦人唐鳳老師、臺灣大學外國語文學系高照明副教授、本院編譯發展中心林慶隆主任、丁彥平研究助理、劉寶琦研究助理、李韻如行政助理、本國語文教育研究發展辦公室羅敦英專案助理、魏邦儀專案助理、許淑芬專案助理、陳毓欣專案助理 

記錄:李韻如、劉寶琦

 

一、語料庫授權相關討論:

 

高照明(以下簡稱「高」):針對國家教育研究院要建立的語料庫的內容,基本上是希望開發給民間使用,同時促進產業,卻擔心遭營利使用的兩難?

 

唐鳳(以下簡稱「唐」):兩個建議,第一是以CC非營利授權的方式, 第二是CC share-alike,類似 GPL 之概念,被授權者可做營利使用,但若對內容做了任何修改要釋放回來,日後也可由其他公司接手繼續做。如此,對公部門來說不會喪失掉原本的內容,而在其他情況之下,也有讓別人接手做下去的可能。

在字典方面,建議像臺灣閩南語字典提供給「萌典」的模式,內容禁止修改,不限商業利用;內容提供者可以確保給出去的資料將保留一致性,不會與其他字典混用。而在課程、教科書、併排語料庫的部分,建議允許修改及商業使用,但修改一定要歸還。

 

二、語料之取得相關討論:

 

高:許多當初購買的版權僅限校園使用,現在收錄於語料庫時會擔心侵權的問題,本計畫陳浩然老師以open subtitle的方式來收集口語的資料。另外,考慮利用大愛、民視電視台、好消息的影集等,如該單位願意釋放出來,透過授權來獲得口語的資料,增入語料庫內,對中文及英文的學習都很有幫助。此外VOA(美國之音)的新聞及節目,可透過自動中英演算,來獲取書面語的資料。

 

唐:歐盟、聯合國之文件(有七國語言)、每日中英文之文告(如新加坡)可用。歐洲、美國的政府,許多資源是開放的,若有敏感性與安全問題的資料則是暫緩幾年才開放。但在臺灣會有圖利廠商的疑慮,所以國情與預設不同,這或許是政府可以轉換思考的方向。

目前微軟正推行機器翻譯(auto-translation),應該有大量的例句可以收集成為貴計畫之語料,建議你們與bing搜尋引擎相關人員洽談,說明收集這些例句是公部門做為教育用途,請他們將例句搜尋的結果再授權(re-license)出來,像是創用CC的方式,貴計畫使用時只要具名是由微軟提供的語料即可。若有語料為簡體字的問題,當初的做法是結合兩岸辭典給的同詞異名跟本人寫的模組,兩者相加可以一定程度將簡轉繁,再加上辭典啄木鳥利用網友的校對力量,將簡體例句轉成繁體使用。

 

三、國家教育研究院學術名詞資訊網資料整合於「萌典」的可能性及其他建議:

 

林慶隆主任:目前「萌典」針對的是一般性的詞,學術名詞是否有與萌典整合的可能?另外,前陣子國教院推行在學術名詞網站上的「大家來翻譯」活動,針對英文專有名詞希望民間提供不同語境下的中文譯名,但參與並不踴躍,是否有建議?

 

唐:學術名詞能整合進「萌典」是很好的想法,由國教院來提供內容,整合之可能性很大,也是原本本團隊有過的想法。3月22及29日,「萌典」團隊開會時,歡迎國教院來參加,討論學術名詞可以整合進「萌典」的可能性。

針對「大家來翻譯」此類活動,有以下建議:

  1. 命名(naming)的重要性:活動名稱(關鍵字)要獨特且具辨認性,在搜尋引擎的排名才會前面,現在訊息多數靠口耳相傳,因此命名很重要。
  2. 在網頁程式設計上,盡量以call to action 為主,也就是使用者介面上有單純的按鈕(包括美術設計、視覺顏色等),引導使用者以最單純直接的按鈕就能參與,而非傳統網頁如迷宮難以快速連結目的訊息。
  3. 利用網路生態:由錯誤引出對的解答(以錯引對)往往比尋求無中生有的解答更有效。
  4. 將「修改建議詞彙」、「新增詞彙」的功能更有力的整合在既有介面。
  5. 由開發廠商提供網路服務應用接口(web service api)的項目。

 

四、民間無限創意和力量:政府開放源碼提供內容,由民間開發應用

 

「萌典」起緣係因創辦人唐鳳在美友人葉平先生,為了讓孩子在國外可以用較便利之觸控裝置來學習中文,並考量家長、老師及學生是字典主要使用者,故以教育部重編國語辭典16萬字的豐富內容為基礎,發展出與時並進的 App,可運用於手機及平板電腦,方便查詢、學習。

「萌典」是由來自臺灣民間、中國大陸、及世界各地的開發者所造就,吸引世界各地的使用者,包含簡體字使用者、客語、臺語的學習者等,根據他們的需求而不斷增加功能,並可學習正體字,推展臺灣的軟實力。

民間的力量乃發自於有使用需求而開發,目前政府的做法通常是有資源就放於網路,不一定符合民間使用需求,「零時政府」的發想即是人民對資料的需求由下而上(bottom-up)的概念所發展,落實「還文於民」之精神。

民間的腳步往往更快且更具創意,政府的角色應是開放內容,做民間難以達成的基礎建設,再由民間來開發應用,正向發展,促成更多人使用,才能回歸政府機構的初衷,創造雙贏局面。

 

五、本國語文教育研究發展辦公室提出之討論:

 

(一)雖然「萌典」有明確之版權聲明及使用規範,是否仍然擔心內容會遭盜用?有何因應機制?

唐:其實早在萌典計劃開始之前,重編國語辭典的內容早已在網路上流傳,能做的就是規範若有內容的修改要歸還於出處。

非法下載或盜版猖獗,是因為它的方便性,身為原始資料提供者,應該要從這個角度來思考,要提供最方便的資訊取得管道,比盜版所提供的更便利、更正確(重編國語辭典若有內容修改,「萌典」一個月之內即更新),讓使用者根本不必使用盜版。除此之外,用心於正版的更新、系統維持、雙向溝通(例如:下載正版,未來即自動更新)等機制,以便利性、正確度、更新效率等,來建立無可取代的地位。

 

(二)「萌典」的使用者意見與反饋機制為何?回應使用者的根據是來自於哪裡?

唐:使用者在 Twitter  及 App store 都可留言,匯集所有應用上的問題,由工作人員回應,目前已經解決了84個有效問題,並回應給提問者,剩餘35個問題待討論及解決。「萌典」App更新版本時會公布,哪些更新與新的功能是由於某位使用者所提出才解決的,把功勞(credit)回饋給使用者。 

回應內容乃引用自教育部國語辭典、維基百科、Unicode consortium 之資料,若有其他內容上的問題,則提供給語教辦公室。此外也正在開發設定選單(preference)簡/繁、各式拼音等呈現方式,照顧使用者的不同需求。

 

(三)字型轉換對應之相關討論:

「萌典」字型從 Big-5 轉換到 Unicode (UTF-8) 的結果,資料的正確性很高,(僅四個字沒對應到),若提供給語教辦公室,可節省校對的時間和功夫,建議以「萌典」的對應表為基礎,直接給廠商做取代。「萌典」所開發的程式或資料,皆已拋棄著作權,樂意提供給廠商,並交付安裝在政府的主機上,維護及運作不會中斷。

 

(四)「萌典」分詞上的做法:

唐:在分詞的概念上,斷長詞或短詞,程式可用詞頻為基礎,或依照上下文來決定,並用人工校對來補足機器的限制。 

 

(五)對 Wikipedia 等無設限(open-ended question)並由全民共寫的概念有什麼想法?

唐:這種形式打破了取得資源的侷限性,很適合社會上原本無關聯的存在者形成網狀網路,相互幫助並提供資源,作為跨部門或者跨組織很好的橫向溝通方式。

 

六、相關網頁:

 

演示或提到的萌典作品:

https://www.moedict.tw/國家教育研究院

https://www.moedict.tw/lab/tmuse/?字

https://www.moedict.tw/lab/ball/?白日依山盡黃河入海流欲窮千里目更上一層樓

https://www.moedict.tw/lab/lhc/?中文部件對撞測試

https://www.moedict.tw/dodo/moetris.html

https://www.moedict.tw/dodo/index.html

萌典相關團隊的部份:

http://wiki.csie.ncku.edu.tw/embedded/team2013-11#%E5%BD%B1%E7%89%87

http://naviprox.net/tmuse/zhen_V?q=走 

 

其他朋友們的作品:

https://www.duolingo.com

http://chineasy.org/basics.aspx?set=1502

 

唐:希望日後無論在應用國家教育研究院請廠商釋出的 Web Service REST API 接口、技術上(如字形、字碼)、網路動員上(如群眾外包),或是新的國語文教學應用部份,都能有許多合作的機會。