給力萌典:動詞分類庫建置計劃

網站位址:http://dodo.moedict.tw/

使用介紹:

簡報說明:線上簡報分享

hackath9n成果報告:https://www.youtube.com/watch?v=FsP-IUpPZio

感謝 Audrey Tang提供萌典動詞字典內容,並神速建置網站,以及 ET Blue也是神速測試與回饋。

歡迎大家共筆參與!!! :smiley: 

Hackpad 第1.、2. 兩大項的內容只是為了分享。如果有任何技術實作上的建議可直接跳到第3. 部分喔 :p

https://g0v.hackpad.com/s1olVpQVFRS#:h=3.-目標與進程

1. 為什麼發起給力萌典?

基於萌典「還文於民」的精神,我們希望萌典不僅是一本「字典」以供查詢。萌典作為公民可共同取用的公開資訊,我們希望萌典可以發揮更大的用處,讓公民共同參與、協作。

事實上,萌典在2013年已發起國語辭典啄木鳥活動,即是這樣的想法。透同一個平台,讓公民針對引文相同而用字卻不相同的條目,共同進行勘誤與校正。啄木鳥活動指出了萌典的內涵:「語言文字」這項資產,並非只是單向讓公民查詢使用;由於公民可以共同參與、協作,因此全民共享的知識可以不斷地有新的內容,而不必透過學者專家的壟斷

1.1 為什麼不要求學者專家做完開放就好?

我們可以假想上述的情況,如果透過學者專家來執行,將會是什麼樣的情形?可以想見,學者專家會編列預算,找工讀生來加以編輯字典內容,並且將成果作為自己的研究發表。這麼一來,「語言文字」這樣的資產,將作為學者專家所獨佔的智慧財產權,因此學者就未必有意願開放資料內容,並且也可能將這項資產作為營利用圖。

然而,學者專家編列預算找工讀生來產出這些知識,是透過自己的資本轉換而成的嗎?並不是。事實上,學者專家的預算仍來自政府,即公民的納稅付出;而公民的資本雖然投資在學者專家的研究上,最後卻被學者專家獨佔,而不能取得新的知識內容,這是不公平也是不正義的作法。知識之所以屬於公民,乃是因為知識的來源、生產以及結果,往往都是整體社會共同付出所致。因此,除非學者專家響應學界所發起的機構典藏,將所有研究成果授權所屬機構「全數公開」;否則,學者專家的獨佔,即竊佔了納稅人的資本與產出。

為了避免知識獨佔的情形,我們認為:如果有好的架構和平台,可以透過公民參與、協作來完成,我們根本不需要花費納稅人的金錢,即可讓知識內容達到更好的生產目的:校正、分類,以及更為便利的使用

因此,所謂「資訊公開」並非只是「要求學者專家公開」,而是完全開放讓公民參與知識內容的生產。所以公民也不再只是「知識的使用者」,而是「知識的生產者」

 :smiling_imp:  是的沒錯,這就是自己的語言自己做!!!   :smiling_imp:

1.2 為什麼編輯字典內容要選擇句型?

給力萌典的開發項目,著重於當代國語的使用內容,因此給力萌典不同於國語辭典中所引用的古典文獻。傳統古典文獻有版本依據,可資考據、比對、校正與查詢,但當代國語卻是日常生活中不斷變動的內容。對於所有華人所使用的國語而言,我們應該思考一個問題:如何讓語言學習者可以輕易地掌握該語言的結構,並說出正確、可理解的句子?

為了讓語言學習者可以輕易地掌握語言結構,並說出正確、可理解的句子,我們就必須相信一個「好的架構」可以達到上述目標,這樣就可以把「好的架構」介紹給語言學習者。然而,整理出「好的架構」並不是一件容易的事。因為,對於國語的母語使用者來說,國語是三歲以前就會自然習得的語言,從來沒有「刻意、有意識地」透過學習而得:包括背單字、記文法,以及大練繁複、枯燥的練習。對於國語的母語使用者來說,我們其實也未必知道,什麼是國語的「好的架構」。

為了確立這項「好的架構」,語言學家喬姆斯基指出一個好的研究方法,以符合母語使用者的語言心理狀態——內省法。內省法原本是一種哲學方法,但喬姆斯基於50年代在語言學領域展開認知革命之後,將這方法延伸為語言分析的重要方法。其最重要的核心為:母語使用者對於自身語言有絕佳的語感,以判斷什麼是正確、可理解的句子,而什麼不是。換而言之,「好的架構」就是要透過母語使用者的判斷,來確保該架構的正確性。如果在該架構的運算過程當中,所得出的所有句子「都是母語使用者認為正確、可理解」的句子,那麼該架構就是有效的。

舉例來說,我們會知道「我喜歡看書」是一個「正確、可接受」的句子,但「書我看喜歡」則不是,而這是一個母語使用者可以立即判斷的。然而,若要透過一個好的分析以整理出架構,就必須符合科學方法中的實驗標準,也就是「排除條件」以確立實驗對象是否會產生預期的作用。在上述的例子,我們可以排除許多變因(參數),只留下一個。比如「我喜歡看書」和「我愛看書」兩個句子,變因只有「喜歡」和「愛」在同一個位置中的不同;由於這兩個句子都是「正確、可接受」的句子,因此我們知道這兩個詞可以暫且歸為同一個單位,即「動詞」。或者「我愛看書」和「我愛」兩個句子,變因只有「愛」後面的位置是否應「填入一個單位」這樣的不同;由於只有「我愛看書」是「正確、可接受」的句子,因此我們知道「愛」這個動詞,後面一定要「填入一個單位」,才符合母語使用者的語感判斷。

對於一個外語學習者來說,他就是要學母語使用者這種語感判斷;對於程式應用來說,語言翻譯或人工智慧就是要展現出這種語感判斷。因此上述的例子所指出的判斷,就是「好的架構」之所以有效的依據,也是目標。

這就是為什麼給力萌典要「選擇句型」,因為「選擇句型」就是讓母語使用者,即從小就說國語的所有公民,依據自己的語感判斷來確立「好的架構」。這麼一來,「好的架構」就會確保有效地應用在更多領域,包括外語學習、語言翻譯,或語言資訊處理。

1.3 為什麼要透過多人選擇句型?

經1.2我們會發現,讓母語使用者判斷「正確、可理解」的句子,一反過去我們認為「字典所規範的內容才是正確的」這樣的觀點。事實上,由於傳統字典涵蓋太多古代中文的語言內容,這些內容在現代國語的使用過程中,未必是「正確、可理解」的,也因此這些字典內容未必讓語言學習者可以迅速、有效地掌握現代國語;相反的,由於語言是不斷變遷的,我們應該要相信母語使用者的語感直覺,讓母語使用者的語感發揮最大效用,以建立便於公民使用的「好的架構」。

在學者專家的語言分析過程中,這種仰賴「母語使用者的語感判斷」過程,即仰賴學者專家自己。然而,學者專家的判斷未必符合現代國語的使用現況。如果我們在「選擇句型」的過程中,只讓學者專家來判斷,他們很可能判斷出「我在讀書」這種「在字句」是不正確的,但現代國語的日常使用中,這句子卻極其常見,並且人人都覺得「正確、可理解」。誠然,保持和社會互動良多,並且持開放心胸的學者專家,也可以理解「我在讀書」是「正確、可理解」的句子;然而,如果讓使用者一同參與判斷,透過資訊的累積與數據的呈現,來指出現代公民正在使用的、活絡的、屬於公民自身的語言事實,以建立起語言學習者容易掌握並應用的「好的架構」,這不是比學者專家的判斷更有效嗎?

2. 給力萌典的操作設計

本說明搭配線上簡報效果更好!

給力萌典希望透過「好的架構」,透過公民協作,一同編輯字典內容。主要的核心架構即為「國語與格轉換」:

A我送一本書給你←→B我送你一本書

A我寫一封信給他←→B我寫他一封信

A小張提供吃穿給弟弟←→B小張提供弟弟吃穿

上述轉換可得知兩種句型的必要條件:

1. 動詞為及物動詞

2. 動詞在整個句子裡,一共合併了三個名詞:1個主詞和2個受詞

在這個「國語與格轉換」的架構下,有許多句子不能這樣轉換,這是因為動詞類別不同的緣故:

A我丟一顆球給他 ≠ B我丟他一顆球

A我拿十塊錢給他 ≠ B我拿他十塊錢

A我通知這個消息給他 ≠ B我通知他這個消息

A媽媽限兩小時給他打掃房間 ≠ B媽媽限他兩小時打掃房間

A葉問打十拳給他 ≠ B葉問打他十拳

以上,只要讓國語的母語使用者(公民)一起來選擇「A句或B句,是不是正確、可理解的句子」,就可以建立「給力」的「好的架構」。

本項架構為語言學家Ray Jackendoff所建置的模型,該研究主張人類的語言結構是基於大腦長年演化的認知結構而產生。上述「與格轉換」所呈現的A句與B句,即該模型的「時空的轉換」與「本質的改變」兩個認知面向。A句「時空的轉換」呈現「致使一個受詞在時間或空間上移動到另一個受詞」,B句「本質的改變」呈現「致使一個受詞在本質上改變而擁有另一個受詞」。

由於人類大腦長年演化的認知結構,是所有人類都具備的。因此我們可以理解所有人類語言都具備「與格轉換」的上述架構。線上簡報可見中文和英文都可以用同樣的架構來理解,因此這項架構必然可以讓外語學習者更容易以自己的語言來掌握,也容易應用在語言翻譯與語言資訊處理上。

因此根據「與格轉換」架構,及物動詞是否滿足架構中的兩個面向,則產生2x4=4種結果。因此透過公民協作「選擇句型」,我們可以分出「與格轉換」的四類動詞。

★架構圖詳見線上簡報 pp.16

3. 目標與進程

3.1 20140622 hackath9n

本階段為給力萌典BETA,篩選出2300筆動詞作為第一階段「初校」。

成果報告:https://www.youtube.com/watch?v=FsP-IUpPZio

  • 3.1.1 網站建置
  • 感謝 Audrey Tang在hackath9n不到兩小時,就依照「與格轉換」架構,建置好網站了!!!!!

    我們由萌典選出動詞,透過網站讓使用者「選擇句型」,以判斷該動詞屬於「與格轉換」架構裡,四類動詞中的其中哪一類。

    20140625網站介面修改:

    1(按鈕顏色黃)「(句子)」(搜尋扭)

    2(按鈕顏色藍)「(句子)」(搜尋扭)

    3(按鈕顏色綠)兩個都可以填入同一個名詞,而且意思都一樣。

    3(按鈕顏色綠)兩個都可以填入同一個名詞,但是意思不一樣。

    4(按鈕顏色紅)兩個都不可以填入名詞,因為這個動詞本來就不能接一個受詞。

    4(按鈕顏色紅)兩個都不可以填入名詞,因為這個動詞不是現代國語的動詞。

    無法判斷(按鈕刪除)

  • 3.1.2 第一階段動詞篩選標準
  • a. 單音節動詞

    b. 排除破音詞

    c. 篩選出「主要義項為動詞」的條目。

  • 3.1.3 可預知的情況
  • a. 為避免不同義項可能橫跨不同詞類,會產生誤會。因此在網頁上列出詞義與舉例。

    b. 目前2300筆動詞是以程式演算「該條目具動詞性質」的積分而得出,因此「並非所有的條目都是動詞」。

    c. 與a.相同的情形,就算同一條目多個義項,也未必橫跨不同詞類,但不同義項還是要區分。因此使用者須依照網頁上所指出的「詞義與舉例」來選按

    d. 有些動詞在「與格轉換」架構下,兩種句子都是正確、可接受的,但不一定屬於動詞A。這類動詞在選項「兩個句子都可以填入『同一個名詞』」還要再加區分。

    e. 有許多古代中文的動詞,現代國語已經不會用了。這種情況在選項「兩個都不可以填入名詞」還需要再加區分。

  • 3.1.4 下一階段想解決的問題
  • a. 多義詞的問題雖然已經解決,但有些多義詞中的義項,僅限於特殊結構。比如「打」有「打字(書寫)」的意思,可以說「我打一個文件給你」,但是現在國語「動賓」結構中,受詞會和動詞有緊密的結合,比如「打電話」,這種情況雖然在動詞類別上會和「打字(書寫)」相同,但意義不同。這樣的例子尚有待區分。

    b. 有許多「動賓」結構,也是基於結構本身過於穩定的緣故,不容易在分類中獲得。比如動詞「吃」應屬於動詞D,但「吃豆腐」卻是極其特殊的動賓結構,也屬於相同義項「口中咀嚼食物後嚥下」,卻是「佔便宜」的隱喻。因此雖然「吃」是動詞D,但我們卻可以說「豬哥亮吃林志玲豆腐」,卻又不能說「豬哥亮吃林志玲三塊豆腐」。這樣的區分如何展開,還有待解決。

    c. 動詞分類後,除了編輯字典內容外,進一步的知識內容有待第二階段分析。比如同一筆資料,如果僅有一人判斷,則未必準確;或可固定一筆資料十人判斷,再觀察數據。

    d. 自hackath9n當天測試後,就發現選項的分類和說明頁面如果不完善,就容易誤導使用者,也容易讓使用者選錯,這會得出動詞分類的結果未必準確。目前BETA先以建立完善架構為目標,至於好的字典內容可尚待下一階段完成。