2022 雜記

這篇是就只是把 Facebook 的貼文順便放在這裡，穩定發文真的好難喔QQ

其實不知道曾幾何時開始越來越少在 Facebook 上認真貼文。對於很多事情其實有不少想法也想要好好紀錄一下，但某個程度貼文的後果就是回應，沒有爭議的立場沒有貼文的價值，因為不會引起共鳴更不會引起討論，陳腔濫調也就只是不同週期的月經文而已。但也就是認為貼文存在這樣的價值，沒有空好好回應就成了不想好好貼文的理由。

面對面聊天和討論因為討論會有時限也更有容錯的空間，反而讓我更沒有壓力。一來不會覺得有義務幾天後還要回應這些留言，二來因為討論而修改的想法也不會被原本的貼文錨定。當然不可否認還有不想要看到認真寫完的貼文結果只有小貓兩三隻的尷尬哈哈。

但是我並不覺得這是什麼好事。討論的減少至少對我來說少了修正想法的機會，也減少很多我介紹些資工領域正在面對的問題。所以藉著年底了，來稍微紀錄一下我覺得值得討論的一些議題

年底出現的 ChatGPT 應該算是少數未經過包裝真的滿出圈的 NLP 科技，在很多圈子都得到很大的迴響，這絕對是件好事。但是這個模型的本質仍然是語言模型，也就是說他所產出的文字只是他認為根據前文有很高機率會接著的內容。所以他更像是個沒有大腦只是直覺狂噴垃圾話的機器，你要說他有創造能力某個程度也對，畢竟創造的本質有時候就是脫離邏輯推演的天馬行空。但是覺得他可以替代搜尋引擎或是做到事實查核，至少就現行大家猜測的 ChatGPT 模型結構來說 (他們還是沒有放出 paper 就是了)，是不切實際的。當然，如果他有辦法做到搜尋、統整、摘要、再附上資料來源 (類似 pointer-generator summarization models)，那就大有可為了。
這也接續到另一個圈子裡面非常熱門的話題 — 機器學習的倫理問題。我一直覺得這是個很適合辯論人討論的問題。機器學習模型的治理在各大社群媒體的假消息問題出現後，一直是搜尋引擎和 NLP 圈子很常討論的問題。其中，大概有兩個討論的主軸：模型/平台對待資訊的公平性和有害結果的責任歸屬。
- 在公平性 (fairness) 的部份，不管是資訊的呈現或是生成結果的，如何判斷進而避免模型歧視特定族群的人一直是大家討論的重點。但是有趣的是，機器學習和 NLP 的研究員總是喜歡重新發明和定義什麼叫公平。當然，從機器學習和數學的角度來定義公平確實是個有趣的方向。但是在過去起碼發展2000年的倫理學裡，絕對有非常多值得借鑒的討論和定義。就像是在 GPDR 之後，我們開始討論到底 Differential Privacy 的定義和 GPDR 的差距到底在哪裡；如果我們相信模型應該被治理、他的公平性應該被要求，那不可迴避的我們應該回頭討論到底法律上倫理上的公平之於模型到底是什麼意義。
- 責任的歸屬 (accountability) 更不是資工人應該自己重新發明的概念。不管在哪個資工的研討會，當我聽到大家在重新討論 accountability 的定義時，我總是頭非常痛。今年 EMNLP (大概是 NLP 數一數二大的學術研討會) 剛好有個討論 Ethics in NLP 的場合，我就跟大家說我們應該去隔壁的 Legal NLP Workshop 借一下他們的 Keynote Speaker，他剛好是個 University of Virginia 的法學教授。當模型所作的決定會在沒有人類驗證的狀態下直接影響其他人，出現有問題的結果時，我們應該如何歸責？還是所有產出都需要有個人類當橡皮圖章來無腦的核可所有內容？那這樣淪為無意識的橡皮圖章真的是可以被歸責的嗎？這樣的討論其實一直出現在自動駕駛車、社群貼文審核等等。
基於這些問題，現在美國國會就希望可以規範社群媒體，要求他們需要做到基本的事實查核。很多人開始反對這種立法，因為大家認為平台方沒有理由做事實查核或是資訊審核，應該交由言論市場自己篩選。其中 Elon Musk 大概是最支持這樣立場的人之一。但是這樣明顯假設了所有人都有基本查核事實的能力。而自由市場失靈也不是一天兩天的事情，不然我們也不需要這麼多規範不正當競爭的法律了。
- 我無法理解的事情是，胡說八道或毀謗就嚴重程度現狀下澡就有法律規範。我們對於造謠對社會存在負面影響其實是有共識的，怎麼會因為傳播媒介的差異而突然忘記這樣的共識了？當然，社群媒體的傳遞速度和規模是過去前所未見的，我們需要不同的工具和方法來規範，但是需要規範這件事情應該是共識。規範和不存在自由是兩回事，規範胡說八道當然是一種言論自由的限縮，但是限縮言論自由從來就不是不能做的事情，而是應該藉由完整的立法規範來確保兩者的平衡是合理的。
- 所以我不認為這是社群平台的義務。保障言論是政府的責任，而幫股東賺錢是社群媒體公司的工作。如果我們相信這些平台應該被規範，我們應該做的是立法要求社群平台服從經過立法討論的規範，而不是要求社群媒體自己發明自己的社群規範。對於私人企業來說，賺錢是目標，其他都應該是條件；如何在符合法律的條件下賺錢是私人企業的能力和技術或甚至是藝術。這樣的概念也不是什麼新東西，外部成本內部化就是因為要求企業承擔義不切實際所以衍申出來的概念。對於言論市場的影響絕對是社會承擔的外部成本，藉由成本內部化才能使得這些問題完整的進入企業的獲利方程式，而不是淪為發生事情時大家喊喊的東西。

好，打完了。打完才發現應該可以整理的更好，但是就算了哈哈。藉著大家都在放假有點空檔把這些東西打下來。我還是喜歡討論，但是回覆的部份就容許我未來慢慢佛系回覆了。

Eugene Yang

2022 雜記

Eugene Yang

2022 雜記

Human in the loop

Screening Cancer Using Online Ads

Retrieval and Richness When Querying By Document

自己做 Python 的 With Block

機器真的有在學習嗎？

初衷─離開是為了回來

Temporal Graph Pattern Mining

About