Human in the loop

又到了除草的時間了，現在大概走一個半年寫一篇的節奏。我想要寫這個主題很久了，但是一直都沒有好開頭和契機。藉由這次在 ICAIL(International Conference of AI in Law) 中的討論，順便整理一下我對於這個主題的看法。

人們對於人工智慧的想像一直是個尷尬的狀態，常常是一種既期待又怕受傷害的感覺。我們期待這樣的技術可以為我們帶來便利的生活，卻也害怕他們成長到我們無法控制的地步。當然，技術上我們距離發展出有人類思考能力的人工智慧系統還非常遠，鋼鐵人中的 Jarvis、Friday 在現實生活中還真的很遙遠。但是，這些高度自動化的系統其實已經開始造成許多道德上的兩難。而這些問題，其實來自於我們與這些自動化系統的互動與關係。讓我們先從幾個例子開始看起。

我們最愛的自動駕駛車

這個例子真的是現代化的火車難題，不斷不斷地被反覆使用且可以有不同的新意。

在自動駕駛車中，我們常常會討論肇事責任的歸屬。完全的自動駕駛車就像是文湖線捷運一樣沒有駕駛，交由自動化的系統來完全行駛車輛，而坐在車內的人們就只是單純的乘客而不是駕駛，可能沒有一個人有駕照。最美好的想像會是這樣的車子完全不會肇事。但是鋼鐵人都可以犯錯了，除非我們有時間寶石不然我們好像不應該這麼樂觀。

所以，如果這台自動駕駛車撞到人了，肇事責任是誰的？這台車子的？所以我們要斷他電源再拆解？是出廠公司的？所以賠賠錢就了事了？還是寫出這個 bug 的工程師？但是程式終究會有 bug 所以我們要有更新，期待完美的程式是不切實際的。如此無法避免的錯誤，可以把責任就推給公司或工程師嗎？

當法庭判決開始自動化

這個問題其實是今年 ICAIL 很大的主軸，越來越多的研究開始藉由過去判例或是成文法進行個案判決結果預測。就學術研究上來說，這是個非常有趣的問題。這樣的研究包含了自然語言理解(natural language understanding)、自動推論(automated reasoning) 等等。在學術之外的應用也非常廣泛，可以提供律師事務所快速的成本估計，也可以提供人們線上法律諮詢及勝算評估，使得不同社會階層的人們都有機會得到良好的法律服務。甚至，我們可以利用這些系統做簡易案件的審判或提供法官判決推薦，使得法院的流程可以更加快速，也減輕法官的負擔。而不要懷疑，這些已經在世界上某些地方開始出現了。[愛沙尼亞即將出現第一位 AI 法官]

聽起來很美好對吧！但是我們敢讓這些人工智慧系統來判案嗎？他們會有系統性的偏誤嗎？我們應該信任這些系統到什麼程度？我們應該在什麼時候不信任系統的結果？(信任問題完全是另一個有趣的主題，我也預計再寫一篇來討論，希望不會就這麼把那些內容忘了…)

連同前面自動駕駛車的問題，我們通常面對這個問題的方式就是找個人來負責。

Human-in-the-loop

我真的不知道這該怎麼翻，所以就不翻了哈哈。

在自動駕駛車中，我們要求還是要有個駕駛，當緊急狀況時，駕駛應該要介入操作來避免危險。我們不敢直接給機器判案，所以就給法官推薦判決結果，做決定的終究是法官。人們必須為最後的決定負責，畢竟能夠負責的只有人類。

而這種作法其實一點都不少見，飛機的一般使用自動駕駛，但是當有特殊狀況時，駕駛還是會切換成手動駕駛。銀行內有諸多貸款審核的模型，但是最後仍然是會有內部的授信人員做最後的審查與決策。

而我自己的研究主題 – eDiscovery 也是一種 human-in-the-loop 的流程。律師對資料進行研究及標註，自動化的分類系統基於律師提供的資訊進行推薦，使得他們可以更有效率的研究有關的資訊。最後分類系統自動將有關的資訊呈現給律師進行案件研究。有時基於法庭要求，這個分類的結果會交給對造 (production)。(才想起來還有一篇eDiscovery的介紹文躺在我的草稿夾…希望有一天可以把他寫完…)

這樣的做法要求人們持續的與自動化的系統互動，並在需要的時候提供或介入系統來避免最終災難式的結果。這樣的系統設計非常重要，而什麼時候該排除人為因素直接自動化的進行決策而什麼時候需要人類介入，這又是另一個非常有趣的問題，推薦一篇文章我們在這裡就暫時先不討論了。[Human In-The-Loop Vs. Out-of-The-Loop in AI Systems]

但是人們真的會做決策嗎

當我們習慣自動化系統的推薦通常都是正確時，我們還會認真的監控或參與整個決策過程嗎？在自動駕駛車中，如果大部分的駕駛都是由系統完成，駕駛連油門、煞車、方向盤都不需要控制，請問駕駛真的不會拿出手機滑嗎？就算他是個負責任的駕駛，在沒有其他動作只有盯著前方和鏡子看時，我們能確定駕駛的注意力不會渙散嗎？

當法官發現判決系統所推薦的判決多半是正確的時，我們能保證法官不會因此而思考怠惰，開始以接受推薦為前提來尋找邏輯瑕疵嗎？而如果有一天我們開始重度依賴這些判決系統而要求法官在做出與系統不同判決時提出理由呢？(這樣的做法其實已經在很多其他商業應用中看到，人們開始盲目地相信電腦所做出的決策) 這樣會不會讓法官開始覺得多一事不如少一事而大量沿用系統判決呢？

我們因為無法信任完全自動化的決策，或是我們無法讓系統負責而放入人類進入決策過程。但是在此同時，我們也降低了人類在這個過程當中積極參與決策的能力、動機與意願，是否也同時降低了人們的有責性？甚至使得人們成為決策過程中的橡皮圖章？

一個自動化的系統的初衷應該是降低人們得負擔並減少整體的錯誤，而在我們無法(或許永遠都無法)完全信任自動化系統的決策時，我們卻放入一個比無自動化系統時更有問題的人類進入決策循環，這不是本末倒置了嗎？

即便我們仍然相信在這些困難的狀況下，人類可以做出更好的決策，或是在現行的法律框架下在某些極限狀況下免除人類的責任。習慣了系統自動操作的駕駛，不會因為缺乏平時的操作而在緊急狀況時反而操作不熟練嗎？我們習慣了打火機和瓦斯爐，不就也不會古老的鑽木取火了嗎？在整天與這樣的系統為伍，人們會不會因此退化而越來越沒有能力進行決策？

這是角色的問題

在人類與系統的互動中，這會形成一種互相回饋的循環，而我們該思考的問題是，人們在這個循環中扮演了什麼角色。如果我們期待人們終究需要為了決策負責，或是需要積極的參與決策，那我們在設計系統時是不是應該更考慮如何不要降低人們的參與感？

我們在追求完整炫砲的功能時，我們也應該記得與系統互動的人們，我們到底期待他們要如何與系統互動？

在進行機器學習的研究時，我們常常假設人類的標註和意見是正確的。但是我們時常忘記，人們的決策是會受到機器學習結果而影響的。在評量推薦系統的表現時，我們時常使用經典的 Precision@k 或 MAP@k ，但是我們時常忘記，使用者的資訊需求可能是長期的或更期待多元的推薦。也因為我們在評量的 metric 中忽略人們的反饋，使得在設計服務系統時，時常也忘記了要把人類當作互動的一環。

我們還應該在乎什麼

人類的因素在機器學習中是一個必然重要的角色，需求始於人類終於人類。而我們在設計系統時確實常顧著追求表現的數值而忘記人們的角色。當資訊工作者和研究者在取笑其他領域的人對於人工智慧的害怕時，我們是否也該回想是不是在資訊研究中，我們忽略了什麼，使得人們會不信任這樣的系統？我想回歸這些問題，才更能釐清人工智慧及機器學習的下一步應該怎麼走。

*又完成一篇了。還有好幾篇文章躺在草稿夾中。機器學習的信任問題也是我很想要寫出來的文章，希望未來還有ˋ機會和時間來寫文章… *

Eugene Yang

Human in the loop

我們最愛的自動駕駛車

當法庭判決開始自動化

Human-in-the-loop

但是人們真的會做決策嗎

這是角色的問題

我們還應該在乎什麼

Eugene Yang

2022 雜記

Human in the loop

Screening Cancer Using Online Ads

Retrieval and Richness When Querying By Document

自己做 Python 的 With Block

機器真的有在學習嗎？

初衷─離開是為了回來

Temporal Graph Pattern Mining

About