将決策系統描述爲“算法”通常是人們轉移決策責任的一(yī)種方式。對許多人來說,“算法”指的是一(yī)套基于客觀經驗證據或數據的規則,是一(yī)個極度複雜(zá)的系統,以緻人類很難理解其内部工(gōng)作原理或預測算法運行時的反應。但這種描述準确嗎(ma)?也不總是。
例如,去(qù)年 12 月下(xià)旬,斯坦福醫學中(zhōng)心把新冠疫苗的分(fēn)配不當歸咎于一(yī)種分(fēn)配“算法”,該算法偏向高級管理人員(yuán),而非一(yī)線醫生(shēng)。據《麻省理工(gōng)技術評論》當時的報道,這家醫院聲稱,爲了設計“非常複雜(zá)的算法”,醫院已經咨詢了倫理學家,其中(zhōng)一(yī)位代表表示“完全行不通”。盡管許多人認爲算法涉及人工(gōng)智能或機器學習,但該系統實際上是一(yī)個醫學算法,在功能上是不同的,更像是一(yī)個非常簡單的公式或者是人類委員(yuán)會設計的決策樹(shù)。
這種脫節突顯了一(yī)個日益嚴重的問題。随着預測模型的激增,公衆在做出關鍵決策時變得更加謹慎。但決策者在開(kāi)始制定評估和審計算法的标準時,首先必須定義決策的類别或他們決策适用的輔助工(gōng)具。給“算法”這個術語保留解釋的餘地,可能會讓一(yī)些影響最大(dà)的模型超出了确保這類系統對人沒有壞處的政策的影響範圍。
如何識别算法
那麽斯坦福醫學中(zhōng)心的“算法”是一(yī)種算法嗎(ma)?這取決于你如何定義這個詞。雖然“算法”還沒有一(yī)個公認的定義,但計算機科學家哈羅德·斯通在 1971 年編寫的教科書(shū)裏給出了一(yī)個普遍的定義:“算法是精确定義一(yī)系列操作的一(yī)套規則。”這個定義包羅萬象,從配方到複雜(zá)的神經網絡:基于算法的審計策略涉獵太廣泛了。
在統計學和機器學習中(zhōng),我(wǒ)(wǒ)們通常認爲算法是計算機爲了解數據執行的指令集。在這些領域中(zhōng),産生(shēng)的結構化信息通常稱爲模型。計算機通過算法從數據中(zhōng)了解到的信息可能看起來像“權重”,可以乘以每個輸入因子,也可能要複雜(zá)得多。算法本身的複雜(zá)程度可能也不同。這些算法産生(shēng)的影響最終取決于它們所應用的數據和最終模型運行的情況。同樣的算法在一(yī)種情況下(xià)可能會産生(shēng)積極的影響,而在另一(yī)種情況下(xià)又(yòu)會産生(shēng)截然不同的影響。
在其他領域,上述模型本身被稱爲算法。盡管這令人感到困惑,但從最廣泛的定義來看,這也是準确的:模型是定義一(yī)系列操作的規則(通過計算機的訓練算法來了解規則,而不是由人類直接表述)。例如,去(qù)年在英國,媒體(tǐ)報道一(yī)種“算法”不能給由于疫情無法參加考試的學生(shēng)公平打分(fēn)。這些報道确實讨論的是模型——把輸入(學生(shēng)過去(qù)的表現或老師的評價)轉化爲輸出(分(fēn)數)的指令集。
斯坦福醫學中(zhōng)心發生(shēng)的事情就好像是人類(包括倫理學家)坐下(xià)來,決定該系統應該采用怎樣的操作,從而根據員(yuán)工(gōng)的年齡和部門等輸入信息決定這個人是否應該首先接種疫苗。據我(wǒ)(wǒ)們所知(zhī),這一(yī)系列操作并沒有基于優化某個定量目标的估計程序。這是一(yī)套如何讓疫苗優先化,以算法的語言固定下(xià)來的規範性決策。這種方法在醫學術語和廣義定義中(zhōng)被視爲一(yī)種算法,盡管其中(zhōng)唯一(yī)涉及的智能是人類。
關注影響,而不是投入
立法者也在争論什麽是算法。美國國會在 2019 年引入的 HR2291 或算法責任法案使用了“自動決策系統”一(yī)詞,将之定義爲“機器學習、統計數據或其他數據處理、人工(gōng)智能技術等得出的計算過程,以此作出決策或幫助人類決策,影響消費(fèi)者。”
人工(gōng)智能審計可能會忽略某些類型的偏見,而且也不一(yī)定能證明招聘工(gōng)具是否給崗位挑選了最好的候選人。
紐約市也在考慮引進 Int 1894 法,這項法律将對“自動化就業決策工(gōng)具”采取強制性審計,該工(gōng)具定義爲“功能由統計理論決定的系統或由這類系統定義參數的系統”。值得注意的是,這兩個法案都要求審計,但隻提供了有關什麽是審計的高級指導方針。
随着政府和産業的決策者都在爲算法審計制定标準,對“什麽是算法”的意見可能會出現分(fēn)歧。我(wǒ)(wǒ)們建議主要根據算法産生(shēng)的影響來進行評估,而不是想着給“算法”下(xià)一(yī)個統一(yī)的定義或統一(yī)審計方法。關注結果而不是投入的話(huà),我(wǒ)(wǒ)們就能避開(kāi)技術複雜(zá)程度這些沒必要的争論。無論我(wǒ)(wǒ)們讨論的是代數公式還是深層神經網絡,重要的一(yī)點是會不會造成危害。
在其他領域的影響是一(yī)個關鍵的評估因素,它被嵌入到網絡安全領域的經典 DREAD 框架中(zhōng),21 世紀初微軟首次了推廣這一(yī)框架,目前還有一(yī)些企業在使用。DREAD 框架中(zhōng)的“A”要求威脅評估人員(yuán)詢問有多少人會受到一(yī)個确定的計算機安全隐患的影響,從而量化“受影響的用戶”。影響評估在人權和可持續發展分(fēn)析中(zhōng)也很常見,我(wǒ)(wǒ)們已經看到一(yī)些人工(gōng)智能影響評估的早期開(kāi)發者建立了類似的規則。例如,加拿大(dà)的《算法影響評估》基于 “該業務領域的客戶是否特别容易受到影響? (是或否)”等定性問題打分(fēn)。
無論我(wǒ)(wǒ)們讨論的是代數公式還是深層神經網絡,重要的一(yī)點是會不會造成危害。
在評估中(zhōng)引入“影響”這樣一(yī)個定義廣泛的術語肯定比較困難。DREAD 框架後來被 STRIDE 補充或取代,部分(fēn)是因爲協調威脅建模所需内容的不同觀點帶來了挑戰,微軟在 2008 年停用了 DREAD。
在人工(gōng)智能領域,會議和期刊已經引入了影響聲明,公衆對此褒貶不一(yī)。這并非萬無一(yī)失:純粹公式化的影響評估很容易露出馬腳,而過度模糊的定義可能導緻評估武斷或冗長。
盡管如此,這仍然是向前邁出的重要一(yī)步。“算法”一(yī)詞,無論如何定義,都不該成爲設計和部署系統的人逃避責任的盾牌。這就是公衆要求算法問責的呼聲越來越高的原因,而“影響”一(yī)詞的概念爲不同團體(tǐ)滿足這一(yī)需求提供了一(yī)個有用的共同基礎。