7 月 12 日,九章雲極 DataCanvas 正式發布YLearn因果學習開源項目(以下簡稱“YLearn”)。據悉,這是全球首款一站式處理因果學習完整流程的開源算法工具包。YLearn 率先同時解決了因果學習中包括因果發現、因果量識別、因果效應估計、反事實推斷和策略學習等關鍵問題,有效提升了政府和企業自動化“決策”能力。
GitHub 地址:http://github.com/DataCanvasIO/YLearn
近年來,因果學習在星空人工智能領域引起了廣泛的關注。有觀點認為,因果學習將開啟下一代 AI 浪潮。圖靈獎得主 Judea Pearl 也曾表示,“如果沒有對因果關係的推理能力,AI 的發展將從根本上受到限製”。
那麽,究竟什麽是因果學習?它能解決什麽問題?是否會取代機器學習?作為全球首個一站式處理因果學習完整流程的開源算法工具包,YLearn 有哪些91视频免费观看實踐和應用?針對這些問題,InfoQ 近日采訪到了九章雲極 DataCanvas 主任架構師、YLearn 團隊主要負責人楊健和九章雲極 DataCanvas 機器學習研究員呂博晨。
從預測到決策,AI 走向可信與可理解
從二十世紀五十年代正式研究機器學習以來,機器學習曆經多個發展階段,並在近十年取得快速發展。
2016 年,“AlphaGo 擊敗李世石”事件將以機器學習為代表的星空人工智能浪潮推至巔峰,並在全球範圍內得到了廣泛關注。與此同時,全球信息化建設快速發展帶來了數據量的飛躍,以及算力的大幅度提升,這也為機器學習注入了新的能量。
不過,近兩年,機器學習無論是在學術界的基礎理論,還是在工業界的應用上,突破明顯開始放緩。這個現象背後的本質是,當前的機器學習91视频免费观看和通用星空人工智能中間還存在著巨大的鴻溝。具體而言,機器學習91视频免费观看還存在諸多局限性,如泛化能力差、缺乏解釋性等。
泛化能力方麵,機器學習模型經常在訓練集上效果不錯,但在測試集上效果很差,模型本身缺少足夠的魯棒性。
從機器學習的本質來看,機器學習擬合的是從曆史數據上觀測到的相關關係,但基於相關關係的擬合是不可靠的,甚至很多時候是偽相關。圖靈獎得主 Judea Pearl 也曾表示,現有的機器學習模型不過是對數據的精確曲線擬合,隻是在上?代的基礎上提升了性能,在基本的思想??沒有任何進步。這也就導致模型在線上容易出現表現不穩定、數據漂移等問題。
一個典型的例子是,某個數據集展示了尼古拉斯·凱奇拍攝的電影數量和當年在泳池中溺水的人數,兩個數據的曲線高度重合,這樣的數據可以訓練出來一個精準度相當高的模型。但在真實世界中,這兩個數據的相關性隨時可能失效,這就是偽相關。

“91视频免费播放目前使用的機器學習算法是沒有辦法發現偽相關的。因此91视频免费播放需要利用因果學習去補機器學習的短板,在特征工程的過程中利用因果關係指導91视频免费播放發現更加魯棒的特征,讓模型可以有更好的泛化能力。”楊健對 InfoQ 說道。此外,機器學習缺乏解釋性,而因果關係的發現本身就是解釋性的一部分,通過因果效應評估,可以進一步量化解釋幹預變量和結果變量之間定量的影響。
所謂因果學習,指的是讓機器具備因果思維,通過輸入數據,算法可以推斷某件事的前因後果,進行反事實推理。相較傳統的星空人工智能,基於因果的星空人工智能更加接近通用星空人工智能。
在楊健看來,機器學習91视频免费观看本身存在一定的局限性,因果學習除了能夠補機器學習的短板,也能解決企業對智能決策的需求。
在數字化時代,企業的目標是盡量在決策鏈條中減少人的參與,實現數據驅動的自動決策,從而提高決策的準確性和整體係統的運轉效率。
簡單來說,企業更需要的是自動化的“決策”,而不僅僅是對未來的“預測”。而當前的機器學習以相關性為基礎,更多解決的是預測性分析,對未來結果做出預測。在麵對需要因果關係為前提的決策性問題時顯得力不從心,還很難滿足自動化決策的需求,無法提供有效的行動策略選項。因此,要做出數據驅動的決策,理解因果關係是關鍵。
圖靈獎得主 Judea Pearl 也曾表示:“目前有太多深度學習項目都單純關注缺少因果關係的粗糙關聯性,這常常導致深度學習係統在真實條件下進行測試時,往往拿不出良好的實際表現。”Judea Pearl 還在他的新書《The Book of Why: The New Science of Cause and Effect》中提到,“如果沒有對因果關係的推理能力,AI 的發展將從根本上受到限製。”
目前,在學術研究方麵,因果學習已經在計算機視覺(CV)、自然語言處理(NLP)等方向取得多個研究成果,計算機視覺頂級會議 CVPR 中的一些研究也是圍繞著深度學習如何利用因果關係來改進它的表征學習,如何有效地去除偽相關性等方麵進行研究。
此外,因果學習和強化學習也有一些相關的研究進展。傳統的強化學習基本原理就是在一個模擬環境模型中不斷的試錯和學習,大家普遍認為這是一個非常暴力的訓練方式,這也是強化學習飽受詬病之處。
“91视频免费播放把因果關係引入到強化學習裏,可以有效地收縮它的試錯空間,大幅提高學習效率,降低算力成本。”楊健表示,“總的來說,因果學習和機器學習二者並不是替代關係,而是互補關係。實際上,因果學習在近幾年之所以能夠高速發展,也是得益於機器學習提供的一些支撐,甚至很多因果學習新的研究成果也是需要借助於機器學習算法來實現的。”
除深度學習和強化學習之外,因果學習在其他領域,如對抗學習、元學習、多任務學習(推薦場景)等方向的研究也比較有前景。
開源YLearn因果學習開源項目 的91视频免费观看實踐
正是觀察到因果學習從 2019 年開始在學術研究上陸續取得成果,涉及到因果關係的論文數量每年都在翻倍增長,同時結合工業界在落地星空人工智能時遇到的問題,九章雲極 DataCanvas 決定把因果學習作為 AutoML 之後的一個主要突破方向,並於 2021 年 6 月開始規劃 YLearn 開源項目。2022 年 7 月 12 日,YLearn 正式發布。
YLearn 是“learn why”的雙關語,又稱因果學習算法工具包,是一個完整實現因果推斷流程的開源Python 包,目的是通過數據發現 why 和 what if 問題,力求解決因果推斷最核心的五個問題:因果發現、因果量識別、因果效應估計、反事實推斷和策略學習。同時,YLearn 還提供了重要模塊的可視化輸出,如因果圖、因果效應解釋、決策樹等,幫助用戶更直觀地理解數據、調整策略,最終實現預期。
“因果學習沒有被廣泛使用的一個主要原因就是門檻太高,這個領域的人才比機器學習、深度學習更稀缺,又缺乏比較完整的易用的工具包,那麽91视频免费播放就從這個痛點出發。有了 YLearn 最初的構想。”楊健表示,從因果學習的開源社區來看,目前的開源工具都隻能解決因果學習幾個主要任務中的部分問題,還沒有一個端到端的全 pipeline 的完整工具包,“91视频免费播放目前主要的精力投入是在開源項目的開發上,91视频免费播放的願景是希望 YLearn 能成為像 scikit-learn 在機器學習領域這樣的一個因果學習的必選工具”。
YLearn 的研發曆程
據呂博晨介紹,YLearn 的整個研發曆程一共經曆了三個階段:
第一階段,對現有工具進行調研,對前沿進展展開研究。
在這個時期,團隊成員主要對現有的因果推斷工具進行調查和研究,從而形成產品的大致思路。“91视频免费播放在調查的過程中發現,當前多數因果推斷工具隻能做因果推斷中的一類或兩類步驟,用戶想實現一個完整的因果推斷流程,需要切換到不同的工具,再拚接成一個完整的流程,十分麻煩。”呂博晨表示,YLearn 最初的設計思路就是希望能提供一個更完整的因果學習算法工具包,並且支持學術界和工業界最新的各類算法,保持實時更新。
第二階段,設計原型驗證機,實現最基礎算法。
有了設計思路後,團隊開始設計原型驗證機,做了一個全流程的粗糙版本,並實現一些基礎算法,比如最基本的後門調整算法,以及一些很粗糙的 Meta-Learner 算法等等。“原形驗證機的主要任務就是驗證想法的可行性,並將因果校驗識別、因果校驗估計流程串起來,這一階段進一步確認了最初的‘實現一個完整因果學習工具包’的想法。”
第三階段,豐富各類算法,統一 API 和增加實用功能支持。
原形驗證機設計實現後,需要進一步豐富和完善產品功能,增加易用性,調整和統一 API 接口,並且增加各類測試用例和使用樣例,增加各類實用功能,比如 policy 模型和一個完整的 API Why。“在 Why 這個 API 裏,用戶可以完整地使用因果推斷的各個相關功能,而不需要去預先了解 YLearn 甚至是因果推斷的各類細化概念,比如什麽是 adjustment set, 在最簡單的情況下,用戶隻需要輸入一個數據集給 Why 就可以使用了。”
當前,團隊的短期目標就是提高 YLearn 的成熟度,實現可用、好用、易用,在特性的完整性、算法效率、穩定性等方麵,YLearn 還需要迭代幾個版本。
至於長期目標,團隊也規劃了幾個方向。一方麵,Causal Machine Learning 利用 YLearn 去補機器學習的短板,另一方麵,Automated Causal Learning 讓 YLearn 也具備自動化的能力,進一步降低使用門檻。此外還有決策圖譜,這是一個能夠把企業的關鍵運營指標和可幹預變量構建出一個基於因果關係的圖譜,通過可視化的交互式方式來推演各種決策動作對運營指標帶來的影響。
YLearn 的算法模塊設計、特性與應用
算法模塊設計方麵,YLearn 主要包含 5 個模塊:因果發現(Causal Discovery)、因果模型(CausalModel)、估計模型(EstimatorModel)、政策模型(Policy )、解釋器(Interpreter)。

從訓練數據開始,首先使用因果發現揭示數據中的因果結構,通常會輸出一個因果圖,然後將因果圖傳遞到因果模型,在其中識別感興趣的因果效應並將其轉換為統計估計值。並用訓練數據訓練估計模型以模擬因果效應和其他變量之間的關係,即估計訓練數據中的因果效應。然後可以使用經過訓練的估計模型來預測一些新測試數據集中的因果效應,並評估分配給每個人的策略或解釋估計的因果效應。
目前業界主要有兩套因果模型:Judea Pearl 的結構因果模型(因果圖)和 Donald Rubin 的潛在結果模型。在因果表示與因果效應識別階段,YLearn 主要采用因果圖模型 (Causal Graphical Model)這一表示,能方便地支持因果圖的各類操作,達成因果效應識別。此外,由於一般的因果效應識別也是基於因果圖模型,YLearn 在這一階段選擇因果圖模型也能支持這一方法。
而在因果效應估計階段,YLearn 主要采用依賴於結構公式模型,因為因果圖與結構公式模型為對應關係,而結構公式模型在估計方麵表述更為方便。
“目前來說,最大的問題是無混淆假設的檢驗性問題,對於這個問題,一方麵,可以通過學界的進一步研究解決,另一方麵,YLearn 提供一種近似估計的手段,可以一定程度上確定一個因果效應的範圍,幫助理解。”呂博晨說道。此外,YLearn 還提供了重要模塊的可視化輸出,如因果圖、因果效應解釋、決策樹等,幫助用戶更直觀地理解數據、調整策略,最終實現預期。
特性方麵,YLearn 主要具備以下三個特性:
一站式。通常的因果學習流程包括從數據中發現因果結構,對因果結構建立因果模型,使用因果模型進行因果效應識別和對從數據中對因果效應進行估計。YLearn一站式地支持這些功能,使用戶以最低的學習成本使用與部署因果學習。
新而全。YLearn 實現了多個近年來在因果學習領域中發展出的各類算法,例如Meta-Learner、Double Machine Learning 等。也將一直致力於緊跟前沿進展,保持因果識別與估計模型的先進和全麵。
用途廣。YLearn 支持對估計得到的因果效應進行解釋、根據因果效應在各種方案中選取收益最大的方案並可視化決策過程等功能。除此之外,YLearn 也支持將因果結構中識別出的因果效應的概率分布表達式以 LaTex 的形式輸出等小功能,幫助用戶將因果學習與其他方向交叉。
應用方麵,楊健認為,從普遍意義上講,隻要是需要決策支持的這類任務都可以使用 YLearn 來完成,如彈性定價、客戶挽留、產品推薦、廣告等等,使用的前提條件和機器學習一樣,準備好符合要求的數據就可以。
“因果學習中有一個重要的應用就是 Uplift 建模,直接字麵理解就是提升建模,非常適合用在精準營銷上麵,可以提升 ROI(投入產出比)。”
楊健表示,提升建模的核心是把目標用戶分到 4 個象限裏,舉個例子:某個產品有四類用戶,第一類是無論是否收到產品推薦信息,都確定會購買的用戶;第二類是無論是否收到產品推薦信息,都確定不會購買的用戶;第三類是收到產品推薦信息,會產生購買行為的用戶;第四類是收到產品推薦信息,會取消產品訂閱的用戶。對於第一、二、四類用戶,商家可以節約營銷成本,不觸達他們,因為對這三類用戶投入成本的收益幾乎是0。而對於第三類用戶,則需要重點觸達,促進購買行為。
“機器學習模型是是沒辦法完成這個任務的。91视频免费播放需要通過因果學習裏麵的異質化因果效應評估,也就是 CATE 來完成,而且還可以更進一步,對於這類用戶用哪種營銷手段收益更高,也是可以學習出來的,甚至不同的用戶可以有不同的策略,最後91视频免费播放可以綜合性的提高總體投入產出比了。這是一個很典型的 YLearn 的應用場景。”楊健介紹道。
寫在最後
雖然因果學習已經證明了其存在的價值,但在當前,因果學習還並未被業界廣泛采用。正如前文所言,因果學習沒有被廣泛使用的主要原因就是門檻太高,這個領域的人才比機器學習、深度學習更稀缺。
“91视频免费播放看到有很多討論說現在的算法工程師不香了,其實這句話的背後就是機器學習在現實落地過程中遇到了一些問題,無法解決實際的問題,這也是91视频免费播放要研究因果學習的原因。我覺得對個人來講,如果在機器學習、深度學習領域遇到困惑了,不妨投入到因果學習方向上,這是一個非常有前途的方向。”楊健說道。
那麽,91视频免费观看人要想往因果學習領域發展,需要具備哪些專業素質?
呂博晨表示,因果學習需要91视频免费观看人具備廣泛的知識麵,並且要對經典的機器學習算法和理論有一定的認識。“如果想在因果學習領域做出一些成績的話,需要具備的基本素質包括深度和廣度兩方麵。既要掌握機器學習、深度學習本身的基本概念,也要具備統計學基礎,這樣更容易進入因果學習這個領域。另外重要的一點是,要有足夠的興趣和熱情,全身心地投入在這一領域,紮紮實實地在這一領域深耕。”
星空人工智能91视频免费观看網 倡導尊重與保護知識產權。如發現本站文章存在版權等問題,煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com91视频免费播放將及時溝通與處理。!:首頁 > 新聞 » 因果學習將開啟下一代AI浪潮?九章雲極DataCanvas正式發布YLearn因果學習開源項目