如何自學機器學習?需要哪些數(shù)理基礎?怎樣從入門到進階,成就大神之路?對于這些問題,作為畢業(yè)后投身機器學習研究的數(shù)學博士、微軟亞洲研究院機器學習組主管研究員陳薇無疑是最有發(fā)言權的。在這篇書單推薦中,她從機器學習綜述、算法優(yōu)化、理論延展、數(shù)學基礎四大方面入手,為大家提供一份機器學習的“完全指南”。 在這個言必談“AI”的時代,機器學習是重要的算法內(nèi)核,而數(shù)學是理解和改進機器學習算法的必經(jīng)之路。因此,我將在這篇文章中梳理機器學習的關鍵模塊和與之聯(lián)系的數(shù)學理論分支,列出一份機器學習的數(shù)學書單。 機器學習綜述篇 機器學習算法的一般流程,是按照學習問題的性質(zhì)設計模型,利用優(yōu)化算法來最小化模型的正則化經(jīng)驗風險,從而學習出最優(yōu)模型,然后應用到新的測試數(shù)據(jù)上。根據(jù)學習問題、模型、優(yōu)化算法、正則化方法的不同,學習算法分為許多種類。瀏覽機器學習算法綜述類書籍的目錄,就不難發(fā)現(xiàn)機器學習的算法體系。以下3本機器學習綜述類書籍,能幫助你建立對機器學習的整體認知: 1)Pattern recognition and machine learning 作者:Christoper M. Bishop 適合人群:初級到中級學者 推薦指數(shù):★★★★★ 主要內(nèi)容:本書全面介紹了模式識別和機器學習,包括近年來的最新發(fā)展。如果你對機器學習、統(tǒng)計學、信號處理、計算機視覺、數(shù)據(jù)挖掘等方向感興趣,都可以學習這本書。在打開這本書前,你不需要有模式識別或機器學習的知識,但至少要熟悉多元微積分和基本線性代數(shù),有一些概率論知識會更好,書中也會有對基本概率理論的介紹。 推薦理由:這本書淺顯易懂,生動形象,較為全面地涵蓋了線性回歸、神經(jīng)網(wǎng)絡、核方法等經(jīng)典的監(jiān)督機器學習算法,以及非監(jiān)督的概率圖模型和EM算法,非常適合初步接觸機器學習算法的讀者們。 2)Neural networks and learning machines 作者:Simon Haykin 適合人群:初級到中級學者 推薦指數(shù):★★★★★ 主要內(nèi)容:本書共15章,是關于神經(jīng)網(wǎng)絡的非常全面的、最新的論述,內(nèi)容包括Rosenblatt感知器、回歸模型、多層感知器、核方法和徑向基函數(shù)網(wǎng)絡、支持向量機、正則化理論、信息論學習模型等。 推薦理由:這本書從神經(jīng)網(wǎng)絡講起,循序漸進,從感知機、多層感知機、徑向基函數(shù)感知機,過渡到核方法和SVM,然后討論學習算法與信息論和統(tǒng)計的關聯(lián)關系,最后介紹動態(tài)系統(tǒng)的學習及其與遞歸神經(jīng)網(wǎng)絡的關系。 3)Deep Learning 作者:Ian Goodfellow, Yuoshua Bengio, Aaron Couville 適合人群:初級到中級學者 推薦指數(shù):★★★★★ 主要內(nèi)容:本書是深度學習領域奠基性的經(jīng)典教材,包含三部分:一,介紹基本的數(shù)學工具和機器學習的概念,作為深度學習的預備知識;二,系統(tǒng)深入地講解現(xiàn)今已成熟的深度學習方法和技術;三,討論具有前瞻性的方向和想法,它們是深度學習未來的研究重點。本書適合各個相關專業(yè)的學生,以及不具有機器學習或統(tǒng)計背景的軟件工程師,來快速補充深度學習知識并將其投入實際應用。 推薦理由:這本書側(cè)重深度學習在2006年再次興起、獲得更大成功之后的新進展,尤其介紹了深度學習在自然語言處理、語音識別、計算機視覺、在線推薦等中的應用,而且包含了表達學習這一研究視角。 機器學習算法優(yōu)化篇 機器學習算法的最終性能會受到三個因素的影響:模型空間的表達力、優(yōu)化算法的收斂速率、泛化能力。在表達力方面,除了神經(jīng)網(wǎng)絡的普遍逼近定理之外,定量的研究非常有限。推薦以下3本介紹優(yōu)化算法的書籍: 1)Convex optimization 作者:Steve Boyd 適合人群:初級到中級學者 推薦指數(shù):★★★★★ 主要內(nèi)容:本書分為理論、應用、算法三大部分。理論部分介紹基礎概念、知識和方法;應用部分介紹凸優(yōu)化在解決逼近與擬合、統(tǒng)計估計和幾何關系分析這三類實際問題中的應用;算法部分介紹求解無約束凸優(yōu)化模型、等式約束凸優(yōu)化模型以及包含不等式約束的凸優(yōu)化模型的經(jīng)典數(shù)值方法,以及如何利用凸優(yōu)化理論分析這些方法的收斂性質(zhì)。 推薦理由:內(nèi)容全面,側(cè)重算法,更適合初學者,能夠幫助讀者對凸優(yōu)化理論和方法建立完整的認識。 2)Convex analysis and optimization 作者:Dimitri P. Bertsekas et,al. 適合人群:中級到高級學者 推薦指數(shù):★★★★★ 主要內(nèi)容:本書對凸分析及其優(yōu)化進行了全面的闡述,除此之外,還通過引入一些新的分析視角來重構該主題理論。 推薦理由:本書側(cè)重凸算法的性質(zhì),更適合對凸分析感興趣的學者。 3)The nature of Statistical learning theory 作者:Vladimir Vapnik 適合人群:中級到高級學者 推薦指數(shù):★★★★★ 主要內(nèi)容:本書討論了統(tǒng)計理論背后的基本思想,包括學習和概括。作者將學習視為基于經(jīng)驗數(shù)據(jù)的函數(shù)估計的一般問題,重點討論了學習理論及其與統(tǒng)計學的關系,進一步發(fā)展了學習理論和SVM算法。 推薦理由:在泛化方面,除了可以參考綜述類書籍的正則化技術章節(jié)之外,Vapnik的這本書將泛化性能描述成統(tǒng)計推斷問題,提出了著名的VC容度來解答泛化問題,并由此設計了結(jié)構風險最小原則,引出SVM算法。 近幾年,深度學習的理論受到學術界的廣泛關注,希望不遠的將來我們能對深度學習的逼近、優(yōu)化、泛化有更深入全面的了解,涌現(xiàn)出一批深度學習理論的書籍。 機器學習理論延展篇 前文中的機器學習理論均以統(tǒng)計學描述學習算法性能。除此之外,信息論、博弈論、計算復雜度的相關理論也與機器學習聯(lián)系密切,因此在這里推薦一些相關書籍作為機器學習的理論延展。 信息論 作者:Thomas M. Cover, Joy A. Thomas 適合人群:初級到中級學者 推薦指數(shù):★★★★★ 主要內(nèi)容:這本書是信息論領域中的一本簡明易懂的教材,對熵、信源、信道容量、率失真、數(shù)據(jù)壓縮與編碼理論、復雜度理論、網(wǎng)絡信息論和假設檢驗等進行了介紹,能在理論和應用方面為讀者打下堅實的基礎。 推薦理由:信息論對理解模型有獨特的視角,可以給出非監(jiān)督概率生成模型的統(tǒng)一體系,也有人嘗試用來理解深度學習的信息瓶頸。這本書中概念清楚,內(nèi)容完整。 博弈論 A course in game theory 作者:Martin J. Osborne, Ariel Rubinstein 適合人群:初級到中級學者 推薦指數(shù):★★★★★ 主要內(nèi)容:本書介紹了博弈論的基本概念和理論基礎,由四部分組成:戰(zhàn)略博弈、完全信息擴展博弈、不完全信息擴展博弈以及聯(lián)盟博弈。 推薦理由:隨著交互環(huán)境中強化學習技術的興起,博弈論為我們描述或者建立agent的行為提供了有效的概念。這本書中將理論與例子結(jié)合,直觀易懂。 計算復雜度 Computational complexity:A modern approach 作者:Sanjeev Arora 適合人群:中級到高級學者 推薦指數(shù):★★★★★ 主要內(nèi)容: 這本書涵蓋了計算復雜度理論的經(jīng)典成果和最近的成就,可作為任何感興趣的讀者的自學參考。 推薦理由:計算復雜度刻畫了算法的效率,尤其是針對離散的組合優(yōu)化。如果對與機器學習有重要關系的加密、量子計算感興趣,可以通過Sanjeev Arora的這本書對計算復雜度有更深入的了解。 數(shù)學基礎篇 另外,還有極其重要的一點——入坑機器學習的你,別忘了打好數(shù)學功底!作為理解和改進機器學習算法的必經(jīng)之路,數(shù)學是一切的基礎。從概率論、代數(shù)到實變函數(shù),扎扎實實走好每一步,才能讓后面的進階學習更加順利。 Probability 作者:A.N.Shiryaev 適合人群:初級到高級學者 推薦指數(shù):★★★★★ 推薦理由:概率論是統(tǒng)計學和機器學習的基本描述語言,值得好好學習。推薦Probability,這本書不僅內(nèi)容全面,推導清晰,而且有直觀的例子。讀者可以跳過書中部分較深入的章節(jié)。 高等代數(shù) 出版社:高等教育出版社 適合人群:初級到中級學者 推薦指數(shù):★★★★★ 推薦理由:代數(shù)是處理矩陣問題的主要技術,同時可以幫助深入理解(線性)空間。推薦高等教育出版社的《高等代數(shù)》,概念清晰,重要定理及證明完整,并配有大量習題。 此外,實變函數(shù)能夠幫助我們深入理解收斂、微分、積分,并結(jié)合測度論過渡到隨機積分和隨機微分方程,而隨機微分方程是描述隨機動態(tài)系統(tǒng)的主要技術。泛函分析中算子的概念和四大定理對機器學習很有用處,比如理解Q-learning的Bellman 算子,用壓縮映射定理刻畫強化學習問題的不動點,等等。因此,以下四本相關書籍也值得大家仔細閱讀。 實變函數(shù)論 作者:周民強 測度與概率 作者:嚴士健,劉秀芳 泛函分析講義 作者:張恭慶,郭懋正 隨機微分方程引論 作者:龔光魯 最后,祝大家學習愉快!
|