數(shù)據(jù)挖掘(英語(yǔ):Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(英語(yǔ):Knowledge-Discovery in Databases,簡(jiǎn)稱(chēng):KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線(xiàn)分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專(zhuān)家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。 為了幫助小伙伴們更好地學(xué)習(xí)數(shù)據(jù)挖掘技術(shù)相關(guān)內(nèi)容,我們?yōu)榇蠹彝扑]了六本數(shù)據(jù)挖掘領(lǐng)域的經(jīng)典書(shū)籍,既涵蓋了數(shù)據(jù)挖掘的概念、算法等基礎(chǔ)知識(shí),又包含了數(shù)據(jù)挖掘在不同子領(lǐng)域的具體應(yīng)用。一起來(lái)看看吧! 一、基礎(chǔ)篇 主要目標(biāo):幫助大家了解數(shù)據(jù)挖掘領(lǐng)域的基本概念、代表性算法和評(píng)估技術(shù),比如數(shù)據(jù)的關(guān)聯(lián)分析、分類(lèi)及聚類(lèi)算法等,為大家之后進(jìn)一步學(xué)習(xí)數(shù)據(jù)挖掘知識(shí)、深入進(jìn)行科研或在實(shí)際場(chǎng)景中應(yīng)用奠定基礎(chǔ)。 1. Introduction to Data Mining 中文譯名:數(shù)據(jù)挖掘?qū)д摚ㄍ暾妫?br/> 作者:Pang-Ning Tang、Michael Steinbach、Vipin Kumar 適合人群:初級(jí)到中級(jí)學(xué)者 推薦指數(shù):★★★★★ 主要內(nèi)容:本書(shū)內(nèi)容涵蓋了數(shù)據(jù)挖掘的方方面面,從什么是數(shù)據(jù)挖掘、什么是數(shù)據(jù)以及數(shù)據(jù)預(yù)處理的方法,到具體的數(shù)據(jù)挖掘算法,比如分類(lèi)、關(guān)聯(lián)分析、聚類(lèi)、異常檢測(cè)等,從基本的定義入手,由淺至深地幫助讀者透徹地理解數(shù)據(jù)挖掘的基礎(chǔ)。書(shū)中使用大量的圖表、綜合示例、關(guān)鍵算法的簡(jiǎn)潔描述等,盡可能地直接聚焦于數(shù)據(jù)挖掘的主要概念。 推薦理由:本書(shū)是明尼蘇達(dá)大學(xué)和密歇根州立大學(xué)數(shù)據(jù)挖掘課程的教材,是數(shù)據(jù)挖掘領(lǐng)域經(jīng)典的入門(mén)教程。本書(shū)內(nèi)容淺顯易懂,只要求具備很少的統(tǒng)計(jì)學(xué)或數(shù)學(xué)背景知識(shí),略去了各個(gè)定理的證明部分,通過(guò)枚舉大量具體的算法實(shí)例來(lái)簡(jiǎn)要說(shuō)明算法的流程和意義,讓初學(xué)者可以以最快速度總攬全局,掌握數(shù)據(jù)挖掘領(lǐng)域的基本要點(diǎn)。 2. Data Mining: Concepts and Techniques 中文譯名:數(shù)據(jù)挖掘:概念與技術(shù)(原書(shū)第三版) 作者:Jiawei Han、Micheline Kamber、Jian Pei 適合人群:初級(jí)到中級(jí)學(xué)者 推薦指數(shù):★★★★★ 主要內(nèi)容:本書(shū)是最新的第三版,主要從數(shù)據(jù)庫(kù)角度全面系統(tǒng)地介紹了數(shù)據(jù)挖掘的基本概念、方法、技術(shù)以及技術(shù)的研究進(jìn)展,并且重點(diǎn)關(guān)注了數(shù)據(jù)挖掘領(lǐng)域最新的技術(shù)和發(fā)展,介紹了社會(huì)網(wǎng)絡(luò)挖掘、流數(shù)據(jù)挖掘和數(shù)據(jù)立方體計(jì)算等最新的研究方法,并探討了數(shù)據(jù)挖掘方法在金融等領(lǐng)域的應(yīng)用。書(shū)中引入了許多算法和實(shí)現(xiàn)實(shí)例,以易于理解的偽代碼編寫(xiě),適用于實(shí)際的大規(guī)模數(shù)據(jù)挖掘項(xiàng)目。 推薦理由:本書(shū)是一本非常優(yōu)秀的數(shù)據(jù)挖掘教材,更是數(shù)據(jù)挖掘領(lǐng)域具有里程碑意義的經(jīng)典著作。它不僅詳盡講述了數(shù)據(jù)挖掘的基本概念和方法,又具有一定的深度,介紹了數(shù)據(jù)挖掘領(lǐng)域近年來(lái)最新的課題。它結(jié)構(gòu)合理、調(diào)理清晰,每一章都針對(duì)關(guān)鍵專(zhuān)題有單獨(dú)的指導(dǎo),并且只要求讀者具備少量的編程經(jīng)驗(yàn)以及了解基本的數(shù)據(jù)和統(tǒng)計(jì)分析方向的知識(shí)。 二、 應(yīng)用篇 主要目標(biāo): 在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的形式多種多樣,在不同科研領(lǐng)域、商業(yè)背景、產(chǎn)業(yè)類(lèi)型中的應(yīng)用也十分豐富。這里我們通過(guò)四本書(shū)來(lái)為大家介紹數(shù)據(jù)挖掘的方法和思想在三個(gè)不同的子領(lǐng)域中的具體應(yīng)用,幫助大家了解數(shù)據(jù)挖掘領(lǐng)域最前沿的熱門(mén)研究方向和應(yīng)用場(chǎng)景,為大家把握科研或工程的方向提供參考。 1. Recommender Systems: An introduction 中文譯名:推薦系統(tǒng) 作者:Dietmar Jannach、Markus Zanker、Alexander Felfernig、Gerhard Friedrich 適合人群:中級(jí)到高級(jí)學(xué)者 推薦指數(shù):★★★★★ 主要內(nèi)容:本書(shū)比較全面地介紹了推薦系統(tǒng)涉及的相關(guān)知識(shí)點(diǎn),呈現(xiàn)了許多經(jīng)典算法,并討論了如何衡量推薦系統(tǒng)的有效性。書(shū)中內(nèi)容分為基本概念和最新進(jìn)展兩部分:前者涉及協(xié)同推薦、基于內(nèi)容的推薦、基于知識(shí)的推薦、混合推薦方法,推薦系統(tǒng)的解釋、評(píng)估推薦系統(tǒng)和實(shí)例分析;后者包括針對(duì)推薦系統(tǒng)的攻擊、在線(xiàn)消費(fèi)決策、推薦系統(tǒng)和下一代互聯(lián)網(wǎng)以及普適環(huán)境中的推薦。 推薦理由:本書(shū)內(nèi)容詳盡,廣泛涵蓋了不同類(lèi)型的推薦系統(tǒng),并對(duì)這些推薦系統(tǒng)逐一進(jìn)行了細(xì)致地剖析,并輔以實(shí)際應(yīng)用案例的介紹,適合想要了解推薦系統(tǒng)的基礎(chǔ)和相關(guān)研究的讀者作為推薦系統(tǒng)的入門(mén)書(shū)籍。書(shū)中包含了大量的圖、表以及示例,有助于讀者理解和把握相關(guān)知識(shí)。 2. Recommender Systems: The Textbook 作者:Charu C. Aggarwal 適合人群:中級(jí)到高級(jí)學(xué)者 推薦指數(shù):★★★★☆ 主要內(nèi)容:本書(shū)詳盡地介紹了推薦系統(tǒng)的方方面面,可以大致地被分為三個(gè)部分:“算法和評(píng)估”部分探討了推薦系統(tǒng)中的基礎(chǔ)算法,包括協(xié)同過(guò)濾的方法、基于內(nèi)容的方法、基于知識(shí)的方法、集成方法以及推薦系統(tǒng)的評(píng)估方法;“特定領(lǐng)域和上下文下的推薦系統(tǒng)”部分介紹在如時(shí)間空間數(shù)據(jù)、社交數(shù)據(jù)、標(biāo)簽數(shù)據(jù)以及信用度數(shù)據(jù)等不同的上下文場(chǎng)景數(shù)據(jù)中如何進(jìn)行推薦;“高級(jí)的主題和應(yīng)用”部分介紹了和推薦系統(tǒng)的魯棒性相關(guān)的內(nèi)容,如先令系統(tǒng)、攻擊模型以及相應(yīng)的防御模型。 推薦理由:這是一本非常優(yōu)秀的推薦系統(tǒng)教科書(shū),它不僅用簡(jiǎn)單的語(yǔ)言闡述了推薦系統(tǒng)的基礎(chǔ),深入地介紹了核心算法的概念以及數(shù)學(xué)論證,還為讀者提供了第三方工具或框架使用時(shí)需要查詢(xún)的大量資料。它對(duì)于推薦系統(tǒng)的基礎(chǔ)、具體應(yīng)用和相關(guān)文獻(xiàn)進(jìn)行了全面介紹,既適合研究人員作為推薦系統(tǒng)的入門(mén)書(shū)籍,又適合工業(yè)從業(yè)人員作為工具參考書(shū)。 3. Sentiment Analysis: Mining Opinions, Sentiments,and Emotions 中文譯名:情感分析:挖掘觀點(diǎn)、情感和情緒 作者:Bing Liu 適合人群:中級(jí)到高級(jí)學(xué)者 推薦指數(shù):★★★★★ 主要內(nèi)容:本書(shū)主要從自然語(yǔ)言處理的角度全面地介紹情感分析這個(gè)主題中的基礎(chǔ)算法以及先進(jìn)的研究技術(shù)和科研結(jié)果。書(shū)中幾乎涵蓋了情感分析所有的核心領(lǐng)域,在介紹了情感分析的基本概念和多種基本的情感分析場(chǎng)景后,又解讀了多個(gè)新興的情感分析主題,比如辯論分析、意圖挖掘、假民意檢測(cè)等,不僅能夠讓讀者了解通常用于表達(dá)觀點(diǎn)和情感的問(wèn)題和語(yǔ)言的基本結(jié)構(gòu),還能幫助讀者深入地探究大量觀點(diǎn)挖掘和情感分析的算法和系統(tǒng)。 推薦理由:本書(shū)是迄今為止觀點(diǎn)挖掘與情感分析領(lǐng)域最權(quán)威、最全面的著作之一。書(shū)中幾乎涵蓋了情感分析的方方面面,將理論和實(shí)踐相結(jié)合,深入淺出,同時(shí)兼顧了領(lǐng)域知識(shí)的深度和廣度,不僅可以作為剛接觸這一領(lǐng)域的學(xué)者或開(kāi)發(fā)者的入門(mén)教材,又可以作為了解這一領(lǐng)域最前沿研究成果的經(jīng)典讀物。 4. 移動(dòng)數(shù)據(jù)挖掘 作者:連德富、張富崢、王英子、袁晶、謝幸 適合人群:中級(jí)到高級(jí)學(xué)者 推薦指數(shù):★★★★★ 主要內(nèi)容:本書(shū)選取當(dāng)前學(xué)術(shù)界和工業(yè)界的熱點(diǎn)為主題,自成體系,書(shū)中以人的軌跡數(shù)據(jù),特別是移動(dòng)社交網(wǎng)絡(luò)的位置數(shù)據(jù)為中心,結(jié)合人的基本信息及社交網(wǎng)絡(luò)等相關(guān)信息來(lái)研究個(gè)人與群體的移動(dòng)模式特性,介紹了移動(dòng)數(shù)據(jù)挖掘的基本概念和方法,具體包括移動(dòng)數(shù)據(jù)預(yù)處理、用戶(hù)移動(dòng)模型、用戶(hù)畫(huà)像以及興趣位置推薦等,內(nèi)容十分新穎。 推薦理由:本書(shū)是大數(shù)據(jù)管理叢書(shū)中的一本,書(shū)中梳理總結(jié)了作者團(tuán)隊(duì)過(guò)去十年在人群移動(dòng)數(shù)據(jù)理解上展開(kāi)的研究,這些研究經(jīng)驗(yàn)不僅對(duì)于很多實(shí)際應(yīng)用有著重要的價(jià)值,也有助于解決一些具有社會(huì)意義的科學(xué)問(wèn)題。本書(shū)在介紹了移動(dòng)數(shù)據(jù)的概念及其價(jià)值的同時(shí),還細(xì)致地講解了移動(dòng)數(shù)據(jù)領(lǐng)域內(nèi)的多個(gè)前沿研究課題,對(duì)于想要深入了解這個(gè)領(lǐng)域的學(xué)者和工業(yè)從業(yè)人員是非常好的選擇。
|