第一部分:數(shù)據(jù)挖掘基礎知識(基礎,決定你的高度)
1、數(shù)據(jù)挖掘工具簡介
? EXCEL規(guī)劃求解(數(shù)據(jù)建模工具)
? SAS統(tǒng)計分析系統(tǒng)
? SPSS統(tǒng)計產品與服務解決方案(Modeler數(shù)據(jù)流處理)
2、數(shù)據(jù)挖掘概述
案例:宜家IKE如何通過數(shù)據(jù)挖掘來降低營銷成本提升利潤?
3、數(shù)據(jù)挖掘的標準流程(CRISP-DM)
? 商業(yè)理解
? 數(shù)據(jù)準備
? 數(shù)據(jù)理解
? 模型建立
? 模型評估
? 模型應用
案例:通信客戶流失分析及預警模型
4、數(shù)據(jù)建模示例
案例:客戶匹配度建模—找到你的準客戶
第二部分:數(shù)據(jù)理解與數(shù)據(jù)準備(Modeler實操)
1、數(shù)據(jù)挖掘處理的一般過程
? 數(shù)據(jù)源-->數(shù)據(jù)理解-->數(shù)據(jù)準備-->探索分析-->數(shù)據(jù)建模-->模型評估
2、數(shù)據(jù)讀入
? 讀入文本文件
? 讀入Excel電子表格
? 讀入SPSS格式文件
? 讀入數(shù)據(jù)庫數(shù)據(jù)
3、數(shù)據(jù)集成
? 變量合并(增加變量)
? 數(shù)據(jù)追加(添加記錄)
4、數(shù)據(jù)理解
? 取值范圍限定
? 重復數(shù)據(jù)處理
? 缺失值處理
? 無效值處理
? 離群點和極端值的修正
? 數(shù)據(jù)質量評估
5、數(shù)據(jù)準備:數(shù)據(jù)處理
? 數(shù)據(jù)篩選:數(shù)據(jù)抽樣/選擇(減少樣本數(shù)量)
? 數(shù)據(jù)精簡:數(shù)據(jù)分段/離散化(減少變量的取值)
? 數(shù)據(jù)平衡:正反樣本比例均衡
? 其它:排序、分類匯總
6、數(shù)據(jù)準備:變量處理
? 變量變換:原變量值更新
? 變量派生:生成新的變量
? 變量精簡:降維,減少變量個數(shù)
7、基本分析
? 單變量:數(shù)據(jù)基本描述分析
? 雙變量:相關性分析
? 變量精簡:特征選擇、因子分析
8、特征選擇
? 特征選擇方法:選擇重要變量,剔除不重要的變量
? 從變量本身考慮
? 從輸入變量與目標變量的相關性考慮
9、因子分析(主成分分析)
? 因子分析的原理
? 因子個數(shù)如何選擇
? 如何解讀因子含義
案例:提取影響電信客戶流失的主成分分析
第三部分:因素影響分析(特征重要性分析)
問題:如何判斷一個因素對另一個因素有影響?
比如營銷費用是否會影響銷售額?產品價格是否會影響銷量?產品的陳列位置是否會影響銷量?
1、常用特征重要性分析的方法
? 特征選擇(減少變量個數(shù)):相關分析、方差分析、卡方檢驗
? 因子分析(減少變量個數(shù)):主成分分析
? 確定變量個數(shù)參考表
2、相關分析(數(shù)值+數(shù)值,相關程度計算)
問題:這兩個屬性是否會相互影響?影響程度大嗎?
? 相關分析概述
? 相關系數(shù)計算公式
? 相關性假設檢驗
案例:通信基本費用與開通月數(shù)的相關分析
3、方差分析(分類+數(shù)值,影響因素分析)
問題:哪些才是影響銷量的關鍵因素?
? 方差分析原理
? 方差分析的步驟
? 方差分析適用場景
案例:開通月數(shù)對客戶流失的影響分析
4、列聯(lián)分析(分類+分類,影響因素分析)
? 列聯(lián)表的原理
? 卡方檢驗的步驟
? 列聯(lián)表分析的適用場景
案例:套餐類型對對客戶流失的影響分析
第四部分:分類預測模型分析
1、分類概述
? 分類的基本過程
? 常見分類預測模型
2、邏輯回歸分析模型
問題:如果評估用戶是否購買產品的概率?
? 邏輯回歸分析
? 邏輯回歸的原理
案例:客戶購買預測分析(二元邏輯回歸)
3、決策樹分類
問題:如何提取客戶流失者、拖欠貨款者的特征?如何預測其流失的概率?
? 決策樹分類的原理
? 決策樹的三個關鍵問題
? 決策樹算法
? 如何評估分類模型的性能(查準率、查全率)
案例:識別銀行欠貨風險,提取欠貨者的特征
案例:客戶流失預警與客戶挽留模型
4、神經網(wǎng)絡
? 神經網(wǎng)絡概述
? 神經元工作原理
? 神經網(wǎng)絡的建立步驟
? B-P反向傳播網(wǎng)絡(MLP)
? 徑向基函數(shù)網(wǎng)絡(RBF)
5、支持向量機
? SVM基本原理
? 維災難與核函數(shù)
6、樸素貝葉斯分類
? 條件概率
? 樸素貝葉斯
? TAN貝葉斯網(wǎng)絡
? 馬爾科夫毯網(wǎng)絡
第五部分:市場細分與客戶細分
1、客戶細分常用方法
2、聚類分析(Clustering)
問題:如何對市場進行細分?如何提取客戶特征,從而對產品進行市場定位?
? 聚類方法原理介紹
? 聚類方法適用場景
? 如何細分客戶群,并提取出客戶群的特征?
? K均值聚類(快速聚類)
? 兩步聚類
案例:移動三大品牌細分市場合適嗎?
演練:寶潔公司如何選擇新產品試銷區(qū)域?
3、RFM模型分析
? RFM模型,更深入了解你的客戶價值
? RFM模型與市場策略
? RFM模型與活躍度
案例:淘寶客戶價值評估與促銷名單
第六部分:關聯(lián)分析(Association)
問題:購買面包的人是否也會購買牛奶?他們同時購買哪些產品?
? 關聯(lián)規(guī)則原理介紹
? 關聯(lián)規(guī)則適用場景:交叉銷售、捆綁營銷、產品布局
案例:超市商品交叉銷售與布局優(yōu)化(關聯(lián)分析)
結束:課程總結與問題答疑。