一、
概述
1、 概念與術語(人工智能、數據挖掘、機器學習…)
2、 數據挖掘的對象
3、 數據挖掘的關鍵技術
4、 知識的表達
二、
數據預處理
1、 變量類型
2、 數據清理
3、 數據集成和變換
4、 數據倉庫與數據方(OLAP)
5、 規(guī)范化
6、 數據壓縮(DCT、小波變換)
三、
降維與維度歸約
1、 無標簽時:PCA
2、 有標簽時:Fisher線性判別(第一個“LDA”)
3、 知識的約簡
4、 決策表的約簡
5、 粗糙集
四、
回歸與時序分析
1、 線性回歸
2、 非線性回歸
3、 logistics回歸
4、 平穩(wěn)性、截尾與拖尾
5、 ARIMA
五、
決策樹
1、 分類和預測
2、 熵減過程與貪心法
3、 ID3
4、 C4.5
5、 其他改進方法
6、 決策樹剪枝
7、 歸納學習
六、
聚類
1、 監(jiān)督學習與無監(jiān)督學習
2、 K-means與k-medoids
3、 層次的方法
4、 基于密度的方法
5、 基于網格的方法
6、 孤立點分析
7、 案例:鳶尾花數據的聚類
七、
關聯規(guī)則與序列挖掘
1、 頻繁項集
2、 支持度與置信度
3、 Apriori性質
4、 連接與剪枝
5、 總有“啤酒與尿布”以外的案例吧?
6、 序列挖掘
八、
惰性學習
1、 迫切學習與惰性學習
2、 K-NN分類算法
3、 基于案例的推理
九、
機器學習中性能評價指標
1、 準確率;精確率、召回率;F1
2、 真陽性率、假陽性率
3、 混淆矩陣
4、 ROC與AUC
5、 對數損失
6、 Kappa系數
7、 回歸:平均絕對誤差、平均平方誤差
8、 聚類:蘭德指數、互信息
十、
樸素貝葉斯與貝葉斯網絡
1、 概率論基礎:條件概率、聯合概率、分布、共軛先驗。
2、 “概率派”與“貝葉斯派”
3、 樸素貝葉斯模型
4、 貝葉斯信念網絡
5、 應用案例介紹
十一、 極大似然估計與EM算法
1、 極大似然估計
2、 半監(jiān)督學習
3、 EM算法
4、 EM算法應用:貝葉斯線性回歸
十二、 支持向量機
1、 統(tǒng)計學習問題
2、 結構風險最小歸納原理
3、 支持向量機
4、 核函數
5、 多分類的支持向量機
6、 用于連續(xù)值預測的支持向量機
7、 小案例:“拆蚊香”
十三、 BP神經網絡
1、 人工神經元及感知機模型
2、 前向神經網絡
3、 sigmoid
4、 徑向基函數神經網絡
5、 誤差反向傳播
十四、 其他神經網絡
1、 hopfield網絡
2、 自組織特征映射神經網絡
3、 受限布爾茲曼機
4、 神經網絡的應用案例介紹
十五、 機器學習中的最優(yōu)化方法
1、 參數學習方法
2、 損失函數(或目標函數)
3、 梯度下降
4、 隨機梯度下降
5、 牛頓法
6、 擬牛頓法
7、 蠻力法也算嗎?
十六、 遺傳算法
1、 交叉、選擇、變異
2、 基本算法
3、 神經網絡與遺傳算法結合的案例:井字棋
十七、 隱馬爾科夫模型
1、 馬爾科夫過程
2、 隱馬爾科夫模型
3、 三個基本問題(評估、解碼、學習)
4、 前向-后向算法
5、 Viterbi算法
6、 Baum-Welch算法
十八、 條件隨機場
1、 最大熵理論
2、 無向圖模型與MRF
3、 CRF與MRF的關系
4、 最大團與勢函數
5、 CRF的三個問題(概率計算、參數學習、預測)
6、 CRF進行詞性標注的案例
十九、 文本挖掘
1、文本分析功能
2、文本特征的提取
4、文本分類
5、文本聚類
6、文本摘要
二十、 Monte-Carlo法
1、 扔飛鏢計算圓周率
2、 Monte-Carlo積分
3、 接受-拒絕采樣
4、 重要性采樣
5、 MCMC方法的基本思路
6、 Metropolis-Hastings算法
7、 Gibbs采樣
二十一、
從LSA到LDA
1、 LSA(潛在語義分析)
2、 pLSA
3、 第二個“LDA”(潛在狄利克雷分布)
二十二、
網頁排序與商品推薦
1、 page rank
2、 基于人口統(tǒng)計學的推薦
3、 基于內容的推薦
4、 協同過濾
5、 基于關聯規(guī)則推薦
6、 組合推薦
二十三、
組合的模型
1、 bagging
2、 co-training
3、 adaboost
4、 隨機森林
5、 GBDT
二十四、
強化學習
1、 MDPs中的agent的屬性
2、 exploration and exploitation
3、 Bellman期望方程
4、 最優(yōu)策略
5、 策略迭代與價值迭代
6、 Q學習算法
7、 DQN
二十五、
綜合案例
1、 如何教電腦玩“flappy
bird”
2、 待定