第一部分:機器學習基礎
1、機器學習簡介
2、機器學習的種類
監督學習/無監督學習/半監督學習/強化學習
批量學習和在線學習
基于實例與基于模型
3、機器學習的主要戰挑
數據量不足
數據質量差
無關特征
過擬合/擬合不足
4、機器學習任務
監督:分類、回歸
無監督:聚類、降維、關聯規則
5、機器學習基本過程
6、模型評估指標
回歸:R^2, MAE/MSE/RMSE/MAPE
分類:Acc,Recall,Precision,F1,ROC曲線,AUC
7、模型評估方法
訓練集/驗證集
交叉驗證
8、過擬合評估
過擬合檢驗
過擬合解決方法:正則化
正則化:
L1正則項
L2正則項
9、模型參數優化
交叉驗證
網格搜索GridSearchCV
隨機搜索RandomizeSearchCV
10、機器學習常用庫
第二部分:回歸任務算法
1、線性回歸模型
一元線性回歸
多元線性回歸
2、線性回歸算法
損失函數
普通最小二乘法OLS
3、欠擬合解決方法
多項式回歸
4、過擬合的優化算法:正則化
嶺回歸(Ridge)
套索回歸Lasso
ElasticNet回歸
各種算法的適用場景
5、超參優化
6、大規模數據集回歸:迭代算法
隨機梯度下降
批量梯度下降
小批量梯度下降
7、梯度算法的關鍵問題
第三部分:邏輯回歸
1、邏輯回歸模型
2、邏輯回歸的算法
原理
數學推導
3、正則項處理
4、其它優化:
迭代樣本的隨機選擇
變化的學習率
5、求解算法與懲罰項的關系
6、多分類處理
ovo
ovr
第四部分:線性判別分析
1、判別分析簡介
基本思想
2、判別分析算法
數學推導
類間/類內散度矩陣
3、多分類處理
迭代樣本的隨機選擇
變化的學習率
4、求解算法與懲罰項的關系
第五部分:支持向量機
1、支持向量機簡介
作用:回歸、分類、異常檢測
適用場景
2、線性SVM分類
基本原理
支持向量
SMO算法
3、非線性SVM分類
4、常用核函數
線性核函數
多項式核
高斯RBF核
核函數的選擇原則
5、線性不可分處理:松弛系數
第六部分:決策樹
1、決策樹模型
2、構建決策樹的三個關鍵問題
3、決策樹的訓練
4、決策樹的可視化
5、決策樹常用算法
ID5
CART
6、正則化參數
7、決策樹預測的基本步驟
第七部分:神經網絡
1、神經網絡模型
工作原理:加法器、激活函數
適用場景
2、神經網絡的建立步驟
3、BP算法實現
4、多層感知器MLP
隱藏層的數量
神經元的個數
第八部分:樸素貝葉斯
1、貝葉斯簡介
條件概率
常見貝葉斯網絡
2、樸素貝葉斯
算法實現
連續變量處理:高斯分布
3、拉普拉斯修正
第九部分:集成算法
1、分類模型優化思想
2、優化框架
Bagging
Boosting
3、Bagging集成
原理
隨機森林
4、Boosting集成
原理
AdaBoost
第十部分:無監督算法
結束:課程總結與問題答疑。