课程大纲
第一部分、数据分析探索与应用流程
1、商业数据分析
数据挖掘Road Maps
R、python简单介绍
2、数据探索
数据预处理
构建新的变量
异常值处理
数据可视化
3、数据分析应用流程
第二部分、经典预测和分类方法
1、回归分析
相关性
线性回归与拟合
最小二乘法的几何解释
线性回归中的变量选择
回归算法的评估与选择
2、KNN 分类器
确定相邻的样本数据
分类规则
参数K的选择
算法优缺点
案例分析:如何选择相似用户?
3、辑回归
逻辑回归模型
分类算法的评估
案例分析:用户借贷能力判定
4、决策树
迭代分割
纯度的计算
决策树的使用效果
如何避免过拟合
剪枝与终止条件
案例分析:如何利用决策树的提取出业务规则?
5、(补充)树模型应用——随机森林
案例分析:如何帮助业务方筛选出重要的业务变量?
第三部分、经典聚类算法
1、聚类问题介绍
2、两条数据之间的距离
欧式距离
数值型数据处理与距离函数
类别型数据的距离计算
混合类型数据的距离计算
3、两个类别之间的距离
最大距离、最小聚类、中心距离
4、K-means
如何选择参数K
5、层次聚类
案例分析:如何选择相似用户?
第四部分、异常检测与反欺诈
6、异常值检测
异常团体识别
案例分析:无监督反欺诈方案应用
业务思考:如何构建一个反欺诈系统?
第五部分、时间序列预测
1、时间序列回归模型
预测变量筛选
回归预测
非线性回归
相关、因果和预测
2、时间序列分解
时间序列成分
移动平均
经典时间序列分解
STL分解法
趋势性、季节性判定
业务思考:如何对时间序列进行聚类?
分解法预测
时间序列类异常值检测
业务思考:如何评估促销活动效果?
3、ARIMA模型
平稳性和差分
延迟算子
自回归与移动平均
非季节性arima
参数估计与选择
季节性arima
4、高级预测方法
复杂的季节性
向量自回归
神经网络
5、实际预测问题
周数据、天粒度数据以及小时数据预测
预测组合
长序列与短序列预测
训练集与测试集
缺失值与异常值
案例分享:共享单车Daily天粒度需求预测
第六部分、决策优化
1、开源决策优化工具介绍 google or-tools
运筹优化方法介绍
优化算法应用流程
2、案例分享(可选)
电商促销优惠券发放优化:给定用户补贴的预算,如何选择合适的补贴用户。
工厂布局优化:考虑如何减少物料搬运成本(运量和距离)。
仓库选址问题:如何选择服务点,满足服务能力和降低运输成本。
物流配送、车辆路径调度:配送问题综合建模与分析。
收费标准
听课费用:4200元/人(含培训费、资料费、午餐、税费等)