北京理工大学计算机学院人工智能笔记
Introduction
- Computational Swarm Intelligence 群体智能
- 蚁群算法
- Nouvelle AI 行为智能
学习-变化
监督学习
非监督学习
强化学习
半监督学习*
机器学习
- What Why How machines learn
- Defining the Learning Task
机器学习、人工神经网络(连接主义)、符号智能、行为智能
怎么防止过拟合呢?应该用cross validation,交叉比对。
解释起来就是,你在你表妹那儿学到的东西,在你表姐那儿测试一下对不对。在你表姐那儿学到的,在你二姐那测试一下。来来回回用不同的测试对象和训练对象做交叉比对。这样学到规律就不会过拟合啦~
评论里有小伙伴提到加Regularization可以解决overfit,这里也形象地说一下。还是在学习追妹子。但是我也有男人的尊严! 有底线!不能妹子说啥就是啥!今天我的底线是,不能无限量增加要学的规矩的数量!女人不能惯着! 所以可以引入Lasso,对规矩的数量进行一个penalize。通俗说就是,妹子你让我学三条规矩我就忍了,让我学一百条规矩大爷就不干了。这个Regularization可以有不同的形式,Lasso是一种。所以可以通过引入Regularization增加信息,帮助寻找到最优解。
人工智能
机器学习
概论
2.1 method
- induction
- analogy
- deduction
2.2 type
- supervised learning(学校时期)
- 输入输出的明确对应关系
- 标注数据 positive/negative sample
- function/estimate/fitting/regression
- unsupervised learning(工作时期)
- 发现输入数据的分布规律或不同组成成分之间规律性的相互联系
- 结果表示形式
- 统计分布:数据拟合概率密度函数
- 数据分组:按相似程度分不同组,然后提取组的统计量
- 如何定义数据/数据集之间的相似性
- 如何执行分组计算
- 符号表示 概念/规则
- semi-supervise learing
- 少量标注数据/大量未标注数据
- 目的:==确定未标注数据的期望输出,将其转变为标注数据==
- 具体途径
- 生成模型方法:获得与输入数据拟合的统计分布,有限混合模型(高斯混合模型)
- 自学习self-training:根据可靠度逐渐增加标注数据改善执行机构,再利用改善的执行机构对未标注数据标注,交替迭代进行
- 合作学习co-training:标注数据分未来感部分,分别训练一个不同的执行机构,利用一个执行机构为另一个执行机构从未标注数据中提取数据进行标注,从而增加另一个执行机构的训练数据并再学习
- 基于数据相似度:将标注数据上的标注结果香味标注数据扩散。常用图表示输入,采用最小个min cuts或随机游走random walks确定未标注数据的标注结果
- reinforcement learning(幼儿时期)
- 给出对于输出结果正确与否的评价
2.3 优化问题
- 如何定义学习目标:
- 监督学习 实际输出与期望输出间误差最小化
- 非监督聚类 数据到聚类中心距离最小化
- 强化学习 希望累计收益最大化
- 如何执行优化计算:搜索/最优化问题
2.4其他学习概念
- 生成学习generative 和判别学习discriminative
- 度量学习
- 在线学习/递增学习
- 反馈学习
- 多任务学习
- 深度学习
- 迁移学习
- 流形学习
- 多示例学习
2.5 对学习算法的评价
过学习与泛化
- 过学习Overfitting 对经验数据之外的数据性能下降
- 执行机构不是越复杂越好,复杂会使其局限于训练数据
- ==奥坎姆剃刀处理原则–提高经验数据处理精度,降低执行机构的复杂度 “如无必要,勿增实体”==
偏置bias
- 选择有偏算法多于无偏算法(没意义)
- 计算量小
- 泛化能力强
- 绝对偏置:结果被限制在某个特定范围
- 相对偏置:部分学习结果相对其他结果有优先权
- 有些偏置在设计学习算法时明确给出,比如函数类型、统计分布形式
- 绝对偏置:结果被限制在某个特定范围
- 分析方法
- 分多个数据集,比较各自学习结果的均质和方差
- 偏差大,绝对偏置不恰当
- 方差小,偏置强,好
- 分多个数据集,比较各自学习结果的均质和方差
- 选择有偏算法多于无偏算法(没意义)
数据鲁棒性robustness
- 训练数据的规模
- 训练数据的变化:来自同一问题的不同数据,算法保证学习结果一致
- 数据噪声
- 数据不平衡:重复采样、减少采样、忽视数据量的数据类型
计算复杂性 computatin complexity)
- 程序,时间和空间复杂度
- 多项式级算法-满足的算法
- 指数级算法
- 可伸缩性
- 收敛性和收敛速率
- 局部最优 local optimization
- 程序,时间和空间复杂度
透明性(可解释性)-外部人员能否理解
监督学习
- 函数形式
- 数据点形式
- 离散函数形式
- 连续函数形式
- 随机函数形式
- 学习方法案例
- 记忆学习
- 决策树学习
- 支持向量机
- 贝叶斯学习
3.1 函数形式
显式表示形式
基函数 basis function加权求和表达目标函数
$y=\sum^k_{i=1}k_iB_i(x)$
隐式表示形式
- 图结构
- 决策树3.4
- 贝叶斯信念网3.8
- 神经网络10.1
- 图结构
数据点表示形式
- 模式识别 最近邻 k-近邻:对于未见数据,根据其到类别样例的距离来进行分类
3.2 优化目标
优化目标/准则 optimization objective/criterion,神经网络中成为损失loss
经验风险最小化
最小平方误差
最小化熵
信息熵 entropy $H(c)=\sum^k_{k=1}-P(c_k)\log P(C_k)$
- 值愈小愈确定
- 实质是$-log P(C_k)$的均值
交叉熵
$CE=-(\sum^N_{i=1}\sum^K_{k=1}P^k_d(x_i)+(1-P^k_d(x_i))\log (a-P^k_y(x_i)))$
互信息
conditional entropy
- optimization algorithm
3.3 记忆学习 rote learning
- 存储结构
- 环境稳定性
- 记忆与计算的平衡
3.4 决策树学习
生成决策树–自顶向下 贪婪
- ID3
- overfitting
- 提前停止pre-pruning
- 提前限定树的深度
- 估计树的继续生长对性能影响
- threshold阈值
- statistical test
- 剪枝
- post pruning 决策树完全生成以后
- 剪原始树
- 将树转换为规则集
- post pruning 决策树完全生成以后
- 提前停止pre-pruning
- overfitting
3.6 贝叶斯
贝叶斯法则 取最有个能的结果
朴素贝叶斯
BBN
- 梯度上升法
3.7 聚类分析
- 连续数据的相似性
- 划分聚类
- 层次聚类