贵州建设厅网站备案人员查询,上海突发事件,网络游戏排行榜2022,外贸推广的几种方式以及效果排行关于机器学习的一些基本概念的整理1.前言1.机器学习是一门致力于研究如何通过计算的手段#xff0c;利用经验来改善系统自身的性能的学科。1997年Mitchell给出一个更形式化的定义#xff0c;假设用P来评估计算机程序在某任务类T上的性能#xff0c;若一个程序通过利用经验E在…关于机器学习的一些基本概念的整理1.前言1.机器学习是一门致力于研究如何通过计算的手段利用经验来改善系统自身的性能的学科。1997年Mitchell给出一个更形式化的定义假设用P来评估计算机程序在某任务类T上的性能若一个程序通过利用经验E在T中任务上获得了性能改善则我们就说关于T和P该程序对E进行了学习。机器学习所研究的主要内容是关于在计算机上从数据中产生“模型”的算法即学习算法(learning algorithm)。“数据”即是现实生活中的“经验”。关于产生的模型(model)可以泛指从数据中学得的结果。但也有不同说法。Hand在2001年发表的一篇文献中就提到模型是全局结果(例如一颗决策树)模式指的是局部性结果(例如一条规则)。2. 基本术语引例假设搜集到一些关于西瓜的数据(色泽 青绿根蒂 蜷缩敲声 浊响)(色泽 乌黑根蒂 稍蜷敲声 沉闷)(色泽 浅白根蒂 硬挺敲声 清脆)......上述引例中每对括号内是关于西瓜的(也可是任何一个事件或者对象的)一条记录则有数据集 (data set) 一组记录的集合示例/样本(instance/sample)上述都每一条记录均可称为示例/样本属性/特征(attribute/feature)反映事件或者对象在某方面的表现或者性质的事项。例如上述色泽根蒂敲声属性值(attribute value) 属性上的取值例如青绿乌黑等等特征向量(feature vector) 属性空间上每一个点相对原点构成的坐标向量样本维数(sample dimensionality) 每一个样本(示例)所包含的不同属性的数量学习/训练(learning/training) 从数据中学得模型的过程训练数据(training data) 训练过程中使用的数据训练样本(training sample) 训练数据中的样本训练集(training set) 训练样本的集合假设(hypothesis) 值得是学得模型。因为这个模型对应了关于数据的某种潜在规律真相/真实(ground-truth) 潜在规律本身标记(label) 训练样本的结果信息样例(example) 拥有了标记信息的示例。一般的用((x_i,y_i))来表示第i个样例。其中(y_i)是示例(x_i)的标记标记空间/输出集合(label space) 所有标记的集合属性空间/样本空间/输入空间(attribute/sample space) 属性张成的空间。例如如果把色泽根蒂敲声作为三个坐标轴则他们张成一个用于描述西瓜的三维空间每个西瓜都可以找到自己的位置。分类(classification) 在关于利用训练集学得的预测模型中预测值是离散值。这样的学习任务称为分类回归(regression) 与分类相似只是预测值是连续值({color{red} 补充一句(预测的任务是希望通过对训练集{(x_1,y_1),(x_2,y_2),...}进行学习建立一个从输入空间到输出空间的映射关系)})二分类任务(binary classification) 预测结果只有两个类别。通常将其中的一个称为正类(positive class)另一个称为反类(negative class)。而涉及多个类别则称为多分类(multi-class)任务测试(testing) 学得模型以后使用其进行预测的过程测试样本(testing sample) 被预测的样本例如在学得(mathit{f}) 以后对测试例(x_i) 可得到其预测标记(yf(x_i))聚类(clustering) 将训练集中的示例分成若干组每组称为一个簇(cluster)。这些自动形成的簇可能对应一些潜在的概念划分例如本例中的西瓜可以分成浅色瓜深色瓜...在聚类学习中这些浅色瓜深色瓜的概念事先是不知道的而且学习过程中使用的训练样本通常也没有标记信息学习任务大致可以划分成两类(1)监督学习(supervised learning):训练数据带有标记例如分类与分归(2)无监督学习(unsupervised learning):训练数据不带有标记例如聚类泛化能力 学得模型适用于新样本的能力(目前机器学习仍然假设样本空间的全体样本满足独立同分布假设因此经典概率论得以适用)3.假设空间前言归纳(induction)和假设(deduction)是科学推理的两大基本手段。前者是从特殊到一般的泛化(generalization)即从具体的事实归结出一般性规律后者则是从一般到特殊的特化(specialization)过程即从基础原理推演出具体状况。 在机器学习中“从样例中学习”显然是一个归纳过程。因此又被称为归纳学习(inductive learning)广义的归纳学习相当于从样例中学习狭义的归纳学习从训练数据中学得概念(concept)。因此也称为“概念学习”或者“概念形成” .概念学习中最基本的是布尔概念学习即是或者不是的结果表述假设空间(hypothesis space) 所有假设组成的空间我们可以将学习的过程看作一个在所有假设组成的空间中进行搜索的过程搜索目标是找到与训练集匹配的假设即能够将训练集中的样本判断正确的假设假设的表示一旦确定假设空间及其规模大小就确定了。可以有许多策略对假设空间进行搜索搜索过程中可以不断删除与正例不一致的假设或者与反例一致的假设。最终将会获得与训练集一致的假设就这是学得的结果。版本空间(version space)现实生活中我们常常面临很大的假设空间但是学习的过程是基于有限的样本训练集进行的因此可能有多个假设与训练集一致即存在一个与训练集一致的假设集合这个假设集合就是版本空间4.归纳偏好归纳偏好(inductive bias)机器学习算法在学习过程中对某种类型假设的偏好。偏好要起作用是发生在形成版本空间的时候。而学习算法又必须产生一个模型。这样偏好会起作用({color{red}任何一个有效的机器学习算法都必有其偏好否则它将被假设空间中看似在训练集上等效的假设所迷惑而无法产生正确的学习结果}) 对于归纳偏好的看法: 归纳偏好可以看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或价值观。有一个一般性的原则来引导算法确立正确的偏好即奥卡姆剃刀(Occams razor)若有多个假设与观察一致则选择最简单的那个。({color{red}然而奥卡姆原则并非唯一可用原则})事实上归纳偏好对应了学习算法本身所做出的关于什么样的模型更好的假设。在具体的现实问题中这个假设是否成立即算法的归纳偏好是否与问题本身匹配大多数时候直接决定了算法能否取得好的性能。假设学习算法(zeta_a) 是基于某种归纳偏好产生的模型学习算法(zeta_b)是基于另一种归纳偏好产生的模型。对于学习算法(zeta_a)若它在某些问题上比学习算法(zeta_b)好则必然存在一个问题(zeta_a)比(zeta_b)好在哪里根据NFL定理无论两种算法怎样产生两者出错概论的期望是相同的(但是NFL定理前提是所有问题出现的机会相同或者所有问题同等重要但是实际情形我们只需要关注我们目前试图解决的问题即可因此(zeta_a)与$ zeta_b$ 还是有区别的。NFL定理其实是想说明脱离具体问题讨论学习算法好坏是无意义的。学习算法自身的归纳偏好与问题是否匹配往往起到决定性作用。)