《模式识别》期末考试考题汇总带答案(张敏灵)_模式识别期末-程序员宅基地

技术标签: 机器学习  机器学习算法  sklearn  模式识别(东南大学张敏灵老师)  概率论  

一、名词解释

样本(sample):所研究对象的一个个体。

样本集(sample set):若干样本的集合。

类或类别(class):在所有样本上定义的一个子集,处于同一类的样本在我们所关心的某种性质上是不可区分的,即具有相同的模式。

特征(features):指用于表征样本的观测。

已知样本(known samples):指事先知道类别标号的样本。

未知样本(unknown samples):指类别标号未知但特征已知的样本。

模式识别(pattern recognition):就是用计算的方法根据样本的特征将样本划分到一定的类别中去。

统计模式识别:用概率统计的观点和方法来解决模式识别问题。

贝叶斯决策(统计决策理论):是统计模式识别的基本方法和基础;是“最优分类器”:使平均错误率最小。

最小风险贝叶斯决策:最小错误率只考虑了错误,进一步可考虑不同错误所带来的损失(代价)。

Neyman-Pearson 决策规则:限定一类错误率为常数而使另一类错误率最小的决策。

参数估计(parametric estimation):已知概率密度函数的形式,只是其中几个参数未知,目标是根据样本估计这些参数的值。

非参数估计:在一些情况下我们无法实现判断数据的分布情况。

统计量(statistics):样本的某种函数,用来作为对某参数的估计 。

参数空间(parametric space):待估计参数的取值空间 。

估计量(estimation):

 贝叶斯估计:思路与贝叶斯决策类似,只是离散的决策状态变成了连续的估计。

最优超平面:一个超平面,如果它能够将训练样本没有错误地分开,并且两类训练样本中离超平面最近的样本与超平面之间的距离是最大的,则我们把这个超平面称作最优分类超平面(Optimal Seperating Hyperplane),简称最优超平面(Optimal Hyperplane)。两类样本中离分类面最近的样本到分类面的距离称作分类间隔(margin),最优超平面也称作最大间隔超平面。

特征形成(特征获取、提取):直接观测到的或经过初步运算的特征——原始特征 。

特征选择 :从m个特征中选择 m1个,m1<m(人为选择、算法选择) 。

特征提取(特征变换,特征压缩):将m个特征变为m2个新特征——二次特征。

特征的评价准则:特征选择与提取的任务是找出一组对分类最好的特征。

二、填空题 

1、解决模式识别的方法可以归纳为基于知识的方法基于数据的方法两大类。

2、一个模式识别问题往往包括以下五个阶段:问题的提出和定义、数据获取和预处理、特征提取和选择、分类器设计和性能评估、分类及结果解释

3、模式识别应用举例:语音识别、说话人识别、字符与文字识别、复杂图像中特定目标的识别、根据地震勘探数据对地下储层性质的识别、利用基因表达数据进行癌症分类。

4、统计决策基本原理:根据各类特征的概率模型来估算后验概率,通过比较后验概率进行决策

5、第一类错误率(Type-I error rate)= 假阳性率 = 假阳性样本数 / 总阴性样本数
      第二类错误率(Type-II error rate)= 假阴性率 = 假阴性样本数 / 总阳性样本数

 6、ROC曲线(ROC Curve)纵坐标:真阳性率(灵敏度);横坐标:假阳性率(1-特异度)。

7、估计概率密度的两种基本方法:参数方法 (parametric methods)和非参数方法 (nonparametric methods)。

8、贝叶斯估计基本思想:把待估计参数 看作具有先验分布的随机变量,其取值与样本集有关,根据样本集 

 9、从基于概率密度(估计)的分类器设计到基于样本的直接分类器设计思路: 首先选定判别函数类一定的目标(准则),利用样本集确定出函数类中的某些未知参数,使所选的准则最好。

10、基于样本直接设计分类器需要确定三个基本要素:一是分类器即判别函数的类型二是分类器设计的目标或准则、三是在前两个要素明确后如何设计算法利用样本数据搜索到最优的函数参数(即选择函数集中的函数)。

11、非线性分类器包括分段线性分类器、二次判别函数、神经网络和支持向量机等

12、线性分类器包括Fisher线性判别器、感知器、最小平方误差判别器、最优分类超平面、线性支持向量机。

13、主成分分析目的:出发点是从一组特征中计算出一组按重要性从大到小排列的新特征,它们是原有特征的线性组合,并且相互之间是不相关的

三、简答题

1、简述模式识别系统的典型构成。

有已知样本情况:监督模式识别(supervised PR) :已知要划分的类别,并且能够获得一定数量的类别已知的训练样本, 这种情况下建立分类器的问题属于监督学习问题,程总做监督模式识别,

因为我们有训练样本来作为学习过程的"导师"。

处理监督模式识别问题的一般步骤:
· 分析问题:深入研究应用领域的问题,分析是否属于模式识别问题,把所研究的目标表示为一定的类别,分析给定数据或者可以观测的数据中哪些因素可能与分类有关。
· 原始特征获取:设计实验,得到已知样本,对样本实施观测和预处理,获取可能与样本分类有关的观测向量(原始特征)。
· 特征提取与选择:为了更好地进行分类,可能需要采用一定的算法对特征进行再次提取和选择。
· 分类器设计:选定一定的分类器方法,用已知样本进行分类器训练。
· 分类决策:利用一定的算法对分类器性能进行评价;对未知样本实施同样的观测、预处理和特征提取与选择,用所设计的分类器进行分类,必要时根据领域知识进行进一步的后处理。

无已知样本情况:非监督模式识别(unsupervised PR):非监督模式识别称作聚类,在很多非监督模式识别问题中,答案并不一定是唯一的,特点是由于没有类别已知的训练样本,在没有其他额外信息的情况下,采用不同的方法和不同的假定可能会导致不同的结果。

 处理非监督模式识别问题的一般步骤:
· 分析问题:深入研究应用领域的问题,分析研究目标能否通过寻找适当的聚类来达到;如果可能,猜测可能的或希望的类别数目;分析给定数据或者可以观测的数据中哪些因素可能与聚类有关。
· 原始特征获取:设计实验,得到待分析的样本,对样本实施观测和预处理,获取可能与样本聚类有关的观测向量(原始特征)。
· 特征提取与选择:为了更好地进行聚类,可能需要采用一定的算法对特征进行再次提取和选择。
· 聚类分析:选定一定的非监督模式识别方法,用样本进行聚类分析。
· 结果解释:考察聚类结果的性能,分析所得聚类与研究目标之间的关系,根据领域知识分析结果的合理性,对聚类的含义给出解释;如果有新样本,把聚类结果用于新样本分类。

2、简述最大似然函数的假设条件和基本思想

假设条件:
① 参数是确定的未知量,(不是随机量)
② 各类样本集  中的样本都是从密度为 的总体中独立抽取出来的,(独立同分布,
③ 具有某种确定的函数形式,只其参数 未知
④ 各类样本只包含本类分布的信息
其中,参数  通常是向量,比如一维正态分布 ,未知参数可能是 此时  可写成  
基本思想:如果在参数下 最大,则 应是“最可能”的参数值,它是样本集的函数,记作 。称作最大似然估计量
为了便于分析,还可以定义对数似然函数 。 

3、简述求贝叶斯估计的方法(平方误差损失下)

(1)确定  的先验分布 
(2)求样本集的联合分布 
(3)求 的后验概率分布 
(4)求  的贝叶斯估计量 

4、简述概率密度估计的非参数方法

①直方图方法 
   非参数概率密度估计的最简单方法
(1)把x 的每个分量分成 k个等间隔小窗,
(2)统计落入各个小舱内的样本数 
(3)相应小舱的概率密度为 ( N:样本总数,V:小舱体积)
②  - 近邻估计


 通过控制小区域内的样本数  来确定小区域大小。
窗法


(1)超立方体窗(方窗) (2)正态窗(高斯窗)(3)超球窗

 5、简述Fisher 准则函数

把线性分类器的设计分为两步:一是确定最优的方向, 二是在这个方向,上确定分类阈值。
两类的线性判别问题可以看做是把所有样本都投影到一一个方向上,然后在这个一维空间中确定一个分类的阈值。过这个阈值点且与投影方向垂直的超平面就是两类的分类面。
思想:选择投影方向,使投影后两类相隔尽可能远,而同时每一-类内部的样本又尽可能聚集。
Flsher判别函数最优解本身只是给出了-一个投影方向, 并没有给出我们所要的分类面。要得到分类面,需要在投影后的方向(一维空间)上确定一个分类阈值, 并采取决策规则
当样本是正态分布且两类协方差矩阵相同时,最优贝叶斯分类器是线性函数
当样本为正态分布且两类协方差相同的情况下,如果把算数平均作为均值的估计,把样本协方差矩阵当做是真实协方差矩阵的估计,则Fisher线性判别所得的方向实际就是最优贝叶斯决策的方向。

 


6、简述固定增量法

(1)初值  任意
(2)对样本 ,若 
(3)对所有样本重复(2),直至 

7、简述特征的评价准则

①基于类内类间距离的可分性判据
    特点:
    直观,易于实现(用样本计算),较常用。
    不能确切表明各类分布重叠情况,与错误率无直接联系。
    当各类协差相差不大时,用此种判据较好。
②基于概率分布的可分性判据
    考查两类分布密度之间的交叠程度
    考查联合分布密度 
    如 x与wi独立,
    则 x 不能提供对分类 wi 的信息
    因此可定义 之间关系的一个函数作为判据:称作概率相关性判据。
③基于熵的可分性判据
    熵:事件不确定性的度量 。A 事件的不确定性大(熵大),则对 A 事件的观察所提供的信息量大。
    思路:把各类wi 看作一系列事件
               
④用统计检验作为可分性判据
    选择在两类间有显著差异的特征。
    基本做法:
    把两类样本混合在一起,按所考查的特征从小到大排序 ;
    如果一类样本排序序号之和(秩和)显著地比另一类样本小(或大),则两类样本在所考查的特征上有显著差异。

8、简述分支定界算法

从顶向下,有回溯
应用条件:准则函数有单调性

基本思想:按照一定的顺序将所有可能的组合排成一棵树,沿树进行搜索,避免一些不必要的计算,使找到最优解的机会最早。
特点: ① 最优搜索算法,所有可能的组合都被考虑到
            ② 前提:准则函数单调性 (注:实际中可能不满足,因 是估计值)
            ③ 节约计算与存储
            ④  时最经济
算法要点:根结点为第 0 级,包含全体特征
                  每个结点上舍弃一个特征,各个叶结点代表选择的各种组合
                  避免在整个树中出现相同组合的树枝和叶结点
                  记录当前搜索到的叶结点的最大准则函数值(界限 B),初值置 0
                  每级中将最不可能被舍弃(即舍弃后值最小)的特征放在最左侧
                  从右侧开始搜索
                  从左侧同级中将舍弃的特征不在本结点以下各级中舍弃
                  搜索到叶结点后,更新 B 值,然后回溯到上一分支处
                  如果结点上,则不向下搜索,向上回溯
                  每次回溯将已舍弃的特征放回(放回待舍弃之列)
                  如已回溯到顶(根)而不能再向下搜索,则的叶结点即为解。

四、计算题

 

 

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/wangjian530/article/details/120841208

智能推荐

重新添加引用_怎么重新添加文件引用-程序员宅基地

文章浏览阅读543次。控件不能加载的时候,可以暂把工程组的只读属性去掉,重新添加部件引用。然后重新从VSSget Last Version(是否除工程文件可根据需要自己尝试*_*!)_怎么重新添加文件引用

[Codeforces #297(Div 2)]简要题解_code29724-程序员宅基地

文章浏览阅读545次。A. Vitaliy and Pie(525A)题目大意给你nn道门,在开第nn道门前必须开第n−1n-1道门,或者换句话说就是所有门必须按照1、2、3......n1、2、3......n这样的顺序依次打开,门与门之间都藏有一个钥匙,第一个门之前也有一把钥匙,每个钥匙和一类门一一对应,小写的是钥匙,大写的是门,不分大小写字母相同的话这个钥匙就和这个门对应起来了。一把钥匙开完一扇门之后就会报废,也可_code29724

AndroidStudio NDK开发最佳入门实践_androidstudio ndk 入门-程序员宅基地

文章浏览阅读574次。AndroidStudio NDK开发最佳入门实践网上一些介绍AndroidStudio NDK入门的教程,感觉都不是很完整和全面,也没有告诉初学AndroidStudio NDK的同学们一些需要注意的地方。网上的方法大多需要使用javah命令,使用本文的方法将不再使用该命令了,是不是方便了很多。 本文所介绍的是在AndroidStudio上搭建最佳的NDK开发环境,给使用NDK的开发人员最大的方_androidstudio ndk 入门

谷歌浏览器怎么下载视频 Google Chrome下载视频方法_外国谷歌视频下载-程序员宅基地

文章浏览阅读7.1k次。核心提示:现在我来教大家谷歌浏览器怎么下载视频 Google Chrome下载视频方法。谷歌浏览器怎么下载视频 Google Chrome下载视频方法 我们经常会在线看一些网页视频,但是网站的视频下载都只支持自己的客户端,如果每家网站的客户端都安装的话那是一件很麻烦的事情,现在我来教大家谷歌浏览器怎么下载视频 Google Chrome下载视频方法。【Google Chrome下载视频方法】启动chrome浏览器,进行谷歌应用商店,如图在左侧的搜索框中搜索Adkill and Media Dow_外国谷歌视频下载

霹雳猿教程网站正式上线-程序员宅基地

文章浏览阅读150次。经过几个月的努力,我的新站终于上线了 网站主要使用ASP.net core开发,前台页面很简单,后台的功能稍微复杂一点。这个网站到时候主要发布一些IT学习教程供别人学习,主要包括HTML,JavaScript,JavaEE,ASP.NET等方面的教程,敬请各位关注,谢谢! 网站里面的数据会在后面的日子里持续更新!猿教程_-CSharp教程-C#简介猿教程_-CSha..._霹雳猿

Python3 网络编程(使用Socket实现TCP、UDP通信)_python3利用socket实现通信-程序员宅基地

文章浏览阅读334次。TCP通信TCP_服务端 1 import socket as s 2 3 tcp = s.socket(s.AF_INET,s.SOCK_STREAM) 4 tcp.bind(('127.0.0.1', 6666)) 5 tcp.listen(5) 6 while True: 7 # 建立客户端连接 8 clientsocket,addr = tcp.accept() 9 print("连接地址: %s" % str(addr))10 m_python3利用socket实现通信

随便推点

Web开发基础_JQuery学习_0002_jQuery对象-程序员宅基地

文章浏览阅读173次。jQuery对象的介绍:案例思路:案例演示:需要引用 jquery-1.11.1.js&lt;!DOCTYPE html&gt;&lt;html&gt;&lt;head&gt;&lt;meta charset="UTF-8"&gt;&lt;title&gt;jQuery对象&lt;/title&gt;&lt;script src="../js/

JUC源码解析(1)---- ThreadPoolExecutor 实现原理、submit()实现_threadpoolselectcallrate.submit( 实现-程序员宅基地

文章浏览阅读443次。通过ExecutorService.submit()方法提交的任务,可以获取任务执行完的返回值。在实际业务场景中,Future和Callable基本是成对出现的,Callable负责产生结果,Future负责获取结果。1、Callable接口类似于Runnable,只是Runnable没有返回值。2、Callable任务除了返回正常结果之外,如果发生异常,该异常也会被返回,即Future可..._threadpoolselectcallrate.submit( 实现

Java 访问权限控制:public、private、protected-程序员宅基地

文章浏览阅读5.8k次,点赞9次,收藏20次。本篇文章主要介绍 Java 的访问权限控制。

CentOS 7下安装 Dubbo Admin管理控制台_centos7安装dubbo-admin-程序员宅基地

文章浏览阅读1.6k次。安装tomcat,这里版本大家随意,只需要拷贝(这里我是官网下载的apache-tomcat-8.5.29)拷贝进 usr/local 然后解压tar -zxvf apache-tomcat-8.5.29.tar.gz然后重点来了,进入apache-tomcat-8.5.29/webapps,里面有一个ROOT目录,进入,然后删掉里面全部文件然后将(dubbo-admin-..._centos7安装dubbo-admin

Maven pom_pom 讯飞sdk-程序员宅基地

文章浏览阅读1.6k次。4.0.0 t t 1.0 war t /Library/Java/JavaVirtualMachines/jdk1.8.0_65.jdk/Contents/Home 4.0.8.RELEASE 3.2 5.1.1.Final 3.2.8 1.2.2 1.0.11 2.6.9 2.0.4 1.2.1 2.4.2 5.1_pom 讯飞sdk

关于阿里妈妈严禁恶意套取平台补贴通知的解读,如果不懂规则,小心54分_怎么可以套平台补贴-程序员宅基地

文章浏览阅读3.2k次。前几天淘宝联盟官方发布了一则公告:【公告】阿里妈妈严禁恶意套取平台补贴通知内容截图如下:联盟公告内容相对来说,比较模糊,为了维护xxx,严禁xxx,如果违规xxx,将处理xxx,都是很套话的模板,不懂行的人可能听得云里雾里,今天,霍常亮带着大家解读一下这则公告。首先,我们需要了解什么是平台补贴,举几个简单的例子:1、淘宝签到红包2、淘宝特价版定向补贴淘宝签到红包淘宝签到红包的玩法很普遍,去年我还特意写过一个文章,《淘宝签到红包商品直达链接,如何转化为自己的链接?》简单的说,淘宝签到红包就_怎么可以套平台补贴

推荐文章

热门文章

相关标签