主题：【原创】抛砖！模式识别和机器学习、数据挖掘的区别与联系 -- 永远的幻想

共:💬65 🌺337 新:

科技天地

全看分页树展 · 主题跟帖

复关于Prediction和Classification

家园

继续探讨

多谢回复这么长的帖子。。

先简短回一个，写多了资本家不乐意。：）

这么说吧，比如我给你一图片（X), 让您的视觉系统=M,你对我说,

"我predict这是一桌子（Y）." 这像话吗？

对人这个M来说，桌子就是桌子，是个识别问题，说成prediction

大概现在PR在识别方面还是不成熟，做不到~100%识别。所以要说用M-pr来预测，图X,大概有85%是桌子，12%是椅子，3% 其它。

你说的X, Y 都是输入，这个从trainning的操作上可以说没错，但是从PR概念上这样很容易混淆。尤其如果是对不太了解的人写的介绍性文字，尽量概念清楚些，你的读者看着也明白些，right?

首先，“输出数据”是不是“模式表达”？比如典型的分类问题：用N个样本（N个样本*p维Predictor 一个矩阵X，加N*1的-1/+1类标记y_target）训练了一个SVM、CART，Adaboost或者RandomForest模型或者模型族，称为M。这些模型M如你所说，是“模式表达”。对于数据挖掘问题，确实可以说这个是“输出数据”。

这些M们还真是第一次见。。我说的模式表达就是Y.

“别”倒底是不是“非预测”呢？这个我觉得我已经说清楚了啊，看来还得再说说

别=difference. 了别可以说是classification..

确实怪我说得不清楚。其实文中不想以Super/Unsuper来区分算法，除了这个原因，还有一个原因。

因为实际使用这些算法时，经常把这两种混起来用。比如可以先用PCA，对N*p维的X降维成N*q (q<p)，作为预处理，然后把N*q作为X和y_target输入到SVM之类的算法去；也可以用y_target(比如K个类)把X分成K组，然后每组训练一个GMM。

这样在应用者的角度看，其实是不去管算法是Super还是Unsuper的，或者在这上面走脑子意思不大，知道每种算法擅长干什么才是正经。

S or U-S,有个外界knoeledge 介入的问题。从理论研究上来说，比如同样两个人脸识别的系统,一个是S, 一个是 U-S。都能达到比较高的识别率。那么U-S的价值要高。为什么？因为这个U-S很可能是个普适的系统。

从这个角度来说，所有S,U-S混合的系统，都不能称为是 un-supervised 系统,而变成S了。

工科思维确实很偏重实用，不过我想概念清楚还是重要。所以和你探讨一下

全看分页树展 · 主题跟帖

相关回复上下关系8
压缩 2 层
- 🙂唯了别识。把识别一定要说成预测，这个很别扭啊 mitwisdom 字0 2010-07-21 18:23:20
- 🙂一点建议 1 mitwisdom 字378 2010-07-21 10:51:02
  - 🙂关于Prediction和Classification 3 永远的幻想字3159 2010-07-21 17:52:02
    🙂继续探讨
- 🙂精彩！得宝吱一声。 archerh 字0 2010-07-20 16:30:30
- 🙂讲得好，赞一个！晨枫字179 2010-07-20 14:01:53
- 🙂能介绍几本书么？我是一只小小号字30 2010-07-20 13:40:14
- 🙂外行说两句 erha 字77 2010-07-19 13:56:55

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明