主题：【原创】抛砖！模式识别和机器学习、数据挖掘的区别与联系 -- 永远的幻想

共:💬65 🌺337 新:

谬奖了，来西西河发言就是准备收砖盖房的

弱分类器集成的思想一直很流行，现在有很多类adaboost的算法。

抛开这类思路的方法不提，其他的检测方法，一时还真举不出文章来，毕竟不是做人脸的。但是好像依稀见过有先检测器官（比如眼睛、嘴），然后根据肤色什么的圈个脸的范围的（随机游动找边界，或者直接估计个椭圆，方块的）

嗯，你说的这种场合当然是99后面再挂多少个9都不嫌多。但是FBI和条子是有强制力保证采集对象配合进行数据采集的（老实给我按手印），也不在乎采集时间。

是啊，数据集啊数据集，你怎么就这么难做大呢。常见的人脸库，比如我知道的FERET，ORL，Yale，还有中科院那个，都离百万太远了。因为作为研究算法用的数据集，就不是一人一张就万事大吉了。对每个人采集不同时间、姿态、光照、遮挡的图像，这个工作量……

百万级的数据库估计现在只有企业或者FBI有了吧，作为花费巨大获得的重要资源，我想也不会公开免费给你用吧。

嗯，理科和工科的区别就来了，理科的数学家根据简单的数据，就能提出复杂的算法来。而工科要把简单的算法用到不太复杂的数据上，就要费很大力气了。

上百万的数据，我觉得瓶颈主要在计算开销上，还有存储、并行算法设计，可能算法简单，但是每次大矩阵的运算都是并行的，这个就不是ML方面的论文特别感兴趣了。

即使是区区几千样本的训练集，做ML的也经常要花N多机时来跑一个算法。

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友