主题：【原创】机器学习的基础是什么？(0) -- 看树的老鼠

共:💬154 🌺509 🌵1 新:

老视野待整

分页树展主题 · 全看下页末页

家园
【原创】机器学习的基础是什么？(0)
(0)
深度学习登上了《时代》杂志。大家大可以热烈的谈论机器学习的未来前进，机器如何代替人完成各种工作。
我始终记得十年前的我，有着相同的憧憬和梦想。那时候，我一边做着无聊的方向，这方向刚刚开始使用数据挖掘技术。那时候，我看不懂论文，可这并不妨碍我梦想，有那么一个神奇的算法，帮助我瞬间解决手头的问题。
但是，当过几年我能看懂论文的时候，我心里又大失所望。机器学习的整个框架在我看来如此的不神奇。学习这个字眼多么漂亮，可是做起来怎么这么丑陋和简单。
这篇文章，就想略略的谈谈，机器学习到底是什么？也谈谈这些年，关于机器学习那些我过不去的坎。
请大家尽管拍砖，欢迎讨论。
通宝推：金陵明安,东晓山,王树,唐家山,韩信点兵,

本帖一共被 1 帖引用 (帖内工具实现)
- 四中全會强渡长江: 用孩子喂狼, 资本(信息)市场开放
- 复【原创】机器学习的基础是什么？(0)
  家园 推荐：百度人工智能吧的一篇文章
  推荐：百度人工智能吧的一篇文章：外链出处
  这位作者基本从统计的角度来看，还是有意思的。可以读读。
  不过，比较遗憾的是，他在那里的读者，大多都是在校学生，积极反响的人不多。
  我不知道国内的情况，是否百度的贴吧是国内的论坛中水平比较高的？比较低的？还是中间水平的？
  - 复推荐：百度人工智能吧的一篇文章
    家园 应该是比较低的吧
    这篇文章写的不错。
    但是百度贴吧应该水平一般。你看52ml.net，cos.name,52nlp.com会好一点。
    - 复应该是比较低的吧
      家园 谢谢推荐
      看了看，的确那几个52网站是更专业的。不过，问题也就来了。里面的正规的东西多一些，但是那种随意的然而带有新鲜思想的东西就少了。比如说，像你在这里的这个系列，以及大家的回复，等等。
- 复【原创】机器学习的基础是什么？(0)
  家园 好文，
  收藏慢慢看。
- 复【原创】机器学习的基础是什么？(0)
  家园 信息论与生命起源
  大多数生命起源研究是集中在自我复制分子性质和催化反应行为等上面。密歇根州立大学的研究员 Christoph Adami 则从一个完全不同的角度去分析生命起源——信息论。Adami的新方法是基于生命本质上是一种信息现象这一概念，他因此可以完全略过所有化学细节而专注于由信息论决定由物理法则控制的生命最基本属性。根据信息论的生命起源观点，生命与非生命系统的一个关键区别是：能储存信息和几乎无限的复制信息的能力。生命系统不存在于热平衡和最大熵状态中。它与最大熵的差异就是它所包含的能无限复制的信息。Adami开发出了数学模型，发现在某些有利的情况下生命自发出现的概率是巨大的。他用人工生命软件系统Avida测试这一理论，发现模型的预测和测试结果相当吻合。
  https://medium.com/the-physics-arxiv-blog/information-theory-and-the-origin-of-life-4cf6b93d156c
  - 复信息论与生命起源
    家园 Erik Verlinder 时空可以对应在一张全息屏上
    very interesting;
    1.
    this is quoted from what you referenced
    "The big advantage of an information-theoretic approach is that chemistry is taken out of the question. And although it assumes the existence of self-replicating polymers, these need not be chemical at all. The result is a study of the properties of that is satisfyingly mathematical."
    2.
    "the model" is kind of like GR
    引力波=4偶極子, very weak to 观测, and in general, N偶極子 moment=weaker as N increases, kind of "反N方".
    we have not been able to 观测 "引力波"
    then what to do? GR uses "度量结构"/时空 (微分几何度量流形) to define 引力.
    3.
    Erik Verlinder 时空可以对应在一张全息屏上
    a pretty good explanation attached. we talked about Erik Verlinder before.
    as said, 全息屏 is basically "时空" 微分几何度量流形, which could likely lead the next "hot app", currently there may be some computing power issues, I don't know the details.
    4.
    "app" for me (:)
    民粹主义 is actually very normal, human brain 波 is kind of like "4偶極子" 引力波, very weak to 观测, but we all know it is there, then how to model it?
    then you can steal other's brain 波(:).
    5.
    the super power of "china model"
    Chinese nation of 1.5N 偶極子, still 正步向前走 working hard, and all smiling watching CCTV 春晚, under TG's commandership of military style?
    vs. normal "社会科学" 民粹主义 all over the world outside of mainland china.
    I hope I can my points across:
    in terms of "度量结构" 凝聚力, tgchina is unmatched globally, in the foreseeable future.
    So, more than likely, Tgchina will be ok, Uncle Sam may have far underestimated TGchina, as I posed before, although US's containing of Tgchina will make TG top feel nervous all the time as well.
    6.
    Frank Wilczek, MIT, nobel laureate
    the fundamental nature of world is information, based on his QCD research experiences.
    he has a website talking about his information theory.
    7.
    I have spent quite bit of time researching on topic like this, and I do believe, with a smart ALGO, one should be able to profit from 弯曲时空("社会科学"), and stay healthier, in this overly informational and 民粹主义 world filled with all kinds of "社会科学" 脑残热辐射.
    8.
    TG's 单边不对称"良民" 优势
    the worldwide 民粹主义 will get into china, or all other countries government will get united against TG: it has to be fair (:), if 民粹主义, let we all have 民粹主义.
    that is why, I keep saying that "毛林共识"政治模型 may actually be the TG's biggest challenge going forward, not really economics.
    本质上, borrowing QM, when and how Chinese mainland is going to normalize with global heatbath, "退相干/decoherence"?
    9.
    once 民粹, then 民粹 forever.
    "Decoherence can be viewed as the loss of information from a system into the environment (often modeled as a heat bath),[2] since every system is loosely coupled with the energetic state of its surroundings. Viewed in isolation, the system's dynamics are non-unitary (although the combined system plus environment evolves in a unitary fashion).[3] Thus the dynamics of the system alone are irreversible."
    ------
    wiki
    In quantum mechanics, quantum decoherence is the loss of coherence or ordering of the phase angles between the components of a system in a quantum superposition. One consequence of this dephasing is classical or probabilistically additive behavior. Quantum decoherence gives the appearance of wave function collapse (the reduction of the physical possibilities into a single possibility as seen by an observer) and justifies the framework and intuition of classical physics as an acceptable approximation: decoherence is the mechanism by which the classical limit emerges from a quantum starting point and it determines the location of the quantum-classical boundary. Decoherence occurs when a system interacts with its environment in a thermodynamically irreversible way. This prevents different elements in the quantum superposition of the total system's wavefunction from interfering with each other. Decoherence has been a subject of active research since the 1980s.[1]
    Decoherence can be viewed as the loss of information from a system into the environment (often modeled as a heat bath),[2] since every system is loosely coupled with the energetic state of its surroundings. Viewed in isolation, the system's dynamics are non-unitary (although the combined system plus environment evolves in a unitary fashion).[3] Thus the dynamics of the system alone are irreversible. As with any coupling, entanglements are generated between the system and environment. These have the effect of sharing quantum information with—or transferring it to—the surroundings.
    Decoherence does not generate actual wave function collapse. It only provides an explanation for the observation of wave function collapse, as the quantum nature of the system "leaks" into the environment. That is, components of the wavefunction are decoupled from a coherent system, and acquire phases from their immediate surroundings. A total superposition of the global or universal wavefunction still exists (and remains coherent at the global level), but its ultimate fate remains an interpretational issue. Specifically, decoherence does not attempt to explain the measurement problem. Rather, decoherence provides an explanation for the transition of the system to a mixture of states that seem to correspond to those states observers perceive. Moreover, our observation tells us that this mixture looks like a proper quantum ensemble in a measurement situation, as we observe that measurements lead to the "realization" of precisely one state in the "ensemble".
    
    ----------
    Professor Frank Wilczek is considered one of the world's most eminent theoretical physicists. He is known, among other things, for the discovery of asymptotic freedom, the development of quantum chromodynamics, the invention of axions, and the discovery and exploitation of new forms of quantum statistics (anyons). When only 21 years old and a graduate student at Princeton University, in work with David Gross he defined the properties of color gluons, which hold atomic nuclei together.
    ---------
    http://blog.sciencenet.cn/blog-441981-770672.html
    惯性是头倔驴
    已有 378 次阅读 2014-3-22 11:43 |系统分类:科普集锦|关键词:惯性
    物体具有保持自己运动状态不变的性质，我们把这一性质叫做惯性。惯性的大小只跟物体的质量有关系，是物体的固有属性。
    为了说明固有属性是个啥玩意儿，我们讲一个月亮驴子的故事吧。月亮在绕着地球转动，像一头驴子在绕着磨盘转动，所以我们叫他月亮驴子。显然，做圆周运动的月亮驴子，其运动方向在不断的变化，也就是说其运动状态在不断的变化。能改变物体运动状态的一定是力。地球对月亮驴子的引力像牵着驴子的缰绳一样改变着月亮驴子的运动状态。
    虽然月亮驴子不得不服从于缰绳的意志，但是这不是月亮驴子的本性。即使是这个时候，月亮驴子的本性也是不变的，他有做匀速直线运动的欲望。可见，惯性就是倔驴的“倔脾气”,跟外力没有关系。一旦缰绳没有了，所有的力都撤销，或者抵消，月亮驴子必将显露出其本身固有的属性，做匀速直线运动或者静止，这就是牛顿第一定律。
    根据等效原理，如果我们定义“自由落体惯性系”，那么我们就可以不把引力看成是力，而是几何。也就是说，所有关于引力的信息都可以用时空的弯曲来描述。时空可以对应在一张全息屏上，这大概就是全息原理吧
    熵力，逗你玩
    已有 575 次阅读 2014-2-24 23:32 |系统分类:科普集锦|关键词:熵力打架
    料想Erik Verlinder看不懂中文，所以将题目写的好玩一点吧。事实上，博主根本没有资格评论Erik Verlinder同学的文章。这篇文章在10年和11年红的发紫，尤其在中国。我这人反应慢在大学同学里是出了名的。这里有一段小故事就不必讲了。总而言之，当时没兴趣，现在有兴趣了，找出来研究一把。
    Erik Verlinder同学的文章严谨但不古板，最后还以大家喜闻乐见的方式结尾，皆大欢喜。内行看门道，外行看热闹，所以很多人喜欢看热闹，这个Erik Verlinder同学是知道的。热闹是什么？最热闹的事情莫过于打架。大街上如果有人打架，立马会围过来一圈人。当然有拉架的，有煽风点火的，更多的是看热闹的。如果你问他，您干什么的？答案是："打酱油的！"文章的结尾提到牛顿和胡克打架。据说和牛顿打架的人很多，我想大概是因为牛顿自恃武功天下第一，横行乡里，引起很多人不服，前来挑战。Erik Verlinder同学最后一句话有点“数风流人物，还看今朝”的意思，可谓是霸气外漏。
    熵力的基本假设是全息原理和等效原理，其中等效原理在这篇博文里讲的很详细，而全息原理俺不懂，想当然的以为就跟全息照相类似吧(亲爱的读者，您觉得呢？)。根据等效原理，如果我们定义“自由落体惯性系”，那么我们就可以不把引力看成是力，而是几何。也就是说，所有关于引力的信息都可以用时空的弯曲来描述。时空可以对应在一张全息屏上，这大概就是全息原理吧。过几天有空研究研究这个事情，亲爱的读者您如果知道，望不吝赐教。全息屏上可以定义熵，熵的变化描述时空的变化，而时空的变化描述引力，所以熵可以描述引力。Erik Verlinder做的事情是将这其中的曲折展示给大家看，推导出牛顿的引力公式和爱因斯坦方程。这里科普下，该文研究的是引力，说引力可以用熵来描写，没有其他三种作用力什么事儿。亲爱的读者，您可别把他们牵扯进来，以防打架。比如说摩擦力是电磁力，跟熵力不搭嘎。如果您是中学生，那您必然很熟悉胡克定律。一提到胡克，您脑海中就浮现出一根弹簧，胡克说弹力和其伸长量成正比。这里有一点小小的误会，您所想的那个弹力也是电磁力，别牵扯进来。
    个人觉得熵力靠谱(不是不评论吗？)。孤立系熵不减，而引力没有排斥力，二者本应该有渊源。还有一个非常重要物理量也是单向变化的，您知道她是谁吗？这里您能得到什么启示？
    - 复 Erik Verlinder 时空可以对应在一张全息屏上
      家园 时空对应在一张全息屏, "时空是（某一类）度量流形"
      changshou did a great service with his following piece, without referencing complicated concepts such as "集合".
      a 度量流形 is basically: locally 开集同胚, regionally/globally 微分同胚;
      and with "时空是（某一类）度量流形", we have 一张全息屏,
      and everybody is basically naked, as seen in that 全息屏.
      the following has been posted before, and I ask sysadmin to allow me post it again, changshou's post is such a beauty.
      -----
      changshou: "时空中度量结构（距离）的定义" [ 晓兵 ] 于:2014-09-14 09:52:53 复:4050282
      1.
      "信息处理本质上是一个物理过程"
      孙昌璞信息处理本质上是一个物理过程( ↑0 ↓0. 1 ... ustc website, 段路明郭光灿量子信息讲座. 看全文分页全看树展 ...链接出处
      2.
      "在时空中度量结构（距离）的定义是个物理问题"
      changshou: 几何直观地介绍广义相对论的时空以及大爆炸模型
      http://www.ccthere.com/alist/3659016
      3.
      changshou: 几何直观地介绍广义相对论的时空以及大爆炸模型
      is a great piece, rare in Chinese, and for most of us, reading in Chinese is still a lot of helpful, if not a must.
      4.
      It took 爱因斯坦 8 years to understand "度量流形", and with that, comes GR.
      before that, 爱因斯坦 was more of physicist , helping 发现原子物理 (his Brownian movement modeling), 发现量子力学 with his "光电效应" model, etc
      GR was 爱因斯坦巅峰, and at humanity level, we are still challenged by 爱因斯坦巅峰, we have not been able to grow beyond 爱因斯坦巅峰.
      5.
      the following is quoted directly from "changshou" post, he did a great job, and my thanks to him.
      -------
      能标记点在时空中的位置和能定义或测量两个点间的距离是两码事
      建一个坐标系就是用实数来标记 4维时空（或4维流形）中的点的位置, 坐标系是局部的
      在时空中度量结构（距离）的定义是个物理问题
      度量结构可以用局部的坐标系描述
      度量结构与局部坐标系选取无关
      流形上的度量结构是整体的
      注意：如果我们不选某个按“三正一负”的“勾股定理”描述闵可夫斯基时空的整体坐标系，而是乱选一个坐标系（哪怕他可以扩张到整个闵可夫斯基时空），一个闵可夫斯基时空里的匀速直线运动可能不是相对于这个坐标系的匀速直线运动。
      如果区域很小，闵可夫斯基时空是很好的近似。所以如果不仔细，观察者会误认为时空是平直的闵可夫斯基时空。这其实就是人类在广义相对论以前的认识状态
      流形是数学家引入的一种很基本的几何概念。它以抽象的方式定义就如我们可以以抽象的方式定义实数（分数和无理数）一样。物理上我们用它作为时空的模型。这么做对于理解这一概念的人自然得就如物理上我们用实数作为长度测量的模型一样。不过一般人容易接受实数的概念（其实也不容易，想一想无理数的曲折历史吧），但不易接受流形。
      流形, 变形,
      粘接或撕裂
      定义数学的球面时，你不需要任何看见或感知它的能力，用纯粹逻辑推理就够了。这种抽象定义的东西未必能够在物理上实现，但它有潜在的物理实现的可能。内在的橡皮膜球面就是这样的。目前为止它还是纯粹数学概念。但后面我将解释，以他为代表的流形可以作为物理空间的模型。所以它有潜在的物理实现的可能。
      在现阶段（纯粹数学空间阶段），因为和物理时空尚无瓜葛，内在的橡皮膜球面无非就是平面膜加上粘合指示。
      流形是 3.5 的推广。我们先固定某一维数的欧式空间（就想 2，3，4维好了），然后发布一个只使用这一维数的欧式空间中的一些部分的一个粘合指示。这样定义出来的粘合物就叫流形。它的维数等于那欧式空间的维数。
      一个几何的对象（流形）是可以 “内在的” 存在的。它是以局部的更基本的几何对象（欧式空间）粘出来的一个整体的东西。它和局部的几何对象维数一样。
      流形加上一个它上面的特定的度量结构叫做度量流形。这相当于在流形上定义了距离。
      2 是否有内在的弯曲不是流形的性质，是度量流形的性质。度量流形可以有内在的弯曲。是否有外在弯曲不是度量流形的性质。
      3 嵌入的度量流形可以既有内在的弯曲又有外在弯曲。这两种弯曲没有关系。外在弯曲是流形外的人看到的直观的弯曲。
      4 对我们来说，重要的是内在的弯曲，它可由在度量流形上搞距离测量来确定。
      5 内在弯曲外在弯曲都是局部的性质。
      内在的弯曲就是度量结构（距离）和平直的欧氏空间（如平直的平面，平直的三维空间）不一样。这里平直的欧氏空间指的是距离是用（在平面直角坐标系下）用勾股定理定义的。平直的欧氏空间也叫有标准度量的欧氏空间。
      外在的弯曲
      我其实没有确切地说什么是外在的弯曲。我不准备确切定义它。不仅因为这个概念在将来不是很重要，也是因为这其实就是人们通常所说的弯曲。只要你见到一个三维空间中的直观上弯曲的东西，那东西就有外在的弯曲。外在的弯曲大体上就是以弯曲的方式嵌入一个流形（如三维空间）。
      几何直观地介绍广义相对论中的时空以及大爆炸模型（7）广义相对论预览
      广义相对论主要说的是以下三件事。
      7.1 时空是（某一类）度量流形
      这里的时空指的是我们现实世界中的物理空间和时间。因为度量流形可以内在的弯曲，所以时空可以是内在弯曲的。这就是通常说的弯曲的时空。F
      从下一节开始我会详细解释 7.1的含义。
      7.2 时空是动力学的
      这指的是时空作为度量流形并不是与含于其中的物质无关了。恰恰相反，时空作为度量流形是由一个叫做爱因斯坦方程的微分方程决定。而爱因斯坦方程包含了物质的分布。于是时空是与物质有关的。
      这我以后也会解释。在我看来这是最难理解的部分。而一般科普在打个比方后就回避了F。
      7.3 万有引力就是内在弯曲的时空
      这就是为什么万有引力是万有的。任何物质都在时空中，因此都受到弯曲的影响，这种影响就是万有引力。
      提示：请注意流形和度量流形的区别（复习（5））：流形上谈距离弯曲等没有意义，必须先给度量结构。给了度量结构就叫度量流形。一般流形上可以造无穷多种不同的度量结构，所以说清是哪一个很重要。流形局部上等同于欧氏空间，但这时说的欧氏空间是没有距离的，等同则是橡皮膜世界中的等同：同胚（见（4））。欧氏空间上可以造无穷多种不同的度量结构。但其中有一种是用标准的方式造的度量（距离）：用勾股定理定义。这样得到的有标准度量结构的欧氏空间有时也会被简称为欧氏空间（我尽量避免就是了，但你应该能从上下文判断）。有标准度量结构的欧氏空间是平直的。虽然流形局部上等同于欧氏空间，度量流形局部上和有标准度量结构的欧氏空间可能是不一样的。这就是内在的弯曲
      8.1 一个初步的时空模型：4维流形
      我们的直观体验告诉我们物理空间似乎是3维的。时间似乎是一维的。它们似乎是无限可分的可以连续改变的存在。要标记（确定）一个事件（比如一个点的运动），要四个数。三个定位置，一个定时刻。位置可以连续改变，时刻也可以。
      这不一定是对的。但我没发现能否定这一点的证据。我暂且接受它。于是我用四个实数来标记点的运动（或事件）。
      4维的欧氏空间中的一个点就是用四个实数来标记的。所以我可以用4维的欧氏空间中的一些点来标记时空中的点。如此说来 4维的欧氏空间（注意，我还没考虑度量）像是一个时空模型。但等一等，流形的定义告诉我们可能出现局部是欧式空间，但整体不是的情况。仔细一想，关于时空我其实只知道局部的情况（人类只有不长的历史和不大的活动范围），所以为保险起见，我不预先排除时空整体不是欧氏空间的可能。于是一个更合理的时空模型是: 时空是 4维流形。这里没有任何神秘之处，因为这基本就是流形的定义。我不假定时空包含在其他什么东西里，所以流形就不是嵌入的流形。F
      8.2 模型太粗糙
      4维流形这个模型是非常粗糙的。因为我们的经验还包括我们可在时空中定义（或测量）距离。这距离包括空间的距离和时间的距离（当然这假定我们能把时空分离开，如果不能，那这“距离”可能同时包含时间的空间的贡献）。然而4维流形没有距离这种东西。
      要特别强调的一点是，能标记点在时空中的位置和能定义或测量两个点间的距离是两码事。奇怪吗？F 仔细想想。哪怕在欧氏空间中都是这样。所谓（比如用4个实数）标记点在时空中的位置就是通常讲的建一个坐标系，用于标记的实数就叫坐标。给定两个点的坐标，你能写出它们间的距离吗？两个点的坐标是八个数，距离是一个数。你得告诉我一个法则从八个数造出一个数来。給一个法则实际上是给一个定义。你能做的事其实是定义它们间的距离。通常我们用勾股定理来定义距离（回想一下中学里怎样在平面直角坐标系下算距离）。定义距离就是给度量结构。当然不是说任何从八个数造出一个数的法则都算距离，有些明显的性质需要满足，但即便如此，仍然有太多可能的类型。可以在数学上继续探讨这个问题，但这对我们已没有太大意义。这是因为下面的原因。
      8.3 时空中定义距离是个物理问题
      这其实就是爱因斯坦从狭义相对论起就强调的一点。要定义两个时空中的点的距离，需要一个物理上的操作将这两点联系起来（比如从一点旅行到另一点，或使用某种信号）。然后从物理操作中设法提取（定义）一个数作为距离。这也是为什么在上文中我常把测量和定义放在一起。
      因此我们不能随意的定义距离（或度量结构）。F 我们需要一些物理上的结果。这个结果叫狭义相对论（见下篇）。
      8.4 坐标系是局部的
      在8.2中我们说建一个坐标系就是用实数来标记 4维时空（或4维流形）中的点的位置。 8.1 中我们指出这等价于说用4维的欧氏空间中的点来标记时空（或流形）中的点的位置。好了，我们知道 4维流形可能只有在局部上才是 4维欧氏空间。所以建一个坐标系（用4维的欧氏空间中的点来标记）这件事只是在流形的局部上作的。换言之，如果流形是由若干标准模块（局部上的欧氏空间）粘成，则每个标准模块上可自带一个坐标系，但一个标准模块上自带的坐标系未必能扩张为整体的坐标系。
      比如嵌入的（或内在的）2维球面在1号2号平面膜上可以各自建立平面直角坐标系，但是不可能有整体的平面直角坐标系（如果有，岂不意味着2维球面是一个平面了？F）。
      8.5 流形上的度量结构是整体的
      这其实包含在5.6的定义中了。因为在那里我们要求各个标准模块上的度量结构相互匹配。注意：度量结构是整体的和度量结构的内在弯曲是局部的并不矛盾。一个给定的度量结构可以在这一块弯曲得多一点，那一片弯曲得少一点。比如把一个嵌入的几何球面拉扯为一个葫芦形的表面后，就是这种情况。
      8.6 度量结构可以用局部的坐标系描述
      这事实上也在前面解释了。还记得 8.2中的八个数造一个数的法则吗。定义这个法则就是在局部上描述度量结构，而八个数是坐标（局部的）。所以度量结构可以用局部的坐标系描述。5.4中讲度量结构时我使用了标架这个词，那里说的标架就是这里说的局部坐标系。当然用某一个局部的坐标系描述的只是度量结构在装备这一个局部的坐标系的标准模块上的部分。
      8.7 度量结构与局部坐标系选取无关
      在8.2中已强调了坐标系无非就是对点的标记（相当于给点起名字），而距离（度量结构）和你怎么标记点（点的名字叫啥）没有关系。更确切地说，我们定义度量结构时就必须要求度量结构与局部坐标系选取无关。这其实是定义的一部分。
      8.8 再读一遍 8.4 到8.7
      注意: 8.4 到8.7 属纯粹数学。但因为在时空中度量结构（距离）的定义是个物理问题，因此我们有：
      8.9 从 8.4 到 8.7 的讨论有重要物理意义。
      什么意义？下面会说。
      狭义相对论提供了又一个初步的时空模型，叫做闵可夫斯基时空。它是一个4维度量流形，包含了 3维物理空间和1维时间。
      强行要求“三正一负” 的度量结构是整体的
      可以强行要求吗？F 可以，只要定义“三正一负” 的度量结构时用的坐标系是整体的就行。由于作为流形，闵可夫斯基时空就是4维的欧氏空间所以我们可以规定该4维欧氏空间是唯一标准模块，粘合指示为：什么也不粘。
      这样一来整体的坐标系意味着“三正一负” 的度量结构是整体的。 4维的欧氏空间加上这个度量结构就是作为度量流形的闵可夫斯基时空。这个度量结构叫闵可夫斯基度量。
      10.10 用坐标系描述度量结构不同于用坐标系定义度量结构
      你可能问如果坐标只是点的名字按8.7的说法，距离自然不依赖于坐标系的选取，10.9中还有什么好证明或推导的呢？仔细一想，不对呀。如果真按8.7 那应该是任何坐标变换（不光是洛伦兹变换，平移原点）都不改变闵可夫斯基时空的距离（度量结构）。到底哪错了？
      这里的问题在于我们实际不是处在8.7中的情况。8.7讲的是固定了一个度量结构（距离）然后选择坐标系去描述它。而10.9这里实际上是先定义（整体）坐标系然后通过“二正一负”式的 “勾股定理” 用坐标系定义度量结构。所以不同的（整体）坐标系原则上讲可能定义出不同的度量结构！这时10.9 告诉我们只要不同的整体坐标系是由洛伦兹变换和平移变换联系起来的那么定义出来的度量结构其实是相同的。
      所以用坐标系描述度量结构和用坐标系定义度量结构是不同的。这不是文字游戏。这件事有时候专业人士都会搞错。
      用坐标系定义度量结构其实是一个不好的习惯。因为你必须检查你的度量结构实际上不依赖于用于定义它的坐标系（不觉的是一件别扭的事吗？）。
      下面讲闵可夫斯基时空的物理意义。这篇同时也是狭义相对论概要
      提示：一个物质点和一个时空中的点不是一回事F。一个物质点在时空中对应一条线：它的世界线。即它的运动在时空中（不是空间中）扫出的轨迹。这是因为随着时间的流逝，他会在时空中扫出一条线，哪怕它相对于某坐标系静止（这情况下时间方向上还在动嘛）。它的世界线完整描述了这个物质点在时空中的运动。这里说的相对于某坐标系静止，是指一个物质点在某坐标系下，空间坐标不变。某物质点在闵可夫斯基时空里匀速直线运动，指的是物质点的世界线是直线。注意定义闵可夫斯基时空里匀速直线运动时我们没选任何坐标系F。一个闵可夫斯基时空里的匀速直线运动和相对于某个坐标系的匀速直线运动是两回事（见下文讨论）F。我们可以把一个时空中的观察者理想化地当作一个物质点。
      11.0 用两句话解释狭义相对论：我们的物理时空是闵可夫斯基时空。物理规律在洛伦兹变换和平移下不变，如同闵可夫斯基度量结构在洛伦兹变换和平移下不变。
      仅用第一句话我们就能推出很多东西。
      11.1 取一个描述闵可夫斯基时空的整体坐标系。接下来所说的整体坐标系都指按“三正一负”的“勾股定理”描述闵可夫斯基时空的整体坐标系。我们叫该整体坐标系整体坐标系A. 整体坐标系A的选取，给出了一个将闵可夫斯基时空分解为时间部分和（物理）空间部分的时空分解(因为“三正一负”中的“一负”的方向被定为时间方向)。F
      11.2 由于整体坐标系A是整体的时空分解也是整体的。整体坐标系A的时间轴自身是一根世界线且是一条直线。这世界线对应于一个物质点（观察者）的运动。由于观察者在时空分解的坐标系中（物理）空间坐标为零（时间轴上的点空间坐标总是0），在该时空分解中，该观察者是静止的（时间位置在变空间位置没变）。
      11.3 取第二个定义闵可夫斯基时空的整体坐标系B。我们便有了另一个整体时空分解和在其中静止的观察者。这个观察者的世界线是整体坐标系B的时间轴。这是一条直线。于是我们说观察者在闵可夫斯基时空里匀速直线运动。在整体坐标系A的时空分解中这也是一条直线。所以在整体坐标系A的观察者看来，这是相对于该观察者的匀速直线运动的轨迹。为啥是相对于该观察者的匀速直线运动？因为直线（世界线）总是和整体坐标系A的时间轴有一个固定的夹角，这说的不就是在整体坐标系A的观察者看来匀速直线运动吗？这就是我们通常理解的相对的匀速直线运动。
      注意：如果我们不选某个按“三正一负”的“勾股定理”描述闵可夫斯基时空的整体坐标系，而是乱选一个坐标系（哪怕他可以扩张到整个闵可夫斯基时空），一个闵可夫斯基时空里的匀速直线运动可能不是相对于这个坐标系的匀速直线运动。
      11.4 前面讲过不同的整体坐标系由洛伦兹变换和平移联系起来。根据11.3 在这些整体坐标系中静止的观察者相对间作匀速直线运动。我们把这类观察者称为惯性观察者。整体坐标系称为惯性参照系。
      狭义相对论的一个基本假设是：世界上存在一种观察者，名叫惯性观察者，他们之间相对匀速直线运动。我们可以这样定义他们：不受外力的物质点（观察者），就是惯性观察者。有了惯性观察者，就可以以他们的世界线为时间轴建立每个惯性观察者自带的时空坐标系（从而有了时空分解），叫惯性参照系
      狭义相对论的又一个基本假设是：光在不同惯性参照系下速度不变。这个假设来源于电磁场的理论。电磁场的麦克斯韦方程说电磁波（包括可见光）在不同惯性参照系下速度不变。这个假设也受实验支持。如果我们用勾股定理在某个惯性参照系里定义空间距离，我们就发现之前我们定义的某点处的光锥就是经过该点的所有方向的光的世界线的集合。光在不同惯性参照系下速度不变意味着光锥也不变。可是我们前面讲过光锥可以用 “三正一负”的“勾股定理”定义的闵可夫斯基时空距离来定义。而我们又知道不同整体坐标系下闵可夫斯基时空距离不变（意味着光锥也不变）。
      如果我们把惯性参照系作为时空中的整体坐标系，然后用这些整体坐标系和“三正一负”的“勾股定理”来定义距离，我们就得到闵可夫斯基时空。反过来，如果我们假定时空是闵可夫斯基时空，然后用整体坐标系来定义惯性参照系，我们就既建立了惯性参照系（而且惯性参照系间相对匀速直线运动），又实现了光在不同惯性参照系下速度不变。
      这就是闵可夫斯基时空的物理来源。
      12.1 “三正一负”类型的度量结构
      闵可夫斯基时空是在 4维欧式空间上用“三正一负”式的 “勾股定理” 定义的。4维欧式空间上还可以定义其他度量结构。一个基本的想法是使用变系数的 “三正一负”式的 “勾股定理”。
      此话怎讲？闵可夫斯基时空使用的 “三正一负”式的“勾股定理” 在把四个坐标的平方作加减时，每一个单独的平方前面的系数是 1。这里的要点是不管你在时空中任何一处用这个“勾股定理” 这些系数都不改变。即坐标的平方前面的系数是常数（不依赖于时空位置）。在此意义上讲我说闵可夫斯基时空使用的 “三正一负”式的“勾股定理” 是“常系数的”。
      现在我们放宽要求我们允许坐标的平方前面的系数不是常数（依赖于时空位置）。这时的 “勾股定理” 就叫变系数的 “三正一负”式的 “勾股定理”。用变系数的 “三正一负”式的 “勾股定理”定义的度量结构（距离）叫做 “三正一负”类型的度量结构。
      当然你可能问变系数时取那个系数。这其实是标准的微积分课程里的积分的问题。我们想要算一条线的长度。我们把线切成很多小段，每一小段上系数变化很小，我们任取一个系数然后在这一小段上用“勾股定理”。因为小段上系数变化很小这是一个好的近似。把所有小段上所算的距离加起来，这就是一个近似的长度。现在我们让每一小段的长度越来越小趋向于0，则近似长度的偏差越来越小趋向于0。
      上面一段话不懂没关系，只要能接受变系数的 “三正一负”式的 “勾股定理”定义度量结构就可以了。
      但还有一个问题，我们上面算的实际上是连接某两点的某条线的长度。它当然依赖于这条线的选取。固定两个点有没有一条特殊的线连接它们呢？答案是肯定的。这叫测地线。对闵可夫斯基时空或有标准度量的欧式空间测地线都是通常所说的直线。在闵可夫斯基时空两点间直线（测地线）的长度（按上面的算法）就是闵可夫斯基时空距离。
      测地线的定义我就不写了（以后会解释物理意义），我只指出测地线是由度量结构决定的。它可以理解为在一个度量结构下的标准的定义（测量）两点间距离的方法F。如果度量流形是以前讲的几何球面（有经纬线圈），那么经线都是测地线。这也是测地线名称的由来。
      12.2 闵可夫斯基时空是平直的“三正一负”类型的度量流形
      最快捷的方法，是把这看成是平直的时空的定义。如果要负责一点，平直的原因在于我们用了“常系数的”“三正一负”式的 “勾股定理” 定义闵可夫斯基时空。
      你可能问为何闵可夫斯基时空和有标准度量的4维欧式空间都是平直的（感觉他们俩不一样啊）。回答是，我们不比较 “三正一负”类型的度量结构和 “四个正号”类型的度量结构F。我们只比较同一类型的。闵可夫斯基时空是平直的“三正一负”类型的度量流形，有标准度量的4维欧式空间是平直的“四个正号”类型的度量流形。
      12.3 把流形和闵可夫斯基时空结合
      我们把（8）和（9）的想法结合起来。我想接受狭义相对论，又不想排除时空整体上有蹊跷的可能。于是一个自然的模型是时空是一个度量流形，在局部上这个度量结构是闵可夫斯基时空。
      12.4 也许时空有内在的弯曲
      在12.3中给的模型已经是一个很精确的模型了。12.2告诉我们这个模型是平直的。可是我一旦知道了度量流形可以内在的弯曲，我便禁不住怀疑也许时空是有内在的弯曲的度量流形。哪怕在实验上我暂时证明不了（当然目前的实验已经可以证明有内在弯曲了），我也不愿排除这种可能。于是一个更稳妥的模型是时空是（可以有内在弯曲的）一个 “三正一负”类型的度量流形。F我们把 “三正一负”类型的度量流形叫做洛仑兹流形。
      12.5 广义相对论认为时空是洛仑兹流形。这是广义相对论的一个基本观点F。有时候为了强调时空是洛仑兹流形，我称时空为时空洛仑兹流形。
      13.0 时空是洛仑兹流形的观点不是从时空是流形及狭义相对论推出来的
      时空是洛仑兹流形是综合了这两个观点的一个推广。但我们可以有更一般的推广。在有的推广中甚至度量结构都不是必需的。时空是洛仑兹流形只是一个合理的假设。它被接受是因为广义相对论的成功。
      13.1 闵可夫斯基时空是时空洛仑兹流形的局部近似
      由于一般的洛仑兹流形有内在的弯曲，即便在局部上它也不是闵可夫斯基时空。但这时闵可夫斯基时空是洛仑兹流形的一个近似。局部区域越小，近似就越好。局部区域趋于0（向一个点收缩），则误差也趋于0。这其实也就是12.1中第四段话讲的事情。
      数学上我们说闵可夫斯基时空是洛仑兹流形的“切空间”。切空间是曲线的切线，曲面的切平面的推广。但是这里切空间没有嵌入另外一个空间，因为我们的流形不是嵌入的。这小段不理解没关系F。
      你只需知道，对洛仑兹流形上每一点我们都可以联系上一个称为切空间的闵可夫斯基时空。这个点可等同于该闵可夫斯基时空上的一个原点。在该点附近的局部区域，洛仑兹流形和该闵可夫斯基时空很接近。区域越小，近似越好F。
      13.2 狭义相对论是广义相对论的局部近似
      一个观察者在时空中运动的轨迹是一条世界线。观察者有权利用自己喜欢的方式来标记时空中的点。也就是说，他可以自行选择自己附近时空区域上的坐标系。这就是观察者体验时空的最基本一步。由于内在弯曲是局部的，并且是不依赖于坐标系选取的（8.7）。所以观察者有可能利用自己的局部坐标系就判断出时空是弯曲的（比如发现勾股定理在现实中不成立）。
      然而 13.1 告诉我们如果区域很小，闵可夫斯基时空是很好的近似。所以如果不仔细，观察者会误认为时空是平直的闵可夫斯基时空。这其实就是人类在广义相对论以前的认识状态
      几何直观地介绍广义相对论中的时空以及大爆炸模型（14）因果结构
      提示：这篇不理解的话，可以跳过。
      14.1 狭义相对论中的因果结构
      狭义相对论中如果一个观察者超光速会怎样? 超光速意味着世界线落在光锥外，即世界线可以把两个类空间隔的点联系起来。于是这两个点处发生的事情可以有物理联系。比如第二个点处发生的事（结果）可以是由第一个点处发生的事（原因）引起的。可是用洛仑兹变换不难证明存在惯性参照系使得在这惯性参照系看来第二个点处发生的事（结果）发生在前，第一个点处发生的事（原因）发生在后。于是在这惯性参照系看来因果关系被破坏了。如果不想因果关系被破坏，我们就得禁止超光速运动。也就是说观察者的世界线应该是类时世界线（亚光速运动）。
      14.2 广义相对论中的观察者的世界线应该是类时世界线
      这是14.1 和13.3 的结合。
      14.3 时间定向的洛仑兹流形
      闵可夫斯基时空是有时间定向的。我们可以分过去未来。这意味着我们需要给每一条世界线定方向F。取某个点A上的光锥。它由两个锥形分支尖对尖的组成（两个锥形分支的尖点都是点A）。为啥是两个？因为光锥是由坐标平方三正一负的加起来等于0 这个条件定义的。如果一个点在光锥上，把它的坐标全添上负号得到一个新的点。新的点的坐标平方没变，三正一负的加起来仍等于0，所以仍在光锥上。这个对称性说明光锥有两个形状相同的分支对称的放置在一起。一个分支里的时间坐标是负号，另一个是正号。所以一个对应光在过去（点A的过去）的轨迹，另一个对应光在未来（点A的未来）的轨迹。这两个分支一个称为过去光锥一个称为未来光锥。这两部分的内部各自对应过去与未来的与点A类时间隔的点。所以对一条类时世界线（观察者的世界线）我们知道它在某点的未来方向是指向该点的未来光锥内部的。由于光锥被洛仑兹变换保持，不同惯性参考系对时间方向不会有不同看法。F
      我们要求洛仑兹流形也有类似的用光锥定义的时间定向。细节不重要。大致说来，有的洛仑兹流形可以，有的不可以。所以我们应该要求，时空是可以时间定向的洛仑兹流形。以后我要举的例子都是这样的。但要注意的是洛仑兹流形上用光锥场（见13.3）来定义时间方向只能是局部的。
      14.4 广义相对论中的因果结构
      乍看起来14.2 保证了广义相对论中因果关系也不被破坏。但还有其他可以破坏因果关系的机制。比如由于洛仑兹流形整体上可以不是闵可夫斯基时空，我们不能排除某个观察者的世界线（类时世界线）首尾相接的可能。这意味着沿着这观察者的世界线走在任何一点都有良好的时间定向，但整体上他却回到了他时空之旅的起点（注意这意味着他回到了过去的某个时刻）F。这里的破坏机制是我们有局部的时间定向，但没有整体的（因为有首尾相接的类时世界线）。这与闵可夫斯基时空中超光速破坏因果关系的机制完全不同。更糟糕的是有些这类例子满足爱因斯坦方程属于“可能的时空”（见（16）篇）F。
    - 复 Erik Verlinder 时空可以对应在一张全息屏上
      家园 "山 dream": 脑夸克, 也许偷大脑是可能的
      1.
      in a way, "大数据" (originated from physics, 分子运动模拟, 冲刺热力学极限/cooling/结晶, etc, monte carlo simulation) is already 偷大脑, It 偷大脑 of anonymous "mass" population.
      but we need something much more powerful and 精确 than that.
      2.
      now, let's first check around, before we plan our 偷大脑 business.
      引力 is there, almost as perfect as GR calculates, but we don't know how 引力 is transmitted, in terms of 引力波观测.
      another similar "信息"力 type of huge $$$ implications is 德布罗意相位波, in what kind of "介质" 德布罗意相位波 transmits (yes, we got some "超光速" issues with it) we don't know, then we use 色散关系 type of tricks to get around it;
      now, human brain 波 is kind of like "4(or N)偶極子"波 such as 引力波, very weak to 观测 and model, but we do know 脑力 is there, but again, how to "量子化" 脑力, kind of like how to "量子化"引力?
      Frank Wilczek's QCD's 夸克 model is basically 规范场+ "大数据" , and he got nobel prize for it, although "individual 夸克 " is still escaping physics, as of today, but 夸克 theory is bullet proof, works very well.
      3.
      what is point?
      theoretically, borrowing Frank Wilczek's methodology of "规范场"+ "大数据", we can try to figure out a model for 脑夸克.
      with "脑夸克" model, and as long as it works although we may never be able to 观测 our "脑夸克" baby, we can still use it, and we will 山寨 Uncle TG before 1949, , find a 山 of huge crowds, then we manage crowds' brains/"脑夸克", and declare ourselves (one at time, 轮流做庄, 5常委) as 山头大王, or 山主席 of 山人民共和国.
      is this "山 dream" a total 科幻(:)?
      - 复 "山 dream": 脑夸克, 也许偷大脑是可能的
        家园 why "脑夸克"? "夸克玻色子"带电
        to be brief, and in physics like this(:)?
        1. some basics.
        夸克=玻色子
        normally, 玻色子 not =带电, no coupling among 玻色子 themselves;
        if 玻色子=带电, such as in the case of 夸克, then we have a non-linear challenge, with strong interactions/coupling among 夸克 themselves;
        then, how can 夸克 transmits information (as a 玻色子) with a non-zero rest mass?
        for the folks in this business, more that half century ago, pauli challenged prof Yang about Yang's gauge field model, because there is a 玻色子 rest mass issue, 玻色子 is supposed to have zero rest mass, Yang-Mills场: 所有的规范玻色子=质量为零, etc.
        and yes, later on, the famous 希格斯玻色子, etc.
        what is the point?
        is "脑夸克" as wild as 夸克? or even much more crazy than 夸克?
        non-linear, strong coupling, and it could get of control easily, 阶级斗争一抓就灵(:)?
        a good analogy?
        2.
        "脑夸克", 集团作战, 天兵天将
        集团作战: strong coupling
        天兵天将: we (our rest mass) are from Higgs场, global since day 1.
        "Higgs机制不仅能给弱相互作用粒子质量，还能给电子、夸克等其他基本粒子质量。粒子与Higgs场的相互作用越强，质量越大。值得注意的是，多数复合粒子，如质子、核子、原子等，其质量并不是来自Higgs机制，而是来自将那些基本粒子束缚在一起的束缚能。"
        多数复合粒子，如质子、核子、原子, these guys are all local, in a way;
        3.
        for those who are in this business, "The Origin of Mass", there was a Chinese translation, I remember I talked about it a little before.
        frank wilczek is called by somebody as today's Einstein, and what is the best, he tries to tell to those non-QCD people about his ALGO, his Model, his methodology in terms of information physics.
        and I hope this would be helpful to those who are interested in information physics.
        there will be a lot of business models coming out of that area.
        [PDF]The Origin of Mass - MIT
        web.mit.edu/.../physicsatmit_03_w...
        Massachusetts Institute of Technology
        by F Wilczek - Cited by 28 - Related articles
        Frank Wilczek. E ... Einstein was aware of this possibility from the beginning. Indeed, his original ... Einstein was thinking about fundamental physics, not bombs.
        http://www.frankwilczek.com/core.html
        The Analytic Theory of Matter
        What is matter? Forty years ago ideas about its fundamentals were vague and fragmentary. We've come a long way toward mastering matter, while gaining new insight into the nature of space and an inspiring vision of the symmetry of physical law. The analytic theories of matter, emerging from strange and once-revolutionary ideas from quantum theory and special relativity, are the Core of modern physics.
        
        My first work in physics helped establish a major part of this Core, the theory of the strong force. (That's the work for which I got a Nobel Prize in 2004.)
        
        The Core presents many scientific challenges and opportunities, as well as visionary insights. What was the early Universe like? What goes on deep inside neutron stars? What is space? Where does mass come from? These questions are now ripe.
        复 why "脑夸克"? "夸克玻色子"带电
        家园 "脑夸克": 阶级斗争需要巨大的计算资源
        1.
        "Moravec的悖论", a great one. thanks to "Fuhrer".
        http://www.ccthere.com/article/3839163
        and "Fuhrer" may not be happy with my 阶级斗争 interpretation, but 阶级斗争 is what my model does(:), I like prof. Frank Wilczek models, but I am not really in QCD business.
        most of today's AI etc is almost all about 阶级斗争, but we have to have non-阶级斗争-interested physicists such as prof. Frank Wilczek provide us with models so we can play 阶级斗争 game.
        or we go back to the "hot war" form of 阶级斗争, mostly leveraging on Newton mechanical physics.
        2.
        达尔文世界的 business model
        达尔文世界=耗散系统的物理实现, 人类文明系统必须加速度吐故纳新,加速度进步.
        人类文明没有共产主义, 只有残酷进步,进步通过系统内部残酷竞争实现,吐故纳新,最小作用原理
        heatbath, 虚功原理, etc: 热力学系统本质上是内能过程, 时间箭头, "进步".
        达尔文世界的社会政治经济系统逻辑=无限追求创新增长, 或者死亡; 创新增长, 信息, to be rewarded by system with huge premium, everything and everybody else to be priced at steep discount. 个人, 公司, 国家, 无一列外.
        3.
        阶级斗争需要巨大的计算资源
        "高层次的推理只需要很少的计算", such as accounting:
        "但低级别的感觉运动技能需要巨大的计算资源", such as
        "本次中石化混改",
        "这次表面看问题不大实际问题可能更大" 花21 陈王奋起挥黄钺
        http://www.ccthere.com/article/4051447
        "Moravec的矛盾是人工智能和机器人技术研究人员发现，传统的假设相反，高层次的推理只需要很少的计算，但低级别的感觉运动技能需要巨大的计算资源。汉斯·莫拉维克，罗德尼·布鲁克斯，马文·明斯基在20世纪80年代明确提出的原则。莫拉维克写道，“这是比较容易使计算机具有成人级的性能智力测验或玩跳棋，很难或根本不可能给他们一岁的时候，它涉及到感知和流动性的技能。”
        4.
        阶级斗争 is more of ""强相互作用" type of physics, where you have strong coupling/interactions among system's degree of freedoms, simply speaking.
        witten1:
        "本质上你还是得把配分函数弄出来才能得到一些启动那个微分方程的量，而这对于full interaction的体系，这个配分函数要是能有效算出来，这工作的难度和分量我想你是明白的－－breakthrough。。。"
        witten1:【原创】量子生物学I 摘要和前言分页第3页 - 西西河
        www.cchere.com/topic/3830274/3
        配分函数 for a full scale non-linear system? game over.
        that is why 量子生物学/量子分子学 is hard.
        but we can't afford game over in physics, so we put in a "cut-off" in terms of energy level, because coupling/interaction is associated with high energy level: if you don't know how to handle it, you cut it out from your model.
        besides, "低能区的物理对截断的形式并不敏感".
        with non-生物学 physics, we can do it, we largely live in an stable and near equilibrium physical world, where energy level is limited
        but you cannot do it with 生物学 (including 基因食品), 阶级斗争, that is one of reasons why 阶级斗争 is very hard to model.　
        example: I was googling 刘川, but google gives me 刘诗诗, understandable, who cares about 刘川's cut off?
        刘诗诗 is gorgeous, making 阶级斗争 even more non-linear(:)?
        wherever she appears, we need to somehow update 配分函数, a must.
        -----
        and by the way, 清华大学材料系教授韦丹, his wife, 韦丹固体物理讲义 is pretty good.
        about cut-off/能动量截断
        "刘川的量子场论讲义：对于一个有相互作用的量子场论来说，由于量子涨落的“虚过程”可以在任意能动量发生，因此，如果理论不存在某种能动量截断，那么由于长是互相作用的，一个低能动量的模式就可以通过虚过程与无穷高能动量的模式发生相互作用，这就造成了场论中的“紫外发散”（即计算得到的结果是无穷大）。而如果量子场论中存在一个物理的能动量截断，它就可以保证所有的量都不发散。这个截断的具体形式其实对于远低于截断能标的物理来说并不重要，因为低能区的物理对截断的形式并不敏感。重要的是，这个截断是存在的，而且它是相互作用量子场论不可或缺的组成部分"
- 复【原创】机器学习的基础是什么？(0)
  家园
  处于原始时代、经验时代的机器学习
  今天witten1兄推荐了一篇文章 http://www.talkcc.com/article/4036194，读了这篇文章后，突然想明白，如果机器智慧是一种新的智慧形式，它还处于人类的原始时代和经验时代。稍微提一句，有人说大数据时代不需要算法了。那我想请他去读读witten1兄推荐的那篇文章。在非线性系统中，如果我们不能找到正确的解释，短期观察到的模式很可能在长期中完全消失。如果我们真的能够收集到全宇宙过去未来的全部信息，那么我们就是上帝，可以用记忆和感知完全替代知识和理论了。如果做不到这一点，我们还是需要发明理论、总结知识。
  本文有大量的猜测和类比，我尽量做到严谨，但可能还是犯下大量错误。请大家不吝赐教。
  我写这个系列，鸿乾兄说我恐怕是想偏了。我也这么觉得。可我就是过不去这个坎。我写这个系列，归根到底就是想说句心底话：我看不起今天的机器学习方法。而最大的矛盾是：我天天吃着机器学习这碗饭。我很希望化解这个矛盾，在不砸了我饭碗的情况下，让我自己对机器学习抱有一定的敬意。
  为什么看不起它？主要是它在三个方面与我理解的科学、工程范式格格不入。
  首先，机器学习方法经常都是万能方法。比如分类问题，常见的方法就是最大熵模型、支持向量机、随机森林之类的。以最大熵为例，它就是一个典型的线性模型，在很多问题中都有很好的结果。但是，我扪心自问，当我用最大熵的时候，我真的相信这个问题是一个线性问题吗？我其实根本不相信。这太不科学了。
  其次，机器学习方法动不动就是几千维特征，然后得到几千个参数，没有人看得懂这几千个参数的意义。复杂的科学、工程问题，比如登月飞船的制造，复杂度绝对超过常见的机器学习模型，但是它可理解。
  第三，机器学习方法用的那些特征，都让人觉得非常非常的不本质。
  所以，到底问题出在哪了呢？为什么一旦用上机器学习方法，我就觉得我思维一片混乱？觉得自己变成了原始人？
  其实“原始人”这三个字真是恰到好处。
  什么是一个好的理论？第一个标准是“和数据符合的越好，就越正确”。每个人都有无数的经验模型，比如看到一个姑娘，凭直觉就会判断自己能不能追上。很多时候也说不出道理。今天的机器学习就有点这个味道，它和科学理论相比固然显得不严谨，但和我们生活中的经验模型差相仿佛。Witten1也提到，今天的大数据重视相关性，不重视因果性，可是细想一下，经验模型可不就是相关性吗？人在创造经验模型的时候，哪里想过因果。不过这不是机器学习的借口，在经验时代，人发明了无数幻象理论，比如巫术。但人已经逐步发展出更加可靠的科学方法。所以，机器学习也必须超越经验阶段。
  所以，我看不起今天的机器学习也是有道理的。我一边学习着人类几十万年的智慧结晶——科学，当然看不上机器学习发明出来的理论，因为这些理论还处于原始与经验时代。有了这个定位，我的心气一下就平了。它的什么缺陷我都可以理解了。
  就说线性模型吧，早期的人类只会加减法和乘法，所以其实可以这么说，早期人类只知道线性模型。那个时代线性模型还是高科技呢。我不需要瞧不起线性模型。而人类的一个本能倾向就是拿着锤子找钉子，我猜测早期人类在明白加减法和乘法后,基于这些简陋的工具去解决过很多超出工具能力的问题。就算是近似解决也好。这和今天机器学习做的事情类似。
  从这个角度看，我认为机器学习还可以往后发展，其发展可以借鉴人类的认知能力的发展。
  先说几个正在进行中的发展吧。
  * 人类知识已经超越了线性，今天的机器学习模型也在往非线性方向推广。
  * 人类有能力基于原始数据学习，而机器往往要依赖人凭着经验和知识创造出来的特征。比如做图像识别，机器需要人先根据自己的理解，从图像中计算一些数字，然后送给机器。而人在看世界的时候，视网膜提供的只是像素点罢了。这一方面，机器学习也在进步。像deep learning这样的工作，就是尝试着自动把像素点转化成有意义的特征。
  * 在《概率论沉思录》中，作者证明了概率和人类的思考过程是一致的。所以今天的机器学习基本上都是基于概率的。
  * 在这几十万年，人又发明出几个新的关于好的理论的标准。比如“奥卡姆剃刀”。今天的机器学习方法也大多考虑了这一点。这就是进步。
  * 因果关系。Witten1推荐的文章就是说的怎么让机器发现因果关系。2011年的图灵奖给了UCLA 的 Judea Pearl 教授(75岁)。他的一部分工作就是因果性推理算法。说不定未来的机器学习模型可以往这个方向再走远一点。比如让机器辛辛苦苦拿着一堆数据去算，最后机器输出一本教科书，人还能看懂。
  说到教科书这件事，其实反应了人类理论的几个特点。一个是可以在人类社会中互相交流，与人类的其他知识和经验相符。另一个是尽量的精确化。当然，真要走到机器来写教科书那一步还是太遥远了。为了达到模型人类可以看懂的地步，需要在自然语言处理方面有突破性的进展，同时机器需要了解所有人类知识。为了让机器创造尽量精确、逻辑严密的理论，也不是一个轻松的工作。就算是现在已有努力的因果关系领域，我觉得路也很长。
  当然，我认为一个好的理论也许不需要能让人理解。人发明了机器，但机器或许能走得比人更远，说不定机器创造出来的理论将会超出人类的理解能力。就好像随着人类知识的积累，只有不断的细分领域，才能保证有少数人可以理解最前沿的知识并做出贡献。也许有一天机器发明的理论，穷人类最顶尖的天才一生，也无法理解。
  但是，一个好的理论必须具备今天人类理论的一种特质：那就是知识的融贯性。人在解释事物的时候，会动用脑子中的所有知识，任何新的解释，必须与已有观念不矛盾。对于任何一个问题，其实人可以幻想出很多解释。但已有知识可以帮助我们排除大部分不合理的解释。所以，融贯性帮助我们更准确的逼近真实。另一方面，融贯性保证了理论的简洁性，因为新理论可以利用老理论的全部力量。
  与人类理论相比，今天的每个机器学习模型都只解决手头上的问题，丝毫不在乎别的问题。所以，机器可能发明了一堆自相矛盾的算法，它却不知道。今天的机器学习有两个难题，第一个难题是：如果有多个对于现象解释能力类似的模型，应该选择哪个？第二个难题是：怎么创造一个简洁的模型？融贯性其实是机器学习的一个大机会。在有融贯性这个约束条件时，多个能力类似的模型，很可能只有一个是符合融贯性的。另一方面，今天机器学习对于简洁的定义是参数越少越好。但是考虑融贯性之后，我认为简洁的定义应该是：在能够利用现有知识的情况下，参数最少的模型。
  这是一个很大的挑战。如果真要保证知识的融贯性，也许机器学习模型就不能满足于几千维特征和几千个参数了，它至少需要能够存储许多人类常识，我猜那至少是几十亿个参数的模型。这种复杂度，今天的研究还丝毫没有涉及。
  所以，对比机器学习与人类的认知发展，目前谈论机器超过人还为时过早。人类自发的创造出了逻辑、因果性、融贯性这些概念，还发明了语言，这些发明在过去的实践中被证明是卓有成效。那么，我相信一个正确的机器智能，也应该能走上同样的路。在那之前，我觉得机器学习最多可以称为动物的智能。当然，有了人类智慧这个好导师，机器突破蒙昧的速度会比人类快的多。
  通宝推：修身齐家,联储主席,本嘉明,唐家山,
  
  本帖一共被 1 帖引用 (帖内工具实现)
  - 谢谢您的回复，帮我想明白了一个老问题
  - 复处于原始时代、经验时代的机器学习
    家园 机器学习的初衷就是对统计学的反叛
    随机森林的老祖宗Leo Breiman早在2001年就总结了两者的最大区别，见论文《Statistical Modeling: The Two Cultures》，网上有。
    传统的统计学基于人类主观假设出来的数据模型，为人类理解数据而总结了很多随机分布，并且过于强调这些分布的数学模型。而机器学习是为了克服这个缺点而生的，本身就只强调预测的准确性而不主张人类去理解它。
    至于短期的特征在长期尺度上不管用的问题，别说机器，人类也一样，经验丰富的老年人在接受和解释新知识时比不上小学生，过去的经验会束缚创造性思考和限制新知识体系的形成。这根本就是从本质上不可克服的问题，只能在overfit和underfit中取一个折中，什么算法和技术都不可能解决问题又不付出代价，不值得花费脑力去思考。
    - 复机器学习的初衷就是对统计学的反叛
      家园 对统计的反叛是个大进步，但还不够
      谢谢您的推荐。欢迎像您这样的专家参与讨论。
      我在解决“讨厌机器学习”的这个过程中，确实读过这篇文章。
      从主观假设出来的数据模型到机器学习，我同意这是个大进步。因为人类幻想出来的数据模型通常不对。在Leo Breiman的文章中，他也谈到了怎么解释模型的问题。对于random forrest这样的模型，直接看模型是看不懂的。Breiman建议用间接的方法，比如去除某个特征，看看模型的预测能力。但是这样的解释程度就够了吗？我同意随机森林是一个表现很好的模型，但是它的不可理解性不是它值得骄傲的地方，而是应该进步的地方。我认为机器如果能够自动生成一个人类可理解的数据模型，那才是真正的智能。而且这也可能会带来精确度的进一步提高，就像人在发展理论的时候，常常会有一个假设：优美的理论往往可能是对的（这不是必然的，只是一个说不上有多准确的先验。）
      就好像人平时做决策的时候有很多时候就是直觉，你问他直觉是什么，他也说不清。科学发展就是逐渐把直觉性的东西变成清晰的理论。我这里做了一个类比，今天的机器学习有点像直觉，说不清。这样也能解决一堆问题，不过一旦机器学习学会怎么把事情说清楚，那就是一个飞跃。
      当然，我这句话容易让人觉得我是支持在模型中加入更多知识和人假设的数据模型。我并不这么想，我认为人可以理解很可能是简单性与融贯性的一个结果。
      总之，我这些说法还是近于幻想，50年内我不指望能看到。大家还是老老实实沿着现在的简单性（regularization）、融贯性（multi objective optimzation）的轨道走吧。
      短期特征长期不适用，是我的语言不够严密。如果类比成“经验丰富的老年人在接受和解释新知识时比不上小学生，过去的经验会束缚创造性思考和限制新知识体系的形成”，那么确实是不可克服的问题。但是在witten1推荐的那篇文章中，谈论的其实是：今天的机器学习（哪怕在Breiman反叛了统计之后）对于现实的数据还是常常有不切实际的假设。比如用相关性来判断因果关系，相关性只在线性的情况下适用，如果问题本身是非线性的，用相关性得到的结论都是幻像，所以在长期不适用。
      所以我觉得机器学习还应该进一步放松模型假设。当然大家已经在这么干了。多少模型都说自己是universal approximator。不过这是个矛盾，一旦universal了，就变得不可理解了。
      - 复对统计的反叛是个大进步，但还不够
        家园 就是人能把想法用逻辑精确描述出来也就是近代的事情
        之前有语言近十万多年，文字5000年。脑组织，思考，感觉系统完全不同的“智能机器”就是有人类帮助，要达到解析逻辑的这水平，谈何容易。不完美的伪智能能达到欺骗普通人类的水平倒是反而简单了。培养大师不行，倒会是先培养出一群骗子。

分页树展主题 · 全看下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明