主题：311-李飞飞：我们能看到的与我们所看重的 -- 万年看客

共:💬69 🌺357 🌵7

大浪淘沙

分页树展主题 · 全看首页上页下页末页

家园 311-李飞飞：我们能看到的与我们所看重的
https://www.youtube.com/watch?v=gzOwpEupP5w&t=3107s
我想与大家分享一场讲座，这个演讲在某种程度上是高层次的概述，旨在从计算机视觉和人工智能发展的视角出发总结一下我这些年来所做的工作。所以讲座的标题是“我们看到的和我们看重的——具备人类视角的人工智能”。
我先带你们回顾一下历史。我这里所谓的历史指的是5.4亿年前。那时候的地球还是一锅原始汤，所有的生物都生活在水里，而且数量并不多，只不过是四处漂浮的简单生命体。但在非常短的地质时间内——大约只有1000万年——情况就大不一样了。研究化石的科学家们发现这一时期的动物物种数量发生了爆炸性的增长，以至于那个时期被称为寒武纪大爆发，也有些人称之为进化大爆炸。发生了什么？为什么一开始生命如此平静简单，动物并不多，然后动物物种突然发生了爆炸性增长？有很多理论试图解释这一点，从气候变化到水的化学成分。但是关于寒武纪大爆发的主要理论是由澳大利亚动物学家Andrew Parker提出的。他推测物种爆炸“是由视觉的突然进化引发的。视觉引发了一场进化的军备竞赛，动物要么进化，要么死亡。”一旦你看到了第一道光，你就会以根本不同的方式对待世界。你可以看到食物，你可以看到庇护所。你可能成为别人的食物，它们会积极地捕食你。你必须积极地与世界互动和接触才能生存和繁殖。所以从5.4亿年前直到今天，视觉与视觉智能已经成为了动物智能神经系统发展和进化的基石。今天我们已知的宇宙当中最令人难以置信的视觉机器就是人类视觉。无论是人还是动物，我们都用视觉来探索世界、生活、交流、娱乐、社交、做很多事情。这就是自然视觉的一段简史。
那么计算机视觉呢？计算机视觉的历史比进化的历史要短一些。根据都市传说，大约60年前——我想是1966年——有一位雄心勃勃的麻省理工学院教授宣称：人工智能领域已经诞生了，看起来发展得还不错，那么我想我们可以用一个夏天解决视觉问题。实际上，我们要让暑期打工本科生负责这个问题，就用这个夏天来创建或者构建计算机视觉系统的重要部分。这并不是轻佻的猜测，我实际上很同情他。因为对于人类来说，一睁开眼睛就能毫不费力地看到东西。感觉只要你一睁开眼睛，整个世界的信息就摆在你面前。所以他可能低估了构建视觉系统的难度。但这是一次英勇的努力。当然，他们没能在一个夏天解决视觉问题，甚至没能解决一点点视觉问题。但是60年后的今天，计算机视觉已经成为了一个非常繁荣的领域，无论是在学术界还是在技术世界。我跟你们展示几个例子来说明我们的情况。如今到处都有视觉应用；我们梦想着自动驾驶汽车——希望在我们有生之年能够实现；我们正在将图像分类、图像识别以及如此多的图像技术应用在从医疗保健到日常生活的许多方面；生成式人工智能更是带来了全新的视觉应用浪潮和突破。所以讲座的其余部分就是为了回答这个问题而组织的：在计算机视觉领域，我们从哪里来？我们将走向何方？我想与大家分享我最近几年职业生涯当中一直从事的三项重点工作，以及我对于这三项工作的看法...
第一项工作是构建能像人类一样看的人工智能。我们为什么要这么做？因为人类真的很擅长视力。画面上是二十世纪七十年代的认知科学实验，旨在展示人类的视力多么优秀。这段视频每帧刷新频率为10赫兹，呈现时间为 100 毫秒。如果我要求身为观众的你们——我假设你们这些年轻人在上世纪七十年代还没出生，以前也从未看过这个视频——当你们看到画面上出现人形时请点头。你从未看过这段视频，我没有告诉将要出现的那个人长什么样，我没有告诉你此人会在哪一帧出现。你对这个人的一切一无所知，不知道他摆什么姿势、穿什么衣服。你很善于发现这个人。世纪之交左右，一群法国研究人员花了不少时间研究这种毫不费力的视觉能力。事实证明，人类分辨复杂物体或者复杂类别时不仅毫不费力，高度准确，而且速度很快。在复杂图片出现 150 毫秒后，无论图片里是否包含动物，人脑都会产生相应的反应。通过测量大脑信号，我们发现包含动物的图片和没有动物的照片会产生信号差异。这意味着对于我们的湿件而言，从光子落在视网膜上到大脑做出准确决定大约需要 150 毫秒。对于硅质计算机来说似乎很慢。但是对于我们的大脑来说，有一点神经科学背景的人都知道这个速度实际上非常快，因为神经信号从一个神经元传递到另一个神经元大约需要10个尖峰。所以这是一项非常有趣的测量结果。
心理学家告诉我们，人类真的很擅长看到物体。神经科学家则告诉我们，我们不仅擅长看物体，而且速度很快。现在神经生理学家则使用MRI研究告诉我们，进化已经优化了视觉识别能力，以至于我们在大脑里拥有专门负责视觉识别的神经关联区域，例如颞叶面孔区或海马旁回场所区——这些区域专门负责分辨我们看到物体和场景。这些二十世纪七八九十年代的研究告诉我们，分辨物体对于视觉智能非常重要。这项能力是人之所以为人的基石，也是构建计算机视觉必须追随的北极星之一——还不是整个北极星座，但是的确是星座当中极为重要的一颗。分辨物体这个课题引导了我自己的研究以及计算机视觉领域的早期阶段。作为一个领域，我们发现对象识别与分类是一个重要问题，而且在数学上也是一个非常具有挑战性的问题。分辨物体对于我们来说毫不费力，但是要想在数学层面识别一只可爱的袋熊的图像则极为困难，因为在数学上有无限种方式将袋熊从3D渲染到2D。光照、纹理、背景干扰、遮挡变化、视角、相机角度等等因素都要考虑到。
那么我们这个领域目前干得怎么样？我把物体识别的进展总结为三个阶段。第一阶段是并行研究。这是一个非常早期的阶段，与认知研究同时进行，我将这一阶段的研究路线称作手工设计的特征与模型：非常聪明的研究人员完全凭借自己的脑力来进行设计，将对象分解成构建块，归类成模型，为其设置各种参数，等等。这条路线的成果包括Geons理论、通用圆柱体理论、零件与弹簧模型，等等。这些都是七八十年代到九十年代初的美丽理论与美丽数学模型，问题是它们不起作用。尽管看上去非常漂亮。
然后是第二阶段，我认为这实际上是通向深度学习的最重要阶段，即机器学习。我们引入机器学习作为统计建模的技术手段，不过这些模型的输入内容都是手工设计的特征，例如旨在携带大量语义信息的对象组成部分。说得通俗一点，为了识别人体、脸部或者椅子等等对象，关键在于获得包含耳朵眼睛之类的组成部分，然后使用机器学习模型来学习将这些部分拼接在一起的参数。在这个阶段，整个领域都在尝试贝叶斯网络、支持向量机、Boosting算法、条件随机场、随机森林以及神经网络等等多种不同的统计模型。
与这个阶段同时发生的另一件事是数据识别的发展。二十一世纪初，计算机视觉领域认识到了基准数据集的重要性，例如PASCAL VOC数据集、Caltech 101数据集等等。这些数据集原本旨在衡量数据识别领域的进展，结果人们发现它们也可以在一定程度上成为训练数据。不过这些数据集都非常小，仅仅包含数百到数千张图片以及少数几个对象类别。就我个人而言，就在那时我偶然发现了一个非常令人难以置信的数字。如果你读过我的书就知道，我称之为比德曼数。比德曼教授一年前不幸去世，他是一位认知心理学家，研究视觉并且思考人类视觉智能的规模和范围。他粗略估计人类一生中可以识别3万到10万个对象类别。这哥数字没有经过验证，也很难验证，这只是他的一篇论文当中的一个猜想。他还认为一般人到 6岁时就已经学会了成年人所学的几乎所有视觉类别。这是令人难以置信的学习速度，每天大约要学十几个类别。这个数字让我很烦恼，因为我们当时看到的所有数据集都无法与这个数字相提并论。这就是ImageNet诞生的原因：我、我的学生Jordan 与其他合作者们认识到，存在一种思考视觉智能的新方式。这种新方式由深度数据驱动。所谓深度，关键不仅仅在于数据的大小，还在于数据的多样性。如今大家都知道 ImageNet 是什么。它还促使我们重新转向了高容量、由数据驱动的算法，也就是卷积或者神经网络算法。就计算机视觉而言，我们从卷积神经网络开始研究。非常年轻的学生可能不记得了，但即使在世纪之交我还在读研究生的时候，卷积神经网络就已经被当成了“经典算法”——意思就是相当古老但不起作用。可是时至今日我们仍然在研究它。看到数据和新技术如何使整个算法系列焕发活力，真是令人难以置信。
今天的观众都是内行，所以过于琐碎的细节我就不多说了。总而言之，卷积神经网络给我们带来了对象识别的第三阶段。在我看来这或多或少是对象识别的胜利阶段。使用大数据作为训练和卷积神经网络，我们能够以第一阶段和第二阶段无法做到的方式在实际环境里识别物体。当然，最令人难以置信的时刻发生在2012年。即使对于ImageNet背后的我自己来说也是如此，当时 Geoff Hinton 教授和他的学生写下了这篇定义性的论文，就此开启了深度学习革命。从那时起，视觉领域和ImageNet数据集真正推动了深度学习在变换器时代之前的算法进步。甚至像ResNet这样的工作都是“你只需要注意力/ Attention Is All You Need”论文的先驱。可见计算机视觉领域对深度学习的进化做出了很大贡献。
我快进一下。继ImageNet之后，我们开始思考对象识别之外的内容。正如Ranjay A. Krishna的论文指出的那样，这个世界不仅仅由对象标识定义。比方说画面上这两幅图片都包含一个人和一只羊驼，因此它们的含义应该相同——但是显然不是这么回事。我更想成为左边这个喂羊驼的人而不是右边这个被羊驼追着跑的人——实际上我宁愿成为左边吃东西的羊驼而不是右边发脾气的羊驼。因此对象固然很重要，但是对象之间的关系、对象所在的背景、画面结构与组合方式都是丰富的视觉智能的一部分，而ImageNet还不足以推动此类研究。再说一次，Ranjay确实是推动图像与视觉表现的全新思考方式的关键学生，他主要关注视觉关系。我们发起的下一波工作主要围绕视觉关系场景图展开。我们以对象为单位来识别场景中的实体，它们各自的属性，以及对象之间的关系。我们制作了一个数据集——这是一项艰巨的工作——称为Visual Genome，其中包含数十万张图像以及数百万条对象的关系与属性，甚至还有对于整体图像的自然语言描述，试图以此捕捉视觉世界的丰富性。Visual Genome已经催生了好几篇论文，其中很多都是出自Ranjay之手，其中我最喜欢的一篇的主题是一次性视觉关系学习。一开始我们通过研究构图来学习对象之间的关系，例如人-骑-马或者人-戴-帽子。但是通过研究构图，我们几乎凭空获得了识别冷门的长尾式对象关系的能力。图像识别的训练样本永远不嫌多，总会有没见过的图像，但是我们依然能够利用推理来识别冷门图像，例如马-戴-帽子或者人-坐在-消防栓上。有些定量测量表明我们当时的工作——已经是很久以前的事了——比起当时最先进的技术做得更好。此外我们的研究也不仅局限于自然语言当中对于对象或者关系的人为标记。我以前的学生Andre Karpathy以及你们很多人都认识的Justin Johnson撰写了一系列关于图像字幕、密集字幕以及段落生成的论文。
我想说一件事，让你知道我——或者说科学家们——预测未来的能力有多差。我非常清楚地记得，2005年当我即将研究生毕业时，作为一名计算机视觉科学家，我的人生梦想是在去世之前能够看到计算机可以具备看图说话的能力。那就是我一生的梦想。我觉得如果我们把图片输入计算机之后计算机能告诉我们图片上发生了什么，我们就达到了计算机视觉的目标。我从来没有梦想过不到十年，就在我毕业之后十年左右，这个梦想就被我们集体实现了，我自己的实验室也尽了一份力。当时做到这一点的是长短期记忆网络/LSTM，后来还有卷积神经网络/CNN。对我来说这是一个非常了不起的时刻。首先，如果说这就是计算机视觉成就的终结，那未免有些贻笑大方。其次，我真没想到这个梦想能实现得如此之快。这个故事的寓意就是要小心你的梦想。
但是辨识静态关系本来就更容易，而现实世界则充满了更加微妙且更加难以理解的动态关系。我们仍在进行多对象、多参与者活动识别或理解方面的工作。我不打算讨论技术细节，但是人工智能对于视频的理解，尤其是对于这种程度的细微差别与细节的理解，仍然令我兴奋。这是一个未解决的问题。我还想说的是，计算机视觉领域一直很激动人心，不仅因为我在其中做了一些工作。还因为其他人做了更多的工作。最近我们在3D视觉、姿态估计、图像分割方面的进步，以及脸书、SAM和所有生成性人工智能的工作，全都令人难以置信。所以我们还没能构建出像人类一样观看的人工智能，但是我们已经取得了很大进展，其中一部分是数据、计算、算法的结果，比如神经网络，它们真正带来了这场深度学习革命。作为一名计算机视觉科学家，我为我们的领域为此做出的贡献感到非常自豪。另一方面，我仍然相信人工智能的发展将会受到脑科学和人类认知的启发。
……让我们快进到下一个阶段，也就是让人工智能看到人类看不到的东西。我刚刚告诉你人类非常擅长视觉，但是我没有告诉你我们还不够擅长。例如，我不知道你们怎么样，反正我认不出画面上所有这些恐龙玩具都是什么品种的恐龙。实际上，识别非常细粒度的物体并不是人类的强项。世界上有超过10000种鸟类，我们目前收集了一个包含4000种鸟类的数据集。人类通常在识别鸟类物种方面表现得非常糟糕。这是一个名为细粒度对象分类的领域。事实上，一想到计算机在这方面可以超越人类，一想到我们可以训练胜过人类的物体探测器，对物体的理解比人类更精细，我就感到非常兴奋。我们做过一篇我非常喜欢的应用论文，题目是细粒度汽车识别。我们下载了3000种汽车的图片，按制造商、型号与制造年份分开，包含了1970年代以来制造的所有汽车。不过取样的时间节点停在了特斯拉流行之前，所以数据集里面没有特斯拉。我们用3000 辆汽车训练了细粒度目标检测器，然后下载了美国100个人口最稠密的城市——或者说每个州人口最稠密的前两大城市——的街景图片交给检测器来处理，并且将检测结果将其与2010年发布的所有人口普查数据相关联。通过计算机视觉来看世界真是令人难以置信，我们发现汽车检测与人类社会之间存在惊人的相关性，汽车分布可以反映出某地的收入水平、教育水平乃至投票模式。我们有一篇很长的论文，其中列举了数十项相关性。我想说的是，尽管我们无法依靠各自的眼睛看到某些东西，但是计算机可以帮助我们人类无法做到的方式查看我们的世界与社会。
为了让大家明白人类视觉并不那么优秀——尽管十分钟前我刚刚告诉你们人类视觉很优秀——我举几个例子。画面上这个视觉错觉叫做Stroop测试。请试着读出单词的颜色而不是单词本身，从左到右，从上到下，尽可能快。你会发现这么做真的很难。再来两张交替闪烁出现的运输机图片，看起来很相似，但有一大块不同。谁看出来了请举手？一张图片上的运输机没有引擎。这个图像已经落在你的视网膜上了，可是你完全没有注意到。如果在现实世界，面对高风险的情况，大家恐怕都笑不出来。无论是机场安检还是进行手术，视而不见都会产生可怕的后果。医疗错误是每年美国患者死亡的第三大原因。在手术室中，清点所有器械是一项关键任务。平均而言，一旦出现器械遗失，手术就要暂停一个多小时，护士和医生必须找出器械在哪里并且考虑患者面临的所有生命风险。那么今天我们怎样盘点器械数量？我们用手数数。想象一下，如果我们可以使用计算机视觉来自动协助医生和护士在手术环境理记录小型器械的去向，这将非常有帮助。我的实验室的医疗保健团队和斯坦福医院外科部门之间一直在开展合作。如果这项技术成熟起来，我希望计算机视觉的用途能得到很好的应用。
有时候看到不仅仅意味着关注。我刚才向大家展示的每个例子似乎都存在注意力缺陷，但有时看见或者说看不见要比是否注意到更深刻。画面上是我自从读研以来就最喜欢的视觉错觉，由麻省理工学院的Ted Edison制作，名叫棋盘错觉。请看棋盘上的A格与B格，无论怎么说它们的灰度看起来都不一样，对吗？怎么可能一样？但是如果我添加一道对比条，你就会看到两者的灰度确实一样。所谓视觉错觉的意思就是即使你事先知道答案也依然很难不被你的眼睛所欺骗。再来一个视觉错觉的例子。那些年纪足够大的观众在这张照片里看到了谁？克林顿和戈尔，对吧？——是吗？是克林顿和戈尔吗？其实是克林顿和克林顿。戈尔的发型下面搭配了克林顿的脸。在这样的背景下，我们所有人都想当然地认为这俩人一定是克林顿和戈尔。人类偏见的基本问题在于人类很容易受到诱导。在研发计算机视觉时，如果我们不小心的话，就会让计算机继承人类的偏见，尤其是通过数据集训练出来的计算机。麻省理工学院的Joy Buolamwini曾经写过一首美丽的诗，揭露了计算机视觉的偏见。我并不像她和其他许多人那样是这方面的专家。但是必须指出视而不见会产生严重的后果。我们必须非常努力地对抗这些渗透到计算机视觉和人工智能系统中的偏见。在对抗视觉偏见方面人们已经提出了成百上千篇论文。
另一方面，有时视而不见又是必须的要求，因为看得太多也很糟糕，毕竟我们人类十分注重隐私。我的实验室在医疗保健方面做了很多工作，其中一大部分工作都在于隐私计算。说到如何在计算机视觉环境中保护人类尊严与人类身份，我最喜欢的作品之一出自Juan Carlos Niebles之手，它结合了硬件和软件，旨在一方面保护人类隐私，同时仍然要辨识出重要的人类行为。他的思路如下所示。如果你想了解人类的行为，你可以拿起相机拍摄视频并进行分析，比方说画面上是一个婴儿正在推一个盒子。如果你不想让这个婴儿出现在画面里应该怎么办？如果不想暴露这婴儿身后的环境又应该怎么办？能否设计一款模糊原始信号的镜头？就像一般镜头从不获取纯像素信号一样？如果人类透过这样的镜头看去，根本看不到婴儿。他们就是这么做的。他们设计了一个扭曲的镜头，会将原始视频信号扭曲成一团模糊。与此同时他们还设计了一套算法，不会辨识画中人的身份，只会恢复画中人的动作。他们的硬件-软件组合方法不仅可以保护隐私，还可以洞察画面当中对于用户有用的信息，无论是在交通运输还是医疗保健方面都很好用。换句话说，构建人工智能来看到人类看不到的东西是计算机视觉的目标之一，不过同样重要的是要认识到，尽管有时人类的视而不见确实不好，会让人类产生偏见，但是另一些时候我们也想让计算机面对我们想要保护的隐私视而不见。所以总的来说，人工智能确实会放大与加剧困扰人类社会多年的许多深刻问题，我们必须致力于研究、预测和引导人工智能对人类和社会的影响。我现在与之前的许多学生都在这方面做出了贡献。
再接下来我们谈谈构建人工智能来看到人类想看到的东西。这里的关键在于真正让人类更加显著地处于设计技术中心，从而让技术真正为我们造福。当你们听到人工智能这个词时，可能会有这样那样的想法。但是如今当公众听到人工智能时，他们首先想到的是什么？焦虑，对吗？这种焦虑很大程度上来自劳动环境与工作岗位。如果你去看新闻头条，隔三差五就会看到人工智能令人失业的说辞。但是在很多情况下，人类劳动力其实非常短缺。这就又说到了我曾从事过的医疗保健行业。去年美国至少存在100万名护士的用人缺口，而且情况正在恶化。我讨论过我们的医疗保健系统当中的医疗错误问题；老龄化社会加剧了照料者的缺乏；一大部分护理负担以非常不公平的方式落在了女性和有色人种身上；更有甚者，护理工作甚至不被计入GDP。因此，与其考虑让人工智能取代人类能力，不如考虑利用人工智能增强人类能力，提升人类工作岗位，并为人类提供帮助，尤其是在视觉上给予人类帮助。医疗保健领域特别需要这种帮助。太多的时候、太多的情况下，我们都两眼一抹黑，不知道病人的情况如何，不知道护理服务质量高不高，不知道手术室里的某个小器械不见了，不知道我们是否犯了可能会有严重后果的药物错误。因此在过去的 10 年里，我和我的实验室以及我的合作者开始了这个被称为医疗保健环境智能的新的研究领域，我们使用智能传感器，主要是深度传感器和相机，以及机器学习算法来收集对健康至关重要的见解。
这方面的大多数早期工作都在《自然》杂志的这篇题为《用环境智能照亮医疗保健的黑暗空间》的文章当中得到了总结，我只给你们举几个简单例子。一个案例研究是手部卫生，我们在新冠疫情爆发之前就开始了这项工作。一开始所有人都认为这是最无聊的项目，但是当新冠疫情到来时，这个项目突然变得如此重要起来。事实证明，在美国每年因为医院内感染而死亡的人数是车祸死亡人数的三倍，很大程度上是因为医生和护士将细菌从一个房间带到另一个房间。因此世卫组织制定了非常具体的手部卫生方案。但是人类总会犯错误，不按规范洗手。目前医院监控洗手规范的方法非常昂贵，覆盖面稀疏，而且显著干扰正常一户活动，具体来说就是在洗手池边上安插监督员来提醒医生和护士，这种做法显然完全不可扩展。因此我和我的学生一直与斯坦福儿童医院和犹他州山间医院合作，在卫生凝胶分配器前面放置深度传感器，然后使用视频分析和活动识别系统来观察医疗保健工作者是否以正确的方式洗手。可以看到，与人类观察员相比，计算机视觉算法的精确度和提醒率非常高。另一个例子是重症监护患者下床运动项目，让患者在 ICU 中以正确的方式下床非常重要，这一点可以帮助患者康复。美国GDP的1%都花在了重症监护室里——医疗保健行业整体占了18%——这里是病人为生死而战的地方，我们希望帮助他们康复。我们与斯坦福医院合作，将RGBD 传感器放置在重症监护室，以此研究如何协助病人运动。医生希望患者做的一些重要动作包括起床、上床、坐到椅子上、离开椅子等等，而我们可以利用计算机视觉算法来帮助医生和护士跟踪这些动作。最后还有不能忽略的一点是老龄化。我们如何保证老年人的安全、健康，同时还能独立生活？如何发现感染、运动能力改变、睡眠障碍、饮食问题等等的早期迹象？计算机视觉能够发挥重要作用。我们现在才刚刚开始与泰国和新加坡进行实际合作，将计算机视觉算法引入老年人的家中，但同时也要牢记隐私问题。
必须指出，我仍然对长期未来感到非常兴奋。我认为无论我们做什么，我们都大概会进入一个机器人与人类合作使得生活更美好的世界。被动传感器构成的环境智能确实可以做到某些事情。但是我认为最终实体人工智能将会更大地帮助人们，包括消防员、医生、看护者、教师等等。从技术上讲，我们需要实现感知和行动之间的闭环，唯此才能将机器人或者实体人工智能带入世界。目前现实与理想之间的差距依然很大。画面上这台波士顿动力公司的机器人非常没用，想要将几个盒子摞起来都惨遭失败。我知道机器人研究进展也非常快。因此仅仅举一个例子并不公道。但是总的来说，我们现在的机器人学习与研究整体上仍然停留在技能水平任务、短期目标和封闭世界指导等方面。我想与大家分享一项至少尝试在开放世界进行机器人学习的尝试。这项尝试仍然没有完全缩小所有鸿沟，我也没有声称我们做到了这一点，但是至少我们正在某些层面开展努力。我们半年前刚刚发布了VoxPoser。我们观察典型的机器人任务，例如开门。今天的机器人学习的理念是你给机器人一个任务，然后再给机器人一个训练集，然后尝试训练一个动作模型，最后测试这个模型。但是问题在于如何归纳实地可能出现的情况？如何在开放世界教育机器人？画面上就是结果。我们这项工作的重点是使用开放词汇进行野外运动规划，这个想法实际上借鉴了大型语言模型：通过大语言模型组成任务，通过视觉语言模型识别目标和障碍，然后使用代码生成的3D值图来指导运动规划。一旦机器人接受了指令，打开最上面的抽屉，你就可以使用大语言模型来编写指令，因为大语言模型可以帮助识别对象和操作。与此同时，你还可以使用视觉语言模型来识别需要的对象，每次识别都会更新规划图。在这种情况下，它有助于您识别抽屉。地图设置了一些值，并且重点关注抽屉。如果你给机器人下一道额外的指令“注意花瓶”，指令会经由大语言模型返回视觉语言模型，使得机器人识别花瓶以及有障碍物的规划路径，从而更新值图，重新计算运动图，如此递归，直到实现动作优化为止。画面上是我们在现实世界模拟当中看到的例子。如今已经有了几个机器人针对铰接物体与可形变物体的操作示例，以及在日常任务当中执行此操作的示例。
还有最后三分钟，我再跟大家分享一个项目。我总是在内心深处感觉到，即使是我刚刚向大家展示的 VoxPoser 以及我实验室中的许多其他项目，与我出身的领域——即视觉世界——相比，前者涉及的数据规模都非常小，实验场景的设置不仅很小，而且很零碎，没有做到标准化，并且实验任务或多或少由实验室设定。与如此复杂、动态、多变、互动、多任务处理的现实世界相比，它实在令人不满意。我们如何在机器人学习方面取得进展？计算机视觉和自然语言处理已经向我们展示了大数据以及有效的基准测试对机器学习的推动。因此如何将大数据的目标与机器人学习的有效基准测试结合起来一直是我思考的问题。画面上是我们一直在做的新项目——其实已经不那么新鲜了，已经推出了三年——名叫“行为”/BEHAVIOR，全称是“虚拟、互动、生态环境当中日常家庭活动的基准”。我们想要训练机器人执行1000项对人们来说很重要的任务，而不是什么零散的无关任务。所以我们从以人为本的方法开始，首先询问千上万的人们：“你想要一个机器人来帮助你吗？”你想要机器人来帮助你清洁厨房地板吗？是的。铲雪？是的。叠衣服？做早饭？拆开圣诞礼物？我们实际上采取了以人为本的方法，查阅了美国和其他国家人类日常活动的政府数据。我们前往Amazon Mechanical Turk这样的众包平台询问人们希望机器人做什么，然后对反馈回来的数千个任务进行排序，以此确定人们需要以及不需要什么帮助。各种家务清洁工作都让人讨厌。但是拆开圣诞礼物、购买婚介或者调配婴儿麦片之类的工作对人类来说非常重要，在这些方面我们不需要机器人替我们干活。因此我们选取了人们希望机器人帮助的前1000项任务，并将其汇总为行为数据集的列表。然后我们扫描了50个现实世界环境，例如公寓、餐馆、杂货店、办公室等。与我最喜欢的ObjectVerse 相比，它的规模非常小，但我们拥有成千上万的对象素材，以此创建了一个模拟环境。
我想向华盛顿大学和其他许多地方的许多优秀工作表示感谢。机器人模拟实际上是一个非常有趣的研究领域和优秀的工作，像Ai2THOR、Habitat、Sapien也做出了很多贡献。我们与 NVIDIA，尤其是 Omniverse 团队合作，尝试专注于为机器人学习创建一个真实的模拟环境。该环境具有良好的物理特性，例如热特性、过渡特性与照明特性等等；我们的用户研究表明这个环境的景深透视做得也很到位；至于被测试机器人与环境互动就更不用说了。细节我就不说了，总之我们进行了一些比较，用这套行为环境进行了1000项机器人任务训练，并且展现了它的优势。目前我们正在开展一系列工作，涉及基准测试、机器人学习、多感官机器人，甚至还有关于家用机器人影响的经济学研究。
还有一件事我没有在这里展示：我们正在利用BEHAVIOR环境研究脑机接口。在BEHAVIOR环境里，受试者可以利用脑电图驱动虚拟机械臂，以此展示脑机接口的效能。这个项目是本季度刚刚发布的，所以我没有包含相关幻灯片。BEHAVIOR正在成为一个非常丰富的研究环境——我希望整个人工智能领域都能从中获益，但是至少我们实验室的机器人研究已经从中获得了很大帮助。当然，我们的目标是有一天我们将缩小机器人技术与写作机器人——或者说可以帮助人们的家庭机器人——之间的差距。这部分研究的目的是找出问题，无论是医疗保健还是嵌入式人工智能的问题。我们希望构建人工智能来查看并执行人类希望它做的事情，无论是帮助患者还是帮助老年人。我认为重点在于利用AI增强人类能力，很多合作者都参与了这部分工作。
以上内容总结了我们工作的三个阶段或者三种不同类型的工作领域。所有这一切共同构成了我所谓的以人为本的人工智能方法。我们认识到在开发人工智能时必须关注人工智能对于人类的影响，人工智能的开发重点必须是增强与增进人类能力，人工智能依然很有必要接受人类智力、认知科学和神经科学的启发。这三条要求确实是斯坦福大学以人为本人工智能研究所或者说HAI的基础，该研究所是我在五年前与来自英语、医学、经济学、语言学、哲学、政治学、法学院等学科的教师共同创立和启动的。HAI研究所已经存在快五年了，我们的工作范围覆盖了从数字经济到基础模型研究的各个领域，我们的一些工作人员站在大语言模型基准测试与评估的最前沿。我们还与Michael Bernstein等教师合作，为人工智能研究创建伦理和社会审查流程。我们不仅致力于向本科生提供人工智能伦理学的教育，而且还在将这种教育传播到外界，尤其面向政策制定者和企业高管。我们直接与国家政策、国会、参议院和白宫接触，倡导公共部门向人工智能投资。华盛顿大学是我们的合作伙伴，此外来自华盛顿州的参议员也非常重要，因为他们正在推进一项建设国家级人工智能研究云的法案。我的演讲到此结束，以上是对于以人为本的人工智能研发方法的浓缩快速概述。接下来我很乐意回答问题。
通宝推：qq97,钓者任公子,普鲁托,
- 复 311-李飞飞：我们能看到的与我们所看重的
  家园 关于AI的几点胡思乱想
  1，李飞飞的主要工作在于推动第一代图像识别AI的技术突破，这个技术现在已经在产业界广泛应用。
  2，基于这一代AI技术，产业界已经在产品上做了大量的图像方面的应用。因为产品设备上边缘推理算力的成本、速度、功耗方面的限制，一般需要做相当程度的优化，我们的经验是，优化后速度一般可以快2个数量级，资源消耗可以低2个数量级。
  3，李飞飞展现了这些顶级科学家的思维模式，他们更多地观察和思考自然界，从中吸取灵感，并在哲学的指导下思考问题。这一点中国的教育体系需要向美国学习，中国的整个教育体系的目标还是培养大量的跟随式人才。
  4，中美差距，客观说，中美在创新方面差距还是巨大的，如果按创新阶段来看，首先是提出问题，然后是解决问题，第三步是将解决问题的方案应用于产业，我们一般擅长第三步，前两步我们差距较大。所以最佳地球模式是中美合作，如果美国一定要对立，光是第一、二步强也未必就能稳操胜券。
  5，第一代AI突破是图像识别，其应用往往需要依托于已有的实体企业，但第二代AI突破的是内容生成，因此依托于已有大模型，其创业门槛已经降低。据说现在硅谷创业成风，估计很多都是做内容的。现在国内已经有了前期的铺垫，一些自媒体开始吹风美国的大模型是基于“人类价值观”的，其产生的内容符合人类价值观，言外之意是国内大模型是不符合XX价值观的，因此孩子的教育必须使用美国的AI教育。。。
  6，也有些疑似缓则借着这一波AI说去美国留学，而且别回来，因为国内创新环境不行，算力不行，更重要的是价值观世界观不行。。。
  7，AI有真正的人类智能吗？这个问题现在似乎还是没有公认的答案。曾经跟同事讨论这个问题，大模型有人类的智能吗？依据什么标准？我的看法是，大模型归根到底还是基于对海量数据进行统计分析做出的规则，即使大模型能发现某些人们尚未发现的规律，也是因为它的统计能力更强得出的归纳，AI相当于一个特别特别特别博闻强记的人，但它能不能发现两个统计相关的事物之间的内在逻辑？说到底这还是对人类的疑问，人类还有没有超出博闻强记、海量统计归纳的能力？比如，AI能不能发现相对论，量子力学？穿越回1928年，AI能不能写出《红色政权为什么能够存在》《星星之火，可以燎原》？
  通宝推：时间的影子,ccceee,广宽,青青的蓝,
  - 复关于AI的几点胡思乱想
    家园
    AI有真正的人类智能吗？AI会有类似的人类智能
    人类智能的本质是创新，无中生有。而AI按程序走的话，是无法走到创新的。不过……替AI辩护一下，到底什么是创新？
    爱因斯坦发现相对论算不算创新？半算😄。相对论所描述的物理规律一直都在那儿、一直都存在，爱因斯坦不过是用一个叫“相对论”的理论来描述它、来介绍给人类。
    就好比量子电动力学，海森堡用的矩阵力学，薛定谔用的波动方程，二者名字不一样，却是一回事。
    好了，现在来说，AI不都是按程序指令走吗，会像爱因斯坦那样发现“早已存在”的“相对论”吗？
    AI有两个实现类似人类智能的基础：一是算法里的随机；二是出错😄。这两个都是非理性的、非具体指令的，完全可能产生智慧的火花💥
    
    本帖一共被 1 帖引用 (帖内工具实现)
    辛顿，李飞飞，和AI之问
    - 复 AI有真正的人类智能吗？AI会有类似的人类智能
      家园 我认为现阶段还没有
      辛顿，李飞飞，和AI之问
      上面这个帖子是回复。
      相对论所描述的物理规律一直都在那儿、一直都存在，爱因斯坦不过是用一个叫“相对论”的理论来描述它、来介绍给人类。
      问题是，谁来把这个一直都存在的“物理规律”的相关世界转化成大数据来训练AI？
      更何况，广义相对论，不要说“大数据”，连小数据都没有，压根就是零数据，以至于爱因斯坦提出广义相对论以后，人们还需要专门设计光线偏移的观测试验才得出了广义相对论的“真实数据”。
      我认为，上面这个过程，以现在的大模型的技术路线演进，即使在以后也是无法完成的。
  - 复关于AI的几点胡思乱想
    家园 能写，但AI一样能写，红色中国末日什么的
    要接受AI吐出文稿的能力和其内核思想无关。
  - 复关于AI的几点胡思乱想
    家园 有可能的，AI早晚会在算法上不断演进，先进的算法加海量数据调
    用，能力的确会1>10的n次方。
    AI相当于一个特别特别特别博闻强记的人，但它能不能发现两个统计相关的事物之间的内在逻辑？说到底这还是对人类的疑问，人类还有没有超出博闻强记、海量统计归纳的能力？比如，AI能不能发现相对论，量子力学？穿越回1928年，AI能不能写出《红色政权为什么能够存在》《星星之火，可以燎原》？
- 复 311-李飞飞：我们能看到的与我们所看重的
  家园 李飞飞也嫁给了白人
  中国男性似乎缺乏和优秀女性相处的情商。一旦优秀女性有了其他选择，中国男性往往竞争失利。中国的优秀女性本是非常谦卑得体的，并不多见所谓攀高枝。比如不仅李飞飞的丈夫学术成就远不如自己，另一个优秀华人女性代表庄小威，和科大同学的前夫离婚后，再嫁对象也是自己手下的白人技术员，还秃顶。
  很多人可能没看过的一部上世纪文学作品，作者就用父母之口写出了这种骨子里的自卑：
  父亲捻着胡子笑道：“鸿渐，这道理你娘不会懂了。女人念了几句书最难驾驭。男人非比她高一层，不能和她平等匹配。所以大学毕业生オ娶中学女生，留学生娶大学女生。女人留洋得了博士，只有洋人オ敢娶她，否则男人至少是双料博士。鸿渐，我这话没说错罢？这跟‘嫁女必须胜吾家，娶妇必须不若吾家'，一个道理。“
  --《围城》
  国外华人优秀女性嫁白人只是比较容易看到的表象。现在即使在国内，也存在大量优秀女性婚恋困难。很多恨嫁不得的大龄『剩女』常说，『也不要他挣和我一样多的钱，只要各方面过得去，不作妖就行』，但就是很难。很多已婚的师姐们，也常常吐槽生活中要像哄小孩一样哄着的无力感。只是国内因为没有白人男性备选，问题被掩盖了而已。换句话说，这不是个海外的问题，而是中国文化自身的问题。
  通宝推：梁效,亮子,
  - 复李飞飞也嫁给了白人
    家园 她既不是中国人
    也没在中国长期学习工作过，嫁个美国白人有什么奇怪的。
    她15岁就去了美国，接受完整的美国教育，之后学习工作都是在美国。这一路下来也没接触过中国男人啊。要反思的话，也是美籍华男来反思比较合适吧。
    另外，中国人习惯把名人往圣人的方向推。女科学家就是女科学家，尊重她的学术能力就好，别把她的其他个人品质上纲上线。
    波兰荡妇的学术成果也是顶级的，但也没人因为她嫁了法国人后又知三当三，而要求波兰男人反思一下的。
    - 复她既不是中国人
      家园 不是这样的
      我刚来美国时常去一个中文论坛，后来一批人混熟了就拉了一个私人群组，几年下来大家更熟了，家长里短的都在群里分享，多数网友都有线下见面的经历。
      那群人里有个小伙子，就按网名叫他S吧，时不时地唠叨一些和他女友的情感琐事😁。后来俩人分手了，小伙子也海归创业了。
      突然有一天，群里的八卦女王跟大家说，注意看下期的《非诚勿扰》啊，S要出场找对象！八卦女王和S原来都在湾区，是经常见面的特别熟的朋友。
      我们大部分人都准时收看了，而且我还是第一次知道了S的真名😅。小伙子运气不好，没坚持到最后灯就全黑了。
      后来LFF出名了，八卦女王就跟我们说了，当年S整天唠叨的前女友，正是这位LFF。😂😂😂
      通宝推：爱情,
      - 复不是这样的
        家园 认识不少外嫁的老中女。另议颜宁
        有两个印象特别深刻的。先总结一下我的观点：女生要打算做研究做教授的，尽量在本科，最晚研究生的阶段结婚。
        一位是某藤校的PhD留学生，漂亮，性格好，身材好，而且家庭教养很好，父母亲戚什么的都是非常传统的大城市普通人。在念书的时候周围很多小中小白围着转。她那时候陆续谈了两个背景类似的小中留学生，都是很出色的男生，但是因为一些莫名其妙的原因分手了。中间被一个小白追着试图交往了一小阵，实在是没法相处就没继续。
        几年后毕业了，她在一个中西部的大学找到了教职，就一个人搬去大农村了。中间也不停的努力寻找过，但一个是周围的男老中太少，二是随着年纪渐长，越来越没有合适的对象了。最后嫁给一个快退休的老白。婚后生下一个孩子不到两年这老白就因病去世了。也许是看开了吧，这女生就辞了美国的工作，带着孩子去亚洲某地谋了一个教职。
        后面再到美国的，也大约是这个情况，在合适的年纪没有遇到合适的小中男就错过了。尤其是做了教授的女性，适合谈恋爱的年纪就那么几年，念书做研究一旦忙起来就很容易错过合适的男生。一旦错过了，真的就很难找到合适的了。在30多岁40多岁的做教授的老中男，却刚好相反，好多都是美国有个家有老婆孩子，实验室有中国来的博士后做情人，在国内还有>1位相好。对这样的男士，女教授是万万避之不及的。这样的花心男老中教授，我竟然也认识好多。。。当然我认识的大部分都是对老婆好对孩子好，在家很乖的男老中教授。
        另外就是颜宁。她年轻的时候在普大和一个男生关系挺好的，大家都很看好但就是两人都一直单着没有正式在一起。我特别佩服她的研究工作，也很佩服她在新泽西前前后后住了十几年没有外嫁。
        通宝推：青青的蓝,方恨少,
        复认识不少外嫁的老中女。另议颜宁
        家园 颜的case属于精殖
        从她疫情期间狂喷国内的防疫政策就能看出来
        但据说美国那边开始大量使用AI来解蛋白结构，把结构生物学的高光都抢过去了，于是她回国了。。
        复颜的case属于精殖
        家园 个性吧
        不只是喷防疫政策，她还狂喷过：
        * 国内的教育政策
        * 国内的人才选拔政策
        * 国内的科研经费分配政策
        * 结婚和生小孩
        * 不给她评院士
        个性很强的。所以她在清华呆了10年后对种种不满又回新泽西了。我当时就想对国内这么不满到了美国那大概是要安家了。她也早早在还在清华上班的时候就在新泽西买了房子。就在这样的情况下也没有外嫁。
        后来她去深圳真的是出人意料。具体情况没问，这样的说法倒是有道理的：
        但据说美国那边开始大量使用AI来解蛋白结构，把结构生物学的高光都抢过去了，于是她回国了。。
        复个性吧
        家园 可曾喷过对面？
        如果仅仅是个性，一不高兴就开喷，应该不会有那么明显的统计规律。
        颜的清华同学兼好友李一诺，她的公众号我关注了一段时间，也是倾向性非常明显。这两位其实代表了华裔高知精英女性的一些共性。即同样对欧美文化极度崇拜，嫁白男只是其中一部分人的一些具体行为的体现。
        但写这些倒也不是挑起性别对立。国内那些挣了点钱就想润的男人，又有什么区别呢？
        西方人常挂在嘴上的价值观，和我们说的价值判断，以及对一支股票的估值，其实是同一件事。
        道阻且长。
      - 复不是这样的
        家园 相爱容易相处难
        越是学识能力强的人，越有自己的主见。
        能够读到大学，研究生，博士，教授的人，或者其它高层次无一不是有见识有行动力控制欲强的人。对配偶要求更高，按照毛委员的话讲，不是东风压倒西风就是西风压倒东风，双方民主友好协商实际难度有点高，绝对民主，绝对公平是不存在的。
        男子好色女子爱才（财），这应该是人性，不是性别歧视，这是可以用跨国婚姻性别比例统计数据证明的。渣男渣女大男子主义败家女之类概念，古今中外皆不例外，没必要扯什么国别。
      - 复不是这样的
        家园 华人女教授嫁白人是个相当普遍的现象
        这个领域是个特殊问题，互为因果。
        有点类似国内用人的“无知少女”的现象。
        不能推论到更大范围。

分页树展主题 · 全看首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明