主题：208-David G. Stork：计算机眼中的艺术 -- 万年看客

共:💬6 🌺21 新:

老大河待整

208-David G. Stork：计算机眼中的艺术

https://www.youtube.com/watch?v=6hfZ_oEDcwU&list=PL4i9YSoIJiPfAq5TCk7xdVrJlxRAMbay-&index=40&t=2363s

今天我要讨论计算机如何观看艺术品。当你审视我们在世界各地的博物馆里保存的图像财富，着实十分惊人，这些都是人类创造过的最重要的图像，也受到了极其深入的研究。但是直到过去十来年，我们当中的一小群人——不过我们的人数正在增长——才开始使用计算机视觉，机器学习、人工智能来分析这些艺术名作的历史与诠释。但即便你对人工智能而非艺术感兴趣，你也依然应该因为艺术向人工智能提出的、绝大多数图像处理不会涉及的问题而对艺术感兴趣。例如，艺术提现了范围宽广的风格，包括用色、造型、笔触、标记等等，在照片中体现不出来。我们的数据库规模很小。目前绝大多数人工智能的数据库都包含千百万甚至几十亿张照片用来训练物体识别与图像分割等任务，但是约翰内斯.维米尔这样的艺术家一辈子就只留下了三十四幅画，我们无法利用大数据来训练人工智能分析艺术品。艺术包含非真实的物体，例如达利笔下像蜜糖一样流淌的钟表，训练样本里肯定不会有这样的照片。艺术包含不顾物理的场景，例如插着翅膀在天上飞的小孩子。还有一个特别难缠的问题在于如何让人工智能理解抽象艺术，因为基于典型来辨识物体的传统人工智能能力并不能理解抽象画的意义。但是绘画与绝大多数照片的罪深刻区别在于意义，绘画是由画家或者作者创作的，往往是为了传达主题或者理念，目前的传统人工智能确实应付不了这一点。

我举一个例子来说明目前的人工智能如何应对绘画或者照片的意义。画面上是由目前最先进的深层神经网络输出的图像分割结果。深层神经网络接受过几十亿张照片的训练，现在可以将图片区分成不同的区域，例如人行道、行人、汽车、建筑等等。但是深层神经网络完全不能告诉我们为什么某人会创造一幅图像。现在大家看到的是伦敦国家美术馆收藏的一幅画，画面上充满了意义。目前的人工智能够辨认画面上的贝壳、骷髅头、酒杯、书籍等等，甚至还可以做出简单的谓语判断，例如“书籍挨在骷髅头旁边”或者“怀表摆在桌子上”。但是这完全不能告诉你为什么这幅画要采取这样的构图结构，为什么艺术家要这样做。这些物体及其它们的构图与风格共同创造了意义。简而言之，这幅画属于所谓的劝世静物画或者说虚空画（vanitas），是荷兰黄金时代的作品。此类画作传达的信息是“不要关心此生的享乐，要过简朴谦逊的生活，为了未来的永生做准备。”怎样用一幅画传达这样的意义？首先，骷髅头显然指代死亡，书籍代表了俗世的知识，乐器代表了文化品味，酒杯代表了享乐，贝壳与日本武士刀代表旅行见识。桌子上的钟表代表时间，不是一般的时间，而是生命流逝的时间，表示你的生命永远都在流逝。背景里的油灯原本应该是点燃的，火焰代表生命。但是生命之火已经熄灭了，而且还是最近熄灭的，因为你能看到一缕青烟从灯芯冒出来，表明死亡正在步步紧逼。我们还注意到一束光线从左上角打下来，直接照在骷髅上，显然具有宗教意义，说明画家是在直接对你说话。这幅画的风格也是为了这一意义而服务。画风高度写实，尽可能贴近实物。画家借此传达的信息是“这些东西在你观看之前就摆在这里，这些都是真的。”如果改用印象派的模糊笔法，就会失去这一层含义。画作的尺寸也很重要。画家选择了实际大小，让物体看上去就摆在你的面前。同样的画面用微缩画或者巨幅壁画来表现也会失去一层含义。理解这一切意义是人工智能应当试图解决的问题。我想给大家展示一些我们目前的研究成果。这是我们试图让人工智能理解绘画意义的第一步。

我们先来谈谈我们为艺术家开发的工具，首先从光线开始。画面上是约翰内斯.维米尔的旷世杰作《戴珍珠耳环的少女》，维米尔是渲染光线的高手，我们可以注意到少女脸颊的阴影，珍珠的反光，眼中的闪光，嘴唇的光泽，等等。如果我们要问一个最简单的技法问题，那就是“光照的方向在哪里？假如两名艺术学者如果意见不一，我们应该怎么裁断？”接下来我向大家展示计算机视觉的六种技术，用来完全清楚地回答这个问题。这些技术可以改变我们对这幅绘画的理解，还可以应用在艺术史研究的其他方面。这六种技术分为两类，首先是非模型依赖的方法，我们不必知道或者假设画面图像对应的三维物体的形状，例如通过少女鼻子投下的阴影来确定光源方向。此类方法的典型例子就是封闭轮廓线算法。其次是模型依赖的方法，我们需要假设画面物体的形状。就这幅画来说，我们要为珍珠耳环、少女的眼睛、少女的脸庞以及整个画面造型进行3D建模。

最简单的分析方法就是投影分析，甚至连计算机都不用。我们首先在遮光体上找一个点，再找到与这个点相对应的投影点，以直线连接两点，再加上偏差条，就可以计算出在光照相对画面平面的角度是150度，正负偏差两度——接下来我要测量的所有角度都以水平面为准。

然后是遮光轮廓算法，即根据物体遮光轮廓外缘的光照模式来推断怎样的光照方向最能符合这一模式。如果我们只看轮廓上的一点，那么这一点上的亮度由三个因素决定：光的强度，物体的反照率或者说黑白灰的颜色深浅，最后是光照方向。如果只看这一点，那就是一个方程三个未知数，肯定无法解答。但是如果我们测量物体轮廓上的许多点，那么就可以解方程组。物体轮廓的中部总是比较亮，更有可能正对着光线；边缘比较暗，大概是指向其他方向。我出版了两篇论文之后才发现达芬奇早在1498就发现了这一原则。而且他不仅进行了定性讨论，还进行了定量讨论。他计算了光线以不同角度照在人脸不同位置上的效果，从而让绘画更加准确。我们则采取同一套原则来推算画面的光照方向。我们是最早将这一原则应用在绘画上的研究团队。根据这种算法，《珍珠耳环少女》的光照角度是是149度，正负偏差4度。

然后来看看模型依赖的另外几种方法。我们首先为画面上的珍珠拍摄了一张高分辨率照片。我们可以合理地推测珍珠是球形。所以我建立了球形的线框参考模型，然后进行纹理贴图，加上白色的珍珠表面。珍珠既有镜面反射也有漫反射，建模人员必须依靠肉眼来调节两种反射的比例。在计算机建模环境里，我们可以将光源放置在任何位置，从而渲染出一颗尽可能准确地贴近绘画效果的珍珠。这种做法也能用来估算画面的光照角度，算出来是155度，正负偏差四度。

少女眼睛的反光也可以作为估算依据。眼睛是这张计算图中的红色球体，光源与眼睛的相对位置可以依靠简单几何来计算，只要知道入射角与反射角就行。光源、少女的眼睛与观众眼睛共同决定了一个平面，这个平面的倾斜角度就是光照角度。我们将少女眼睛的中心与眼睛反光的中心相连，算出的结果是150度，正负偏差两度。

我们应用的最复杂估算方法名叫阴影造型（shape-from-shading）。如果绘画当中的脸有一个三维模型，那么只要给这个模型打光，就可以测算出最契合画面上脸部阴影分布的光照角度。问题在于我们并没有现成的模型，所以我们只得退而求其次，找了一张普通的脸——其实是男性的脸，然后将少女的二维面孔尽量精确地重叠在三维人脸模型上，再然后采用阴影造型算法来估算光照方向。当然这个结果肯定不正确，因为脸模从一开始就不对。所以接下来我们将第一次估算的光照角度作为定量，转而去调整脸模的外形与反照率，这样就得到了一个更贴近少女的脸模，再用这个改进版脸模来重新估算光照角度。两次迭代之后我们就得到了更精确的光照方向与更贴切的脸模。研究机器学习的人们应该已经意识到我们采用了广义期望最大算法。这个算法得出的结果是160度，正负偏差五度。

最后我们还可以为整个画面3D建模。当然，从2D转化到3D是个很棘手的问题，但是如果你采用某些关于面部对称以及普通几何的假设还是能做到的。从技术上来说，转化过程中的不确定性会增加估算结果的方差，但是并不会增加偏见，使其偏向过高或者过低的方向。我曾经在莫瑞泰斯皇家美术馆展示过最终建模结果，观众们的反应极其激动，因为他们从来没想过还能看到珍珠耳环少女的背影。总之我们围绕模型移动光源，当最符合画作的光照情况时就停止。然后我们就采用AlphaBlend图像技术，模糊电脑图像与原画的界限。可以看到最终成品极为忠实于原作。现在屏幕上是三幅光照角度略有差异的《少女》，中间一幅的角度正合适，左边这幅偏高了三度，右边这幅偏低了三度。这样估算出来的结果是160度，正负偏差五度。

将上述所有估算取平均数，最后结果是155度。这个结果本身不很有趣，真正有趣的是各项估算之间极其微小的标准差，换句话说不同方法的估算结果高度近似。为什么艺术学者要对这个数字感兴趣？《少女》其实不是一幅肖像画，而是一幅旨在练习绘画技法的研习画（tronie）。好些艺术史学家都在争论这幅画究竟有没有真实的模特，又或者是画家凭着想象画出来的。多种估算方式得出的光照角度高度一致，说明画家几乎一定是对着真人模特进行创作。现在屏幕上是《少女》的光照示意图，红线是155度，周围的黄色区域或者说心形线是可能的偏差范围，可以看到两者的契合多么紧密。

这种技术也可以用在艺术史研究的其他方面。例如文艺复兴时期的画作往往由多名画师共同完成，其中包括大师画家本人以及他的众多学徒。绘画活动往往在不同时刻进行，有时会在不同画室进行，甚至会发生在一年当中的不同季节，每一次的光照情况都不一致。采用计算机辅助判断光照情况远比用人眼直接判断更加可靠，由此我们可以判断出一幅画作有多少人经手。有些观众肯定会说，《戴珍珠耳环的少女》的画面当中只有一个光源，但是大多数画作都有多重光源。所以我们推广了上述做法，构建了光场模型。光场当中的光线由L和V两个变量来描述，L是强度，V是方向，例如从墙壁反射回来的光线，透过窗户射进来的光线，蜡烛发出的光线。物体某一区域的光照情况是所有这些入射光的整体总和，乘以反射函数也就是朗伯余弦定律。具体的数学细节我就不讲了，大家只需知道这其中涉及球谐函数。如果哪位学物理的观众曾经计算过氢弹的波动方程，那么对于球谐函数一定非常熟悉。我们我们用球谐函数得出的前五个最大值来指代入射光，也就是照在物体上的五个最主要光源。不过这五个光源的各自权重是未知的，我们还必须估计各个光源在函数当中的对应系数……

那么这门技术在实际生活当中的应用情况如何？现在大家看到的这幅画是费城市长爱德华.兰道——如今他已经成为了宾夕法尼亚州州长。给名人绘画的时候很难让他们在你的画室里一站几个礼拜甚至几个月。所以画家加斯.哈利克采用了另一种技法。他首先来到兰道的办公室，给对方拍了一张全身照。然后他再去找到他希望采用的背景——这个背景可能位于另一个州另一座建筑里面——也拍摄一张照片。我们可以看到右手边这张照片是哈利克本人站在他为兰道市长选取的背景前面作为参考。然后画家回到画室，参照这两张照片进行绘画。但是这种创作方式无法保证背景的光照情况与人物的光照情况一致。你肯定看不出来，就连专业的艺术学者也很难分辨，但是光场遮蔽技术就能看出来。这第二幅画上的人物是宾夕法尼亚州的副州长马克.西格尔。我们可以看到这幅画作的背景照片与人像也是分别拍摄的，请注意在人像照片当中副州长正在与别人握手，而且他还要求画作中的自己伸出一只手。于是哈利克又拍摄了一张他本人伸手的照片作为模特。因此这张画作总共用了三张照片作为参考。看看最终画作，实在很难区分光照情况究竟一致还是不一致。但是我们的技术就能做到。

我们需要做的就是对比不同物体光照的权重因子相差多大。下面我们看到了哈利克用作参考的照片——一对母子在泳池边上晒太阳——以及以这张照片为参照物的画作《亚普罗辛》（Apotheon）。我们还分析过哈利克的《我这无信手臂之上的人类》（Human on my faithless arm），他一开始先画好了这幅画的背景，然后过了九个月在另一间画室里对着镜子将自己当作模特画下了人像。这一来根本无法保证背景的光照和他本人身上的光照一致，至少仅凭肉眼分辨不出来。这就是我们的分析结果，上方的图标列出了男孩与母亲的光照参数，两套数据的的差距极小，只有0.06，说明男孩身上的光和母亲身上来自同一光源，画家也明确体现了这一点。至于下面这张背景与人像的表格，光照参数的差距则要大得多，达到了0.373。因此计算机知道背景的光源与人身上的光源不一致。

现在我想利用这项技术来解决十五年前艺术史领域的一项重大争论。假如我们回顾一下西方绘画艺术的发展历程，就会发现1430年前后肯定发生了某些有趣的事情。在此之前，西方人像画往往有些死板，从1330年的乔托到1425年的马索利诺无不如此，马索利诺的人像尤其画得好像瓷娃娃。但是1430年我们有了罗伯特.康平，他笔下的人像可谓栩栩如生，简直堪比照片，能够清楚看到模特的个性以及之前的人像从未展现过的心理深度。这个人看上去就和我们一样。这其中究竟发生了什么？

为了解释这种全新艺术风格的问世，著名当代画家大卫.霍克尼提出了一项大胆且极富争议的理论。他认为1430年之后的古典绘画之所以光学效果更好，是因为画家采用了光学器材的辅助，文艺复兴时期的画家会秘密使用光学器材来作画。具体来说，模特坐在画室外面，画家坐在里面，两人之间的墙壁上开了一个小窗户，关键设备是一面正对窗户的凹面镜。任何光学专家都会告诉你，凹面镜就像凸透镜一样可以投射影像。当然影像是上下颠倒的。画家用线描将影像绘制在画布上，然后将画布上下颠倒过来填充细节施加颜料。他用来支持这一理论的证据之一是卢浮宫里的杰作，乔治.德.拉.图尔的《木匠圣约瑟》。他与科学家合作伙伴认为：“光源似乎来自画面以外，这是使用了光学设备的必然情况……约瑟与女孩大概是分别绘制，分别由被遮挡的光源照亮，光源位于另一个人物的所在位置。”在他的著作《秘密知识》一书中，霍克尼将这幅画拆解成了两半。他认为在绘制基督时光源位于圣约瑟的位置，在绘制圣约瑟的时候光源位于基督的位置。在观察圣约瑟时推断光源位置很不容易，但是计算机却将这一点看得一清二楚。首先应用的技术是投影分析。比方说将圣约瑟的左脚大拇趾阴影与左手大拇指阴影两点定线，这条直线恰好指向基督手里的蜡烛。多做几次投影分析就会发现，约瑟身上的大部分阴影都指向蜡烛的烛光。大家可以看到，我以蜡烛为中心画了好几圈等高线，表示验后概率密度。越是靠近等高线的中心区域，光源位于这一位置的概率就越高，反之则越低，就像天气预报使用的降水概率图一样。我们整合了最大似然估计的结果，发现这幅画上有四个点最有可能解释画面上所有投影的不同方向、衰减与置信。

接下来我们再来使用遮光轮廓算法。计算机围绕蜡烛画出了所有这些红色箭头。惊人之处在于，计算机丝毫不理解巴洛克艺术风格，甚至不理解三维空间，但是依然根据耶稣小腿的轮廓推断出了光源的方向与位置，果然与蜡烛重合。德.拉.图尔绘制光照的能力有口皆碑，但是极少有人真正能够体会他绘制的光线多么精准地穿越平面照射在耶稣的小腿上。借助最大似然估计也能确定蜡烛与小腿的关系。顺便说一句，蜡烛的位置位于耶稣的身后，蜡烛上方的白色是蜡烛燃烧生烟。我们还用同样的技术分析过《油灯前的抹大拉》，结果也差不多。似然性分析的优势之一在于方便整合估算结果。投影法得出一套结果，遮光轮廓法得出一套结果，两个结果相乘可以提高精准度，由此可以断定《木匠圣约瑟》的光源绝非位于画框之外，绝非位于画中角色原本的位置，霍克尼的观点是错误的。

这幅画还包含着其他我们可用的光照信息，也就是地面的光照情况。地面中间明亮，四周较暗。光源位于哪里才能造成这样的光照模式？于是我们进行了地面建模，地面某一点的光照强度与光源和该点之间距离的平方成反比，与光线和垂直地面方向夹角的余弦成正比，因为兰贝特余弦定律告诉我们，这一角度决定了多少光线会遭到偏转。这种估算方式得出的光源位置要比蜡烛低一些，但是显然依然位于画框之内。

还有更多的光照证据并未被我们的分析采用，比方说人体身上的光照模式——不考虑投影，不考虑轮廓。就像《戴珍珠耳环的少女》一样，这里我们也为画面当中的两个角色进行了3D建模。我们可以将光源设定在圣约瑟的位置并且渲染耶稣，也可以将光源设定在蜡烛的位置并且渲染耶稣，然后看看哪一种渲染效果更贴近画作。问题在于我们不知道画面的景深，因此我们测试了十九种圣约瑟的位置与十九种蜡烛的位置，并且将两边的最好结果拿来比较。我给大家看看我们的建模成果。学习艺术史的人都知道，圣约瑟是世间之人，与他搭配的物品是木工工具；耶稣是世间之光，所以擎着蜡烛。毋庸置疑，后者的效果远远更贴近原作——耶稣的胸口被照亮的方式以及小腿上的阴影都与原画分毫不差。

接下来我们用计算机分析一下名画的几何结构。比方说维米尔的《绅士身旁坐在维金纳琴前的女子》。简单做一点几何形体分析与透视分析就能让我们推断出画家的视点位于什么位置。计算机根据原画模拟了绘画场景的3D模型。现在画面左侧是计算机建模与画家视点位置，右边是根据画家视点位置不同画出的不同画作。可以看出，视点越是后撤，原画的篇幅就越窄。所有这些模拟画作都严格遵守原画的透视关系，唯一的区别在于透视中心点不同。由此可以倒推出画家视角的位置或者——按照霍克尼的理论——用来取景的凹面镜的位置。

还有一副画，长期以来人们就主张采用了凸透镜片来绘制，也就是伦敦国家美术馆收藏的扬.凡.艾克的《乔凡尼.阿诺芬尼夫妇像》。为了推断透视中心点或者凸透镜的位置，我们再次动用3D建模。画家的画布就像摄像屏幕，凸透镜会将景象上下颠倒地投射在上面。那么镜片应该放在什么位置才能让画中吊灯的尺寸对应3D建模当中的实景吊灯？《阿诺芬尼夫妇像》的画面当中总共有十三件物品，每一件都可以如法分析。确定了物体的位置与成像的位置，就可以计算画家使用的凸透镜或者凹面镜的焦距大约是61厘米，正负误差8厘米。霍克尼与他的科学顾问查尔斯.法科（Charles Falco）认为，“凡.艾克将一面凸面镜放在了这幅杰作的正中心。同一面镜子假如凸凹调转，还有可能成为他绘制这幅杰作的工具。”画面上的凸面镜尺寸只有5厘米左右，其中映照出了阿诺芬尼夫妇的背影，前来参加婚礼的宾客走进门口。镜中窗户与婚床的形变显然表明这是一面凸面镜。我和几位日本同事研发了消除凹凸面镜像变形的技术，能够拉直镜像当中的曲线，还可以推算镜面的曲度从而测算焦距。利用这项技术，我们可以还原《阿诺芬尼夫妇像》的凹面镜镜像。假如你身在阿诺芬尼夫妇的婚房，来到他们身后，从凸面镜的位置看过去，就会看到这样一幅景象。这幅画作问世五百年后，我们终于揭示了画中的秘密。

我们之所以要这么做，原因之一在于我们要借助镜面的焦距数据来测试霍克尼的理论对不对。我们的计算结果是，这面凸面镜的焦距大约是18厘米，正负误差4厘米。这个焦距实在太短，无法用来绘制这幅画。我在《科学美国人》上刊登的示意图展示了这一点。图中的橙色球体是据称绘画用到的凹面镜的曲度形成的球体，蓝色球体则是画中凸面镜曲度形成的球体，两者尺寸相差实在太大。既然画家不可能使用这面镜子，有没有可能使用别的镜子？答案同样是否定的。因为画面上的透视关系参差不一，透视线并未汇聚在消灭点。你或许会说：“也许画家用了好几次镜子，每次用来创作画面的一部分。”这样一来又无法解释画面上的透视线为何如此又长又直。但是画面当中那盏吊灯又如何？霍克尼在接受CBS《60分钟》节目采访时告诉上千万电视观众，“这盏吊灯的透视关系完全准确。”他相信这一点证明了凡.艾克一定采用了光学辅助器材。于是我也用计算机检查了一下。一盏六枝吊灯从上往下看，将六枝标注为1到6。在相邻的1号与6号两枝各自选取高度相等的一点，过两点做直线，则这条线必然与阿诺芬尼婚房的地面平行。由于对称，在3号与4号两枝同样做直线也会与地面平行，在2号与5号两枝同样做直线依然与地面平行。由此我们可以用计算机生成一盏完全对称的吊灯3D模型，在这个模型的平面投射当中，上述所有直线必然交汇于模型下方的消失点，实际情况也确实如此。根据这套方法来分析一下阿诺芬尼夫妇画面上的吊灯，假如霍克尼是正确的，那么在这盏吊灯下方也应该能找到唯一一个消失点。结果却是一团糟，我们在吊灯左侧随便拉出十五条直线，别说相交一点，根本就是互不相干。这盏吊灯的透视关系就连完美的边也够不着。事实证明，计算机远比最优秀的画家与艺术学者更擅长分析透视关系。

如果要按照正规数学方法来解决这个问题，我们需要借助单应矩阵，也就是在投影空间当中将一个平面逐点映射到另一个平面。吊灯的两枝各自位于不同的平面，假设两枝的形状完全一致，那么只需一个单应矩阵就足以表达两者的关系。反过来说，假如两枝的形状不一致又该如何？我的同事发明了一套估算方法，能够找出使得两者方差最小的层析成像。我们可以将这套方法应用于阿诺芬尼吊灯的其中一支，将其映射到另一支所在的平面，然后再比较两者，结果发现两者的造型相差了10到20厘米。这一结果与霍克尼的理论相差甚远，这盏吊灯不可能是借助光学投影设备画出来的。支持霍克尼理论的理由之一认为如果不借助光学工具，一般画家很难仅凭肉眼就完美绘制一盏吊灯。真是这样吗？阿诺芬尼吊灯六根分枝末端的烛台倒是的确形成了相当标准的六边形，但是其他部分却相互对不上。那么绘制吊灯究竟有多难？为了协助我的研究，画家尼古拉斯.威廉姆斯为我绘制了两副吊灯静物画。一幅画得是五枝吊灯，我用单应矩阵分析了这幅画，其透视关系比起凡.艾克还要略强一点。威廉姆斯没有采用任何工具，没有投影仪，没有尺子，没有线描，什么都没有。第二幅吊灯更加美丽，现在就挂在我的卧室里。你可能看不出来，但是计算机分析表明有一支灯盏的造型与其他几支具有统计意义上的区别。我给威廉姆斯发去电邮问他怎么回事，他说他不小心将这盏吊灯磕了一下，有一支灯盏碰得变形了，与其他几支相比偏差了1.5厘米——计算机的估算结果是1.3厘米。我给大家展示一下威廉姆斯笔下的透视多么完美。我截取了面向观众角度不同的两支灯盏的截图，然后运用单应矩阵将1号灯盏叠加在2号上面，基本上完全吻合，误差只有一毫米。可见不必借助工具也能画出完美的透视效果。

最后我想回到我们演讲一开始提出的问题，也就是绘画的含义与符号。有一门哲学分支名叫符号学，研究的是绘画当中的对象如何传达意义。绘画当中的能指总共分为三类。首先是标志（sign），例如曼特尼亚的《圣塞巴斯提安》，人像身上插满箭矢，标志着罗马士兵射死了他；其次是图标（icon），也就是对象的某些特点的突出体现，例如计算机桌面、打印机上或者文件夹里的图标；最后还有象征，既围绕某一图形的社会共识，比方说大写的S加一竖线等于美元。我们目前正在试图让计算机能够在基督教艺术当中提取一点简单含义，因为基督教艺术在西方艺术史上非常重要，而且可供研究的画作也很多。这些画作描绘了富有意义的圣经事件，而这些意义对于理解艺术品本身至关重要。比方说以亚当夏娃为题的绘画，其含义绝不仅仅是一男一女赤身裸体站在树下，这幅景象对于全世界几十亿基督徒来说都承载着极其重大的含义。我们希望人工智能能够理解画面上的多个对象如何共同传达了这一意义。

计算机要凭借图像的属性来辨认画面上的对象，当然这里涉及的并非模式识别的从业者们通常称作属性的东西。根据符号学的定义，属性就是与某个宗教人物密切相关的物体，比方说基督的属性包括十字架与羔羊，圣马可的属性是背插双翼的狮子，圣凯瑟琳的属性是车轮，等等。下面这些画作画的全都是圣彼得，他的属性是天堂的钥匙。尽管这些绘画风格各异，但是画中的圣彼得手里全都拿着钥匙。当年的宗教机构特意要求画作包含这些属性，因此不识字的信众也能理解画中的故事，凭借属性辨认出画面当中的人物。我们希望人工智能也能做到这一点。所以我们收集了所有这些带有钥匙属性的画作，建立数据库并且训练深层神经网络来辨识这些属性。现在计算机已经能够辨认出画作当中的鸽子、狮子与十字架。这些意象只要出现在艺术品当中就可以得到人工智能的可靠识别。我们还有一个不同的模组，用来进行语义分割，从而识别画面当中有可能是人的对象。这就是我们目前的成果，画面左边是韦罗基奥的《基督受洗》，人工智能分离出了人像的区域，另一个模组辨识出了画面上的鸽子与十字架。然后通过简单的几何测试在数据库当中找到与被辨识属性最相关的对象，就可以辨认出画面上的人像究竟是谁：具体来说鸽子下方是基督，靠近十字架的是施洗约翰。这些都是简单的分析，艺术学者不会急于运用这种程度的初级技术，因为他们自己用肉眼也可以完成。下一步我们希望人工智能可以理解画面上的人物，画作讲述的故事以及此类艺术品传达的含义。

最后我想谈一下我个人对于这一领域的展望。这一切都可以追溯到十九世纪的艺术史学家乔瓦尼.莫雷利（Giovanni Morelli）。此人最初学医学，职业生涯的大部分时间都在依靠观察病人来做出诊断，例如观察他们的眼睛、手指与指甲。到了后半生，他开始将这些技能应用在绘画分析方面，用来识别绘画出自哪位画家的手笔。他的分析极其准确，通过所谓的科学方法，他推翻了将近一百幅画作的鉴定结果。今天的计算机与人工智能技术可以拓展莫雷利当年的事业，甚至可以说我们打算推出莫雷利2.0版。我相信有朝一日每一位艺术史学者都会在针对绘画进行视觉分析的时候开始使用应用我们目前正在研发的技术。

通宝推：西电鲁丁,桥上,龙牡,

复 208-David G. Stork：计算机眼中的艺术

家园

戴珍珠耳环的少女

点看全图