这种方法不问噪声的形成机制,适用于各种噪声。 这里我们进行人脸图像去噪,因此需要清晰人脸图像流形。 如果,我们将带噪声的人脸图像向清晰猫脸图像流形投影,所得结果不再具有任何实际意义。 深度学习技术正在深刻地改变着人类的历史进程,它在图像识别、语音识别、自然语言处理、文本翻译等几乎所有信息科学领域,都带来了翻天覆地的革命。 我们这个时代所面临的最为根本的问题之一就是为深度学习的有效性给出一个合理的答案。
我会将主要内容发到我的公众号上,可能有很多缺点和错误,希望大家提出宝贵意见。 此次会议极具学科交叉特色,430多位来自信息科学(含计算机与电子工程等学科)、数学与医学等领域的专家学者与临床医生聚首一堂,围绕人工智能+医疗、医学图像分析、深度学习、虚拟/增强现实等热点问题开展深入的交流与探讨。 当然,生成图像的质量由很多因素所决定,最为重要的有两个:重建流形对数据流形S的逼近精度;白噪声图像是否在参数域中,即是否在编码映射的像集内。 生成模型是深度学习的一个典型应用,如图5所示,输入一张低维的白噪音,输出一张逼真的人脸图像。 这在传统框架下是匪夷所思的:我们妙手空空,平白无故地变出一张人脸! 这是一张通过扫描得到的三维人脸,通过黎曼映照投到平面上来。 我们在平面上放了许多无穷小圆作为它的纹理,拉到三维曲面上以后还是无穷小圆。
这些流形结构和其上的特定概率分布是整体先验知识的有效表示,正是因为具备这些先验知识,很多视觉和机器学习的问题能够被有效解决。 流形能够表达一类数据的整体先验知识,传统方法只能利用局部较少的先验知识。 我们认为,深度学习的成功应该归功于数据自身具有内在的规律:高维数据分布在低维流形附近,流形上具有特定概率分布,同时归功于深度学习网络强大的逼近非线性映射的能力。 深度学习技术可以从一类数据中提取流形结构,将整体先验知识用流形来表达,具体而言就是编码解码映射,隐含在神经元的权重之中。 例二:如图2所示,米勒佛曲面是三维空间中的二维流形,参数化映射将曲面映射到平面圆盘。
传统方法需要自变量和因变量之间精确的数学关系,流形框架下的深度学习只需要猜测流形的存在性和大致维数就可以学出流形结构。 如图10所示,我们考察所有手写体数字二值图像构成的流形,左帧是真实数据,右帧是生成数据。 0到9这十个数字在此流形上定义了十个不同的概率分布。 我们用编码映射将流形映射到隐空间,编码映射将这十个分布”推前”到隐空间上。 为了可视化,我们将隐空间定义为二维平面,如此得到十个概率分布。
大家如果对硬件比较熟悉的话,图像处理可以用 FPGA 来做、用 GPU 做,但是处理三维曲面比较困难。 比如大家想把 CNN 从图像处理变成几何处理,有几种方法,一种是把曲面嵌在八叉树里;另一种就是展在平面上,然后用平面处理的方法来做。 今年 SIGGRAPH 就有这方面的论文。 viagraconnect 把三维曲面变成二维,最自然的方法当然就是这种共形变换。 顾险峰教授,现为美国纽约州立大学石溪分校计算机系和应用数学系的终身教授,也是清华大学丘成桐数学科学中心访问教授。 曾获美国国家自然科学基金CAREER奖,中国国家自然科学基金海外杰出青年奖(与胡事民教授合作),”华人菲尔茨奖”:晨兴应用数学金奖。