深思考CEO杨志明：多模态深度语义理解开启人机交互新时代-白红宇

弥补深度学习不足，杨志明认为内脑AI是“最佳人选”。

随着云、物联网、互联网网络、光网、宽带、5G的发展，大数据燃料非常充足，未来的少人化工厂、虚拟社区、私人定制等服务都将是智能化场景的最终形态，这使得如何实现更自然的人机交互成为当下十分重要的课题。

在刚刚结束的“2018硬科技行业领袖峰会暨镁客网年会”活动上，杨志明发表了主题为《多模态深度语义理解开启人机交互新时代》的演讲，他直言行业急需改进：目前的AI技术在产业化中已经有很多问题出现，比如深度学习非常依赖大数据，而人脑是依赖小数据的，看到一个新的人脸就可以很快的记住并认识他，但AI不行。那么，我们就得思考如何让AI模仿人脑举一反三。

演讲中，杨志明通过案例呈现做了深度的探讨。

以下为杨志明先生的演讲实录：

各位听众大家上午好，非常荣幸跟大家分享一下多模态深度语义理解和人机交互。

首先我介绍一下什么是内脑人工智能。现在AI概念比较普及，我们做AI的一线从业者发现了一些问题，目前的人工智能大多数突破的是深度学习的方法，其实到现在我们逐渐的产业化过程中已经发生了一些问题，深度学习主要存在哪些问题？当然深度学习比传统学习要好很多，但深度学习也存在一些问题，在我们产业化和研究中出现一些问题，比如深度学习非常依赖大数据。人脑是可以依赖小数据的，我们看到一个新的人脸的时候很快可以认识他/她，小数据也可以做到非常好的结果。另外深度学习功耗非常大，运算速度也非常慢。人脑功耗非常低，运行速度也非常快。第三我们人脑举一反三，但是深度学习、机器学习没法做到很好的推移，它必须依赖大量的数据学习数据的规律。

以上三点是内脑AI要去解决的问题，怎么使得我们的人工智能不完全依赖大数据，小数据也可以运行，人工智能可以实现快速的迁移。现在所谓的人工智能都在聚焦某个场景，但其实怎么模拟的人脑举一反三，怎么在目前AI小的计算资源下快速和低功耗的运行？这是我们要致力解决的内脑AI的技术。

目前，从取得的成果来看，我们已经在多模态语义理解这块做了突破。比如看一个电视剧、眼睛看画面、耳朵听声音、眼睛看着字幕，对不同事物不同状态，人脑可以同时做理解，但AI还停留在识别阶段，人脑更多是语义理解，而且是多模态理解，这是我们专注的人工智能技术领域。

其中，我们在做同时实现理解文本和理解视觉图像的技术，本身这块是多模态的输入。举例来说，如果传统时代做AI识别，一个小狗在小树荫下面我们去识别的时候，发现识别分类两个目标，一个目标是小狗，另外一个目标是一棵树，基于视觉语义理解，一个小狗在树荫下乘凉，我们人脑理解更加深度的理解文本背后的深度含义，这是我们的多模态语义理解，我们把这个用在人机交互产生了很多技术特点和变化。

比如自由切换场景，人跟人交流的时候自由切换场景，比如第一个场景买一张机票，对方问你要去哪？我可以答非所问，你放一点音乐我来听一听我先想一想，我想明天下午两点以后去，其实是针对一个场景的上一个问题的答非所问，我们人类交互的时候就是这样。大量的时候是缺省。比如日本国土面积是多少？中国呢？人机对话的时候是大量存在缺省，我们用多模态语义理解现在取得突破，相比一些友商我们能够自由切换对话场景。

在医疗方面，我们的第一场景是医疗宫颈癌筛查，这是一个刚需场景，医生做筛查，准确率在60%左右，用我们目前的做到99%。我们用多模态语义理解做这个里边有技术特点，在宫颈细胞里有腺细胞，我们收集了北京市600例数据，做了非常好的结果腺细胞本身识别的话没有问题，但是做多模态语义理解发现本身的问题，我们是能够唯一筛出腺细胞异常。目前我们在第三方解决机构包括30多家知名一线的三甲医院在实际的运行。

此外，在汽车应用上，汽车人机交互和语义理解有一些刚性场景，第一实时性，如果不用完全云端运行的场景，比如针对用户的问题用户的反馈反应比较慢，上云以后这个车可能开过去了，实时性比较高，我们针对这个场景做实时运算。对车内个性化需求，包括针对用户的习惯和爱好做计算，根据不同场景、不同用户的习惯跟用户实现人机对话。

车机这块APP太多了，用语音识别产品还不够。语音识别能解决听见的问题，比如我比较热，语音识别翻译不出来了，加上我们多模态语义对话的产品就可以，主人你是要开空调开展开窗？这样对话就可以延续下去。

深思考AI落地在车场景这块可以实现多地上下文话语理解对话，包括信息同步到家庭、汽车、个人手机，另外在出行这块服务，以及对内视觉多模态理解。我们通过8度摄像头做车外视觉模组切换。我们现在车外视觉模组侦测到室外场景，夕阳西下，风景无限好。

目前，包括国内外的本田、丰田、奇瑞、现代等都与我们有合作。

谢谢大家。