本文共 1921 字,大约阅读时间需要 6 分钟。
弥补深度学习不足,杨志明认为内脑AI是“最佳人选”。
随着云、物联网、互联网网络、光网、宽带、5G的发展,大数据燃料非常充足,未来的少人化工厂、虚拟社区、私人定制等服务都将是智能化场景的最终形态,这使得如何实现更自然的人机交互成为当下十分重要的课题。
在刚刚结束的“2018硬科技行业领袖峰会暨镁客网年会”活动上,杨志明发表了主题为《多模态深度语义理解开启人机交互新时代》的演讲,他直言行业急需改进:目前的AI技术在产业化中已经有很多问题出现,比如深度学习非常依赖大数据,而人脑是依赖小数据的,看到一个新的人脸就可以很快的记住并认识他,但AI不行。那么,我们就得思考如何让AI模仿人脑举一反三。
演讲中,杨志明通过案例呈现做了深度的探讨。
以下为杨志明先生的演讲实录:
各位听众大家上午好,非常荣幸跟大家分享一下多模态深度语义理解和人机交互。
首先我介绍一下什么是内脑人工智能。现在AI概念比较普及,我们做AI的一线从业者发现了一些问题,目前的人工智能大多数突破的是深度学习的方法,其实到现在我们逐渐的产业化过程中已经发生了一些问题,深度学习主要存在哪些问题?当然深度学习比传统学习要好很多,但深度学习也存在一些问题,在我们产业化和研究中出现一些问题,比如深度学习非常依赖大数据。人脑是可以依赖小数据的,我们看到一个新的人脸的时候很快可以认识他/她,小数据也可以做到非常好的结果。另外深度学习功耗非常大,运算速度也非常慢。人脑功耗非常低,运行速度也非常快。第三我们人脑举一反三,但是深度学习、机器学习没法做到很好的推移,它必须依赖大量的数据学习数据的规律。
以上三点是内脑AI要去解决的问题,怎么使得我们的人工智能不完全依赖大数据,小数据也可以运行,人工智能可以实现快速的迁移。现在所谓的人工智能都在聚焦某个场景,但其实怎么模拟的人脑举一反三,怎么在目前AI小的计算资源下快速和低功耗的运行?这是我们要致力解决的内脑AI的技术。
目前,从取得的成果来看,我们已经在多模态语义理解这块做了突破。比如看一个电视剧、眼睛看画面、耳朵听声音、眼睛看着字幕,对不同事物不同状态,人脑可以同时做理解,但AI还停留在识别阶段,人脑更多是语义理解,而且是多模态理解,这是我们专注的人工智能技术领域。
其中,我们在做同时实现理解文本和理解视觉图像的技术,本身这块是多模态的输入。举例来说,如果传统时代做AI识别,一个小狗在小树荫下面我们去识别的时候,发现识别分类两个目标,一个目标是小狗,另外一个目标是一棵树,基于视觉语义理解,一个小狗在树荫下乘凉,我们人脑理解更加深度的理解文本背后的深度含义,这是我们的多模态语义理解,我们把这个用在人机交互产生了很多技术特点和变化。
比如自由切换场景,人跟人交流的时候自由切换场景,比如第一个场景买一张机票,对方问你要去哪?我可以答非所问,你放一点音乐我来听一听我先想一想,我想明天下午两点以后去,其实是针对一个场景的上一个问题的答非所问,我们人类交互的时候就是这样。大量的时候是缺省。比如日本国土面积是多少?中国呢?人机对话的时候是大量存在缺省,我们用多模态语义理解现在取得突破,相比一些友商我们能够自由切换对话场景。
在医疗方面,我们的第一场景是医疗宫颈癌筛查,这是一个刚需场景,医生做筛查,准确率在60%左右,用我们目前的做到99%。我们用多模态语义理解做这个里边有技术特点,在宫颈细胞里有腺细胞,我们收集了北京市600例数据,做了非常好的结果腺细胞本身识别的话没有问题,但是做多模态语义理解发现本身的问题,我们是能够唯一筛出腺细胞异常。目前我们在第三方解决机构包括30多家知名一线的三甲医院在实际的运行。
此外,在汽车应用上,汽车人机交互和语义理解有一些刚性场景,第一实时性,如果不用完全云端运行的场景,比如针对用户的问题用户的反馈反应比较慢,上云以后这个车可能开过去了,实时性比较高,我们针对这个场景做实时运算。对车内个性化需求,包括针对用户的习惯和爱好做计算,根据不同场景、不同用户的习惯跟用户实现人机对话。
车机这块APP太多了,用语音识别产品还不够。语音识别能解决听见的问题,比如我比较热,语音识别翻译不出来了,加上我们多模态语义对话的产品就可以,主人你是要开空调开展开窗?这样对话就可以延续下去。
深思考AI落地在车场景这块可以实现多地上下文话语理解对话,包括信息同步到家庭、汽车、个人手机,另外在出行这块服务,以及对内视觉多模态理解。我们通过8度摄像头做车外视觉模组切换。我们现在车外视觉模组侦测到室外场景,夕阳西下,风景无限好。
目前,包括国内外的本田、丰田、奇瑞、现代等都与我们有合作。
谢谢大家。
转载地址:http://zautx.baihongyu.com/