你的位置:首页 > 国内 > 正文

人工智能在多模态技术方面取得了长足的进步

作者:安靖 2021-08-12 14:39  来源:快科技  阅读量:16514   
文章摘要
不久前,阿里巴巴的AI模型在中文语言理解的权威基准CLUE中,超越了人类对新闻文本的识别准确率 在2015年和2018年AI在视觉识别...

不久前,阿里巴巴的AI模型在中文语言理解的权威基准CLUE中,超越了人类对新闻文本的识别准确率

在2015年和2018年AI在视觉识别和文本理解方面超越人类得分后,人工智能在多模态技术方面也取得了长足的进步。

诗是无形的画,画是有形的诗宋代诗人张舜民曾描述过语言与视觉的相似之处

解决这一挑战对通用人工智能的研究和发展具有重要意义在过去的10年里,AI在下棋,视觉和文本理解等单模态技能上取得了很大的进步,但在涉及视觉和文本跨模态理解的高阶认知任务上,AI从未达到人类的水平

为克服这一问题而设立的VQA挑战赛自2015年起在ICCV,CVPR举办,吸引了包括微软,脸书,斯坦福大学,阿里巴巴,百度等众多顶级组织,形成了全球规模最大,最受认可的VQA数据集,包含超过20万张真实照片和110万个问题。

VQA是人工智能领域最困难的挑战之一

这意味着单一的AI模型需要融合复杂的计算机视觉和自然语言技术:首先扫描所有图像信息,然后结合对文本问题的理解,利用多模态技术学习图形和文本的相关性,准确定位相关图像信息,最后根据常识和推理回答问题。

今年6月,阿里达摩院在VQA 2021挑战赛55支参赛队伍中获得冠军,比第二名领先约1个百分点,比去年冠军领先3.4个百分点两个月后,达摩院再次以81.26%的准确率创下VQA排行榜全球纪录,首次超过人类基线80.83%

VQA的核心难点在于多模态信息的联合推理认知,即不同模态在统一模型中的语义映射和对齐。

根据消息显示,达摩院NLP和视觉团队系统设计了AI视觉—文本推理系统,集成了大量算法创新,包括多样的视觉特征表示,多模态预训练模型,自适应跨模态语义融合对齐技术,知识驱动的多技能AI集成等

VQA技术应用场景广阔,可用于图文阅读,跨模态搜索,盲视觉问答,医疗咨询,智能驾驶等领域或将改变人机交互的方式

据报道,这已经不是阿里达摩院第一次在AI关键领域超越人类标杆2018年,达摩院在斯坦福阵容挑战赛中首次让机器阅读理解超越人类,引起海外媒体关注

VQA考试题列出来了,根据照片和问题用连衣裙装饰的小熊玩具,这些玩具是用来做什么的达摩院的AliceMind成功推理出一个可能的答案婚礼

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

分享到:
Copyright 2014-2020 免责声明 http://www.cshy5.cn 网站首页| 投诉与建议 | 网站地图 | |备案号: 闽ICP备2022005363号-4 认证