人工智能在多模态技术方面取得了长足的进步-芭莎时尚网

人工智能在多模态技术方面取得了长足的进步

作者：安靖 2021-08-12 14:39 来源：快科技阅读量：9556

文章摘要

不久前，阿里巴巴的AI模型在中文语言理解的权威基准CLUE中，超越了人类对新闻文本的识别准确率在2015年和2018年AI在视觉识别...

不久前，阿里巴巴的AI模型在中文语言理解的权威基准CLUE中，超越了人类对新闻文本的识别准确率

在2015年和2018年AI在视觉识别和文本理解方面超越人类得分后，人工智能在多模态技术方面也取得了长足的进步。

诗是无形的画，画是有形的诗宋代诗人张舜民曾描述过语言与视觉的相似之处

解决这一挑战对通用人工智能的研究和发展具有重要意义在过去的10年里，AI在下棋，视觉和文本理解等单模态技能上取得了很大的进步，但在涉及视觉和文本跨模态理解的高阶认知任务上，AI从未达到人类的水平

为克服这一问题而设立的VQA挑战赛自2015年起在ICCV，CVPR举办，吸引了包括微软，脸书，斯坦福大学，阿里巴巴，百度等众多顶级组织，形成了全球规模最大，最受认可的VQA数据集，包含超过20万张真实照片和110万个问题。

VQA是人工智能领域最困难的挑战之一

这意味着单一的AI模型需要融合复杂的计算机视觉和自然语言技术:首先扫描所有图像信息，然后结合对文本问题的理解，利用多模态技术学习图形和文本的相关性，准确定位相关图像信息，最后根据常识和推理回答问题。

今年6月，阿里达摩院在VQA 2021挑战赛55支参赛队伍中获得冠军，比第二名领先约1个百分点，比去年冠军领先3.4个百分点两个月后，达摩院再次以81.26%的准确率创下VQA排行榜全球纪录，首次超过人类基线80.83%

VQA的核心难点在于多模态信息的联合推理认知，即不同模态在统一模型中的语义映射和对齐。

根据消息显示，达摩院NLP和视觉团队系统设计了AI视觉—文本推理系统，集成了大量算法创新，包括多样的视觉特征表示，多模态预训练模型，自适应跨模态语义融合对齐技术，知识驱动的多技能AI集成等

VQA技术应用场景广阔，可用于图文阅读，跨模态搜索，盲视觉问答，医疗咨询，智能驾驶等领域或将改变人机交互的方式

据报道，这已经不是阿里达摩院第一次在AI关键领域超越人类标杆2018年，达摩院在斯坦福阵容挑战赛中首次让机器阅读理解超越人类，引起海外媒体关注

VQA考试题列出来了，根据照片和问题用连衣裙装饰的小熊玩具，这些玩具是用来做什么的达摩院的AliceMind成功推理出一个可能的答案婚礼

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

人工智能在多模态技术方面取得了长足的进步