2024-07-29 14:18来源:本站
互联网上充斥着教学视频,这些视频可以教好奇的观众从烹饪完美的煎饼到表演救命的海姆利克急救法。
但是在一个长视频中,准确地指出一个特定动作发生的时间和地点可能会很乏味。为了简化这一过程,科学家们正试图教计算机来完成这项任务。理想情况下,用户只需描述他们正在寻找的动作,人工智能模型就会跳到视频中的位置。
然而,教机器学习模型做到这一点通常需要大量昂贵的视频数据,这些数据都是经过精心手工标记的。
麻省理工学院和麻省理工学院- ibm沃森人工智能实验室的研究人员采用了一种新的、更有效的方法,训练一个模型来执行这项任务,即所谓的时空接地,只使用视频及其自动生成的转录本。
研究人员教一个模型以两种不同的方式理解未标记的视频:通过观察小细节来找出物体的位置(空间信息),通过观察更大的画面来理解动作发生的时间(时间信息)。
与其他人工智能方法相比,他们的方法更准确地识别出具有多个活动的长视频中的动作。有趣的是,他们发现同时对空间和时间信息进行训练可以使模型更好地识别每个个体。
除了简化在线学习和虚拟培训过程之外,这项技术还可以在医疗保健环境中发挥作用,例如,它可以快速找到诊断过程视频中的关键时刻。
“我们解决了试图同时对空间和时间信息进行编码的挑战,而是像两位专家各自工作一样思考,这是一种更明确的信息编码方式。”
“我们的模型,结合了这两个独立的分支,带来了最好的性能,”Brian Chen说,他是一篇关于这项技术的论文的主要作者,现在已经发布在arXiv预印本服务器上。
陈是哥伦比亚大学的2023届毕业生,他在麻省理工学院- ibm沃森人工智能实验室做访问学生时进行了这项研究,他与麻省理工学院- ibm沃森人工智能实验室高级研究科学家、麻省理工学院- ibm沃森人工智能实验室成员、计算机科学与人工智能实验室(CSAIL)口语系统小组负责人詹姆斯·格拉斯(James Glass)一起撰写了这篇论文;Hilde Kuehne,麻省理工学院- ibm沃森人工智能实验室的成员,也隶属于法兰克福歌德大学;以及麻省理工学院、歌德大学、麻省理工学院- ibm沃森人工智能实验室和Quality Match GmbH的其他研究人员。
这项研究将在6月17日至21日在西雅图举行的计算机视觉和模式识别会议(CVPR 2024)上发表。
研究人员通常使用视频来教模型执行时空基础,视频中人类标注了特定任务的开始和结束时间。
不仅生成这些数据很昂贵,而且人类很难弄清楚该标记什么。如果这个动作是“煮煎饼”,那么这个动作是从厨师开始搅拌面糊还是从她把面糊倒进锅里开始的?
“这次的任务可能是做饭,但下一次,可能是修车。有很多不同的领域需要人们注释。但如果我们能在没有标签的情况下学习所有东西,这是一个更通用的解决方案。”
对于他们的方法,研究人员使用未标记的教学视频和来自YouTube等网站的随附文本作为训练数据。这些不需要任何特别的准备。
他们把训练过程分成两部分。首先,他们教机器学习模型查看整个视频,以了解在特定时间发生了什么动作。这种高级信息被称为全局表示。
第二,他们教模型专注于视频中动作发生的特定区域。例如,在一个大厨房里,模特可能只需要关注厨师用来混合煎饼面糊的木勺,而不是整个柜台。这种细粒度的信息称为本地表示。
研究人员在他们的框架中加入了一个额外的组件,以减轻叙事和视频之间发生的错位。也许厨师先说要做煎饼,然后再做动作。
为了开发更现实的解决方案,研究人员将重点放在了几分钟长的未剪辑视频上。相比之下,大多数人工智能技术使用几秒钟的剪辑进行训练,然后只显示一个动作。
但是当他们开始评估他们的方法时,研究人员找不到一个有效的基准来测试这些较长,未剪切的视频的模型-所以他们创建了一个。
为了建立他们的基准数据集,研究人员设计了一种新的注释技术,可以很好地识别多步骤动作。他们让用户标记物体的交叉点,比如刀口切番茄的地方,而不是在重要物体周围画一个框。
“这样定义更清晰,加快了标注过程,减少了人力和成本,”陈说。
此外,让多人对同一视频进行点注释可以更好地捕捉随着时间的推移而发生的动作,比如倒牛奶的过程。所有的注释器不会在液体流动中标记完全相同的点。
当他们使用这个基准来测试他们的方法时,研究人员发现,在确定行动方面,它比其他人工智能技术更准确。
他们的方法在关注人与物之间的互动方面也做得更好。例如,如果动作是“端上煎饼”,那么许多其他方法可能只关注关键对象,比如放在柜台上的一叠煎饼。相反,他们的方法侧重于厨师将煎饼翻转到盘子上的实际时刻。
接下来,研究人员计划增强他们的方法,这样模型就可以自动检测文本和叙述是否对齐,并将焦点从一种模式切换到另一种模式。他们还希望将其框架扩展到音频数据,因为动作和物体发出的声音之间通常存在很强的相关性。
更多信息:Brian Chen等人,What, when, and where?- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -DOI: 10.48550/ arXiv .2303.16990期刊信息:arXiv由麻省理工学院提供
本文由麻省理工学院新闻(web.mit.edu/newsoffice/)转载,这是一个报道麻省理工学院研究、创新和教学新闻的热门网站。
引用:在视频中寻找特定的动作?这AI-based方法可以为您找到它(2024,5月29日)从https://techxplore.com/news/2024-05-specific-action-video-ai-ba检索2024年5月29日
seed .html本文档
作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。的有限公司
内容仅供参考之用。