南科大黑科技:一键消除视频人物,特效师的救星来了!
克雷西发自凹非寺量子位|公众号QbitAI来自南方科技大学的这款视频分割模型,可以追踪视频中的任意事物。不
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI
来自南方科技大学的这款视频分割模型,可以追踪视频中的任意事物。
不仅会“看”,还会“剪”,从视频中去掉个人,对它来说也是轻轻松松的事。
【资料图】
而操作上,你唯一需要做的就是点几下鼠标。
这位特效艺术家看到消息后仿佛找到了救星,直言这一产品将改变CGI行业的游戏规则。
这款模型叫做TAM(Track Anything Model),是不是和Meta的图像分割模型SAM名字很像?
的确,TAM就是将SAM扩展到了视频领域,点亮了 动态物体追踪 的技能树。
视频分割模型其实不是新技术了,但传统的分割模型并没有减轻人类的工作。
这些模型使用的训练数据全部需要人工标注,甚至在使用时还需要先用特定物体的遮罩参数进行初始化。
SAM的出现为解决这一问题提供了前提——至少初始化数据不再需要人工获取。
当然,TAM也并不是逐帧使用SAM再叠加,还需要构建对应的时空关系。
团队将SAM与名为XMem的记忆模块进行了集成。
只需要在第一帧中用SAM生成初始参数,XMem便可以指导接下来的追踪过程。
追踪的目标还可以是很多个,比如下面的清明上河图:
甚至场景发生改变,也不影响TAM的表现:
我们体验了一番发现,TAM采用了交互式用户界面,操作上十分简单友好。
硬实力方面,TAM的追踪效果的确也不错:
但是,消除功能在一些细节上的精确度还有待提高。
前文已经提到,TAM是在SAM的基础之上结合记忆能力建立时空关联实现的。
具体而言,第一步是借助SAM的静态图像分割能力对模型进行初始化。
只需一次点击,SAM就能生成目标物体的初始化遮罩参数,代替了传统分割模型中的复杂初始化过程。
有了初始参数,团队就可以将它交给XMem,进行半人工干预训练,大大减少了人类工作量。
在这一过程中,会有一些人工预测结果被用于和XMem的输出进行比较。
实际过程中,随着时间的增长,得到准确的分割结果对XMem变得越来越困难。
当结果与预期差距过大时,将进入再分割环节,这一步还是由SAM完成。
经过SAM的再优化,大部分输出结果已比较准确,但还有一部分需要人工再调整。
TAM的训练过程大致就是这样,而开头提到的物体消除的技能是TAM与E2FGVI结合形成的。
E2FGVI本身也是一个视频元素消除工具,在TAM精准分割的加持下,其工作更加有的放矢。
为了测试TAM,团队使用了DAVIS-16和DAVIS-17数据集对其进行了评估。
直观感受还是很不错的,从数据上看也的确如此。
TAM虽然无需手工设置遮罩参数,但其J(区域相似度)和F(边界准确度)两项指标已十分接近手工模型。
甚至在DAVIS-2017数据集上的表现还略胜于其中的STM。
其他初始化方式中,SiamMask的表现根本无法和TAM相提并论;
另一种名为MiVOS方法虽然表现好于TAM,但毕竟已经进化了8轮……
TAM来自南方科技大学视觉智能与感知(VIP)实验室。
该实验室研究方向包括文本-图像-声音多模型学习、多模型感知、强化学习和视觉缺陷检测等。
目前团队已发表论文30余篇,获得专利5项。
团队领导人是南方科技大学郑锋副教授,博士毕业于英国谢菲尔德大学,先后供职于中科院深研院、腾讯优图等机构,于2018年进入南科大,2021年晋升为副教授。
论文地址: https://arxiv.org/abs/2304.11968 GitHub页面: https://github.com/gaomingqi/Track-Anything 参考链接: https://twitter.com/bilawalsidhu/status/1650710123399233536?s=20
关键词:
克雷西发自凹非寺量子位|公众号QbitAI来自南方科技大学的这款视频分割模型,可以追踪视频中的任意事物。不
1、孙镇初中八年级三班志愿服务队是由邹平县教育局志愿服务队领导下的志愿团体。2、成立于2017年9月29日。
这部番放在fate系列里,在我看来是中规中矩的,无论是作画还是剧情都是算是不错的,但问题也是十分突出的,
以下是达刚控股在北京时间4月14日10:09分盘口异动快照:4月14日,达刚控股盘中涨幅达5%,截至10点09分,报6
大中矿业:关于实施权益分派期间“大中转债”暂停转股的公告
新华社杭州5月4日电(记者朱涵吴帅帅)从宇宙深处捕捉到的“神秘信号”,被智能计算平台迅速识别、验证;马
本次宝马展台上最重磅的就是这台BMWi7M70L,这款车是宝马“技术魔法”的集大成者。全球首发定在中国,说明
今天来聊聊关于is曲线表示投资与储蓄怎样随着购买收入的变化而变化,IS曲线的移动自发投资支出增加10亿美元
同花顺金融研究中心5月4日讯,有投资者向江苏国泰提问,请问公司为哪些国际服装品牌代工过?如有,请举几个
江苏博云(301003)05月04日在投资者关系平台上答复了投资者关心的问题。
天工国际(00826)发布公告,于2023年5月4日该公司斥资122 92万港元回
*ST御银:民生证券股份有限公司关于广州御银科技股份有限公司2023年度使用闲置自有资金进行委托理财的核查意见
欢迎观看本篇文章,小柴来为大家解答以上问题。修女是什么意思,修女解释很多人还不知道,现在让我们一起来
亚汇网获悉,全球最大规模的啤酒酿造商百威英博(UD U)公布的经调整后的利润增速超过分析师普遍预期,同时总
【烟火人间】作者:肖复兴(《人民文学》杂志社原副主编)天坛,有很多舞者,大多是女的,年龄在五六十岁,
点蓝色字关注“机器学习算法工程师”设为星标,干货直达!自从DALL·E2之后,在图像生成方面扩散模型替代GA
原标题:六大举措护航“五一”假期四川道路交通平稳有序5月4日,记者从省公安厅交警总队获悉,“五一”假期
“我欠您一次旅行凭此欠条可免门票入园一次有效期十年”近日一则“景区给游客打欠条”的消息引发关注老君山
摘要:2023年05月04日远方信息(300306)股价大幅拉升7 05%,该股报14 45元 股,振幅12 47%。2023年05月04
原标题:股市谣言止于“制”者上市公司应提高自身的信息披露质量,加强与中小投资者及时有效的沟通,以减少