当前位置: 网站首页 > 诚聘英才
诚聘英才
Netflix一位数据科学家剪出了上百部爱情片,想教AI认识“亲吻”
时间:2020-01-25  来源:www.oaled.com

7月6日,这可能是一年中最好的接吻日。国际接吻日。

这个节日起源于英国。 1991年,这个节日得到了联合国的承认。它还希望更多人知道接吻之美是人类表达爱意的最自然方式。

那么,人工智能能否通过培训了解接吻?

来自Netflix的高级数据科学家对“亲吻”镜头有着特殊的喜爱,并且通过数百部电影接吻情节的定位,可以准确识别电影吻桥的AI模型模型的独创性是可以区分的亲吻和性行为之间。

大世界,无所不能,人工智能还可以检测到“亲吻”?我们来看看细菌。

让AI区分吻和性

作为爱情电影的代表性情节,“吻”一直是许多观众喜欢反复观看的镜头。无论是《人鬼情未了》中Swayze和Demi Moore的经典接吻桥,还是《泰坦尼克号》中Rose和Jack的吻,它都是经典的经典之作。

在观看电影的过程中,寻找一个吻镜已成为许多娱乐视频场景的真正需求。

基于人工智能识别接吻的研究由Netmir的高级数据科学家Amir Ziai负责。他目前正在斯坦福大学攻读人工智能研究生学位。

齐艾精选了上个世纪好莱坞电影中的100部代表作,并为电影片段手工标注“吻”或“非吻”标签,利用静态图像和声音片段训练深度学习算法,实现亲吻场景。对图像和声音的识别。

为了避免任何人产生错误的印象,目前还不能确定接吻识别算法是否能用于性爱场景。齐艾说:“在我的训练中,我尽量避免出现性爱场面,这样我就可以确保我的模特不会把接吻和性爱混淆起来。”

Ziai目前的雇主Netflix没有参与斯坦福大学的项目,但该项目在arxiv中有很好的记录;此外,尽管Ziai还没有调查该研究在Netflix上的应用,但不难想象Netflix或其他公司,如Y处理大量流媒体或存储视频的outube、facebook、instagram和tiktok可能对这项技术的商业应用感兴趣。

图为1990年电影《人鬼情未了》中斯韦兹和黛米摩尔的经典接吻桥,数据科学家利用近百个类似的电影桥训练人工智能模型识别接吻行为。

感兴趣的读者可以阅读原稿并附上地址:

“双管齐下”:不仅是视频识别,还有亲吻的音频识别

ResNet-18是一种图像分类算法,是用于接吻场景视觉识别的最成功的深度学习模型,该算法已经过ImageNet数据库中超过一百万张图像的预训练。为了识别接吻场景的声音,研究人员采用了一种名为VGGish的深度学习模型,通过该模型,每个图像都根据VGGish模型进行分类。为秒分段场景发布960毫秒音频训练。用于同时处理接吻图像和音频的这种双管齐下的AI方法导致训练模型的惊人F1得分(算法精度和准确度的加权平均值,测量模型的指数)为 0.95。

ResNet-18模型结构图

在模型结构中,我们使用“短切连接”,即上图中的弧,以减少卷积网络传播过程中的计算和参数数量。有兴趣的读者可以研究VGGish是一种生成音频数据集的工具,通常用于音频分类。

GitHub网站如下:

然而,面对电影场景中的一些困难场景或某些相机视角,该模型仍然略显费力。例如,远程或广角接吻镜头会使算法混淆,因为这样的视频片段包含太多背景图像。此外,一些快节奏的视频剪辑和同时包含两个演员的镜头也是该模型面临的巨大挑战。

杰克和罗斯在电影的游轮甲板上接吻的照片《Titanic》

深度学习是一个“黑匣子”,很难弄清楚深度学习模型用于实现预测的具体数据模式。为了理解AI的逻辑,人们通常采用的一种方法是使用重要的地形图来可视化分析过程中AI最关心的数据。在好莱坞电影对亲吻场景的认可中,深度学习模型似乎更关注与演员脸部相关的图像像素。

Ziai说,即使在有限的实验中,人工智能更多地依赖于视觉特征而不是音频特征来识别接吻场景。他发现“挑选数据集”对于训练接吻检测系统有很大帮助,这使得系统可以使用更多的上下文信息来检测吻,而不仅仅是静态图像。

AI“亲吻”的原则

AI模型如何获得这种能力?

就像第一个吻仍在学习接吻知识基础知识的方式一样,AI模型基于成熟的深度学习算法,观看好莱坞明星中的各种浪漫明星,并使用这种训练来识别中的角色。这个电影。数据科学家的嘴唇的面部表情和定位说明了AI系统如何能够更深入地理解最亲密的人类活动的原理。

AI识别吻的用途是什么?

早在2019年4月,谷歌宣布其智能手机Pixel已更新其Photobooth功能,当您的面部表情发生变化时会自动拍照,例如微笑,接吻,噘嘴,伸舌头等。但是,智能手机是从手机拍摄的视频。

具体来说,当您按下Photobooth功能的拍摄按钮时,手机的AI将自动分析您的面部表情。根据状态,手机会自动确定“最佳时刻”并记录此时刻。同样,Ziai开发的应用程序端视频接吻识别技术使我们能够看到视频内容的自动分类,用户特定的视频推荐,甚至视频在线内容审查的未来。

Pixel手机Photobooth功能拍摄的静态图片

OpenAI战略与沟通总监杰克克拉克在他的文章《Import AI newsletter》中强调了这项研究的重要性:“现代计算机视觉技术使得开发特定的'感知和响应类'软件变得更加容易,例如识别。或者非结构化事情,认识到电影中的接吻场景是一个很好的例子,但是这种AI应用个人软件的能力被低估了。“

AI的未来“亲吻”

好莱坞电影数据集和计算资源由斯坦福大学计算机科学助理教授Kayvon Fatahalian的实验室提供。

目前,在100部好莱坞电影(例如《安娜卡列尼娜》(1935),《人鬼情未了》(1990)和《007:大战皇家赌场》(2006))训练的这部AI模型的表现仍然不清楚面对更大的电影。但齐亚说,经过80多部电影的培训后,该模型只看到了“边际改善”。

另一个值得关注的问题是,当从社交媒体中检测到不同类型的接吻场景视频时,这种AI模型是否达到了类似的准确度。这是一个巨大的挑战,可能需要对更多视频数据集的模型进行额外培训,而训练集不能只包括那些出现在电影屏幕上的好莱坞明星,如Patrick Swayze和Demi Moore。然而,从一些非常初步的测试中可以看出,这种基于AI的接吻测量技术具有良好的应用前景。

“未来的研究将尝试使用更多样化的数据集,以确保模型不会过度适应某种类型的电影,”齐亚说。 “但有趣的是,该模型可以在我选择的YouTube视频上播放。它表现得很好。“