当前位置: 网站首页 > 成功案例
成功案例
色情主播的天敌:AI 大牛为你解密人工智能鉴黄的那些事
时间:2019-09-21  来源:www.oaled.com

目前,一些人工智能公司已经开始布局黄化业务。阿里巴巴和腾讯有两个大型泛黄系统,即阿里绿色网络和万象。在创业公司方面,更知名的公司包括Tupu Technology,Feisou Technology和Deep Map Intelligence。

最近的在线直播很热,所以一些公司已经开始切入现场直播的细分领域。为此,雷锋网(公众号:雷锋)询问了来自计算机视觉公司Cloud of Science and Technology的Tupu Technology的专业色情鉴定以及以下问题。

周聪,云聪科技高级算法工程师:

事实上,这三个项目(直播,在线视频,图片黄色)没有太大的不同,这三个项目可分为实时视频处理和海量图像处理。

视频/直播是动态的,图片是静态的。当区分视频和直播时,可以将动态内容解码判断为图像帧,因此它不比静态图像识别差。

至于技术问题,实际上,建黄在算法层面并不是很难。经过深度学习算法训练后,可以达到良好的泛黄效果。

Tuptech工程师对计算能力和算法要求做了一些小的补充:

目前,直播和在线视频主要通过间隔截图,关键帧截图等进行识别,因此最终处理也适用于单张图片。

然而,由于直播的实时性,直播需要比其他在线视频和图片更高的机器图像识别处理速度,这主要是由于对计算能力和算法的要求增加。

对于屏蔽,删除或禁止的处理,主要是查看业务方面,可以由机器自动处理或手动干预。

周聪,云聪科技高级算法工程师:

一方面他们不愿意这样做。

另一方面,虽然CV公司可能有黄变算法的现成培训系统,但他们缺乏数据。建皇需要大量的数据来培训。黄色图片和视频帧最好达到100,000级深度学习才能运行。至于如何收集这些数据,一般来说,许多直播视频广播已经可用,包括具有大量此类图像的黄骅中心。

刚才提到批量数据是通过深度学习进行训练的,而小批量数据的训练通常使用传统的特征分析和分类器算法来完成,但效果和准确性并不像当前的深度学习那么高。

Tuptech工程师:

这与算法的能力几乎没有关系。在优化算法和工程功能的情况下,这是企业的成本预算问题。

直播是视频流。如果企业识别直播的每一帧,则这是非常大量的数据,并且企业的运营成本自然更高。因此,我们一般建议企业首先根据自己的需要对视频进行帧提取处理。例如,可以使用一分钟视频的视频通过根据时间段提取6-15帧图片来控制成本。

周聪,云聪科技高级算法工程师:

实时视频图像分析大致分为三个主要方面:

是否有人(色情内容的概率有所增加)

人形轮廓的肤色比例(大:色情的概率增加)

姿势分析(性行为姿势:增加色情概率)

人类对色情有着广泛的定义,在许多情况下,对色情的标准会有所不同。基于此,黄色和非黄色图片之间的区别有时并不特别明显,难以判断。举一个流行的例子,一张裸体男人的照片(这张照片属于大部分肤色)。这类图片本质上是非黄色图片,但在许多情况下,由于训练数据中有类似的图片,因此被判定为黄色图片,存在判断问题。因此,有必要使用大量的样本对其进行连续的培训,让机器不断地修正,并学习更多的功能,以避免这种“低级错误”。

这也是上述一些简历公司不参与泛黄业务的原因,因为需要大量的样本来不断的培训和纠正,工程量相当大。

TupTech工程师:

一般来说,深度学习可以理解为一个空白的大脑,大量的数据是灌输它的经验。当我们把大量色情、性感、正常的样本属性告诉深入学习的引擎时,让引擎不断学习,然后奖励他们做对的事,如果他们做错了就惩罚他们。当然,这些奖惩是数学上的。最后一个空白的头部将学习成为一个连接模型,用于识别色情和非色情。

基于以上内容,人工智能科技评论总结如下:

实时视频图像分析应大致分为三个方向:是否有人、人体皮肤轮廓比例、姿势分析。

直播/视频和图片黄色之间的差别不大。将动态视频解码为图片帧并不比图片差。视频鉴黄不识别每一帧,一般从一个固定的时间段中提取若干帧进行识别。

黄色图片和视频帧最好达到个,深度学习可以运行。小批量数据的训练一般采用传统的特征分析加分类器算法,但效果和精度不如深度学习。

屏蔽,删除或禁止的处理主要基于业务方面,可以由机器自动处理或手动干预。

最后,黄健的棘手部分是很难掌握色情和非色情的关键点。机器很容易误判正常的图片(如男孩和女孩的半裸图片)作为色情图片,所以需要大量的数据来不断训练和纠正。慢慢地做家务,这也是一些CV公司不参与建皇业务的主要原因。