云测数据已成国内的第一梯队:离落地越近 AI 对数据就越挑剔

2019-12-17 19:38:09来源:极客公园编辑:居小桃

扫一扫

分享文章到微信

扫一扫

关注鹿财经网微信公众号

  原标题:云测数据已成国内的第一梯队:离落地越近 AI 对数据就越挑剔
 
  「你们的客户有哪些?」
 
  「这个不能细说,很多签了保密协议。不过……」Testin云测CMO张鹏飞停顿了下,手指下意识地敲了敲桌面:「我们的客户覆盖智能驾驶、智慧城市、新零售、金融等领域。」他继续补充道:「还有越来越多的智能化转型的传统行业客户,选择采用我们的数据标注服务」。

 
  创建于2011年的Testin云测在移动互联网时代从应用测试业务出发,顺势而起并成为企业服务明星企业。经过行业前瞻判断,积极布局定制化数据标注业务领域,成立了云测数据品牌。在数据标注领域,云测数据已然是国内的第一梯队。
 
  人工智能正迅速向应用人工智能发展,拥抱产业的人工智能对数据标注的门槛在不断提高。「比如在自动驾驶领域,现在主流的是多传感器融合方案,从摄像头增加到激光雷达,从二维图像数据发展到三维图像数据,多模态的数据帮助算法模型更好的训练,只是由于激光雷达的价格比较高,所以很少会有人去使用和标注。」但未来硬件成本的下降是必然的,而在Waymo、Uber等较早做自动驾驶的企业中,也已经可以看到三维图像增加的趋势。
 
  AI训练的「蛋白粉」
 
  数据采集和标注都不是新鲜的事情,伴随着AI兴起,约在2011年相应的商业生态也随之而生,2015年行业进入快速增长期,但许多问题也同时爆发——「鱼龙混杂」,可以这样形容早期采集和标注的数据。
 
  比如人脸识别,在2015年左右,许多的数据采集和数据标注的小作坊开始大规模出现,主要以通用数据集和小规模采集为主,到了2016年,开源或是付费的数据集开始兴起,与此同时数据标注的众包业务也在野蛮生长,据估计我国有数千个相关的企业或团体,而从事数据标注众包的专职、兼职人员超过百万。
 
  将识别准确率从无提升到95%的过程中,这样的数据是足够用的,但实际落地中,将准确率从95%提升到99%,就显得捉襟见肘了。「我们行业里有一句话,『Garbagein,garbageout』,这是机器学习和神经网络的本质决定的。」云测数据总经理贾宇航说。
 
  在iPhone推出人脸认证之后,许多安卓手机也跟进这一功能,但人们却发现,有的手机无法识别照片和真实的人脸,打印出来的也能蒙混过关。而更进一步的识别,需要机器对人脸的三维结构有一定的理解,如果还要跟仿真的面具做区别,那么还需要加上活体检测的能力,甚至精细到对面部血管和极轻微抖动的识别,来判断识别对象是否有心跳等,这显然是简单的数据获取和标注所难以满足的。
 
  「2015年时,数据的标注需求很简单,可能客户就说,我这有批图片,人脸拉框,尽量贴合,这个需求文档就已经描述完了,而今年,我们发现同样是做人脸标记的企业需求,一张A4纸都没办法把所有的要求写完。」对于这样复杂的标记任务,云测数据在做之前首先要小范围实验,然后需要开会由专人讲解,并在标注过程中随时做抽查,看标注员的理解是否正确:「精度会有多高呢?一张人脸需要你准确地在内眼角上标注人脸关键点,在图片上,内眼角也就不到100像素,而任务还会 到标注到具体哪个像素上。」
 

  工作人员正在讲解人像标注 | 图片来源:云测数据

  而数据标注仅仅是复杂度上升的后半部分,AI 企业高精度数据的需求同样体现在数据定制化的采集上。过去几年机器学习领域以「海量数据暴力计算」的方式迅速发展,而现在这一模式也逐渐遇到了瓶颈,安防是国内 AI 落地最多的行业之一,以安防摄像头获取的数据为例,5 万小时的录像中,有足够拿来训练 AI 识别行人和车辆的内容,但最需要安防摄像头识别的是什么呢?是打架斗殴、行人跌倒等异常事件,可能在 5 万小时的录像中,这些是以分钟为数量级的。显然,这不足以训练出可以实际应用的 AI,对于这样的小数据,需要定制化的采集策略。

  具体到 AI 数据服务中,以 AI 企业数据增强需求为例。在云测数据的数据场景实验室中,绿色的幕布前,一位群众演员站在中央摆出不同的表情,正对着摄像机拍摄,演员的周围布满了光源,让其面部没有任何死角。对 AI 企业来说,拍摄这样的一张「纯净数据「,可以拓展更多的数据价值。当然,搭建这样的采集环境,对 AI 数据服务商有着光线,被采样本等条件的严格要求。


  表情采集讲解中|图片来源:云测数据
 
  「我们在前两年做人脸的采集时,对背景、光线还没有什么要求。」贾宇航说,在过去两年,AI企业对数据的采集和标注都变得更具有策略性:「比如说自动驾驶,以前恨不得天天都在采集,把数据都标上,现在就要是在雨天、雪天去采集,要去人流密集、或者是很多卡车、三轮车的特定场景,非常细化。」
 
  而这也是AI真实落地的必由之路,以往粗放式采集、大批量标记的模式逐渐被定制化采集、高精度标记模式取代,要到趋近AI产品落地前的水平,高质精准数据对AI企业来说,就像蛋白粉对于职业运动员一样必不可少。
 
  行业洗牌在即
 
  数据标注行业发展早期,由于门槛较低,让这个行业鱼龙混杂,同质化竞争严重,甚至出现了以往传统行业常见的多道贩子。,而供过于求的市场和过去数年AI企业对数据质量的相对不重视,以及数据标注员被称为AI从业人员的底层,让这个行业进一步陷入了低价低质的怪圈。
 
  大量劳动密集型的数据标注工厂在AI产业爆发初期,为中国人工智能企业的崛起做出了巨大的贡献。随着人工智能产业的发展与进化,数据标注行业开始朝着专业化、精细化、定制化方向发展。AI企业在逐步落地过程中发现,所需要的数据维度和复杂度正变得越来越高,数据服务的众包模式以及通用数据集已经难以满足AI企业的数据需求。「精准优质」、「安全独立」的数据被认为是AI企业落地前的刚需。
 
  2018年初,甲子光年曾报道称,BAT和AI企业占到了数据标注任务来源的约7成,但随着AI落地到传统行业,这个比例正发生变化。「比如银行、保险、汽车这些行业,在引入人工智能时有很大的势能。」贾宇航用车内的疲劳检测来举例,虽然市面上有不少开源或付费的数据集,企业也可以比较容易地获取算法然后进行训练,但作为整车厂,关心的并不是模拟器上的准确度,而是具体在自己某一型号的汽车上,在后视镜或是中控台上摆放的摄像头的具体效果,如果数据不是真实地在这个环境下采集,很难实际论证。
 
  「这也是深度神经网络的一个特点,比如人脸数据是在室内采集的,放到室外用可能就不行了,要产品化的话必须要结合使用场景去采集数据,才能提升识别精度。」在2018年的年初,市场上任务需求一般是量大质低,钱比较容易赚,而市场需求的转变,让数据服务的难度不断提升,再加上百度众包、京东众智等数据标注电商平台出现,行业标准化和透明化成成都提高,进一步加剧了行业的洗牌。
 
  一开始就定位定制化采集和高精度标准的云测数据,采取的是自建基地模式,全职雇佣数据服务人员。从商业模式上来看,比起欧美逐渐成熟的如ScaleAI的众包模式,云测数据想的会更远一些,自建基地模式要更稳定高效,另一方面,也能更规范性地保护数据隐私。
 
  Testin云测CMO张鹏飞补充道「从整体看来,AI数据行业关于安全、隐私等方面并没有统一的标准和强调重视。但从我们长远角度出发,一直在隐私和安全防护角度下大力气服务行业、树立数据质量标杆,只有以这种负责的态度来服务客户,我们的行业才能『良币驱除劣币』,真正让人工智能成为新一轮技术革命,改变整个社会和人类进程」。
 
  「安全」和「独立」显然密不可分。据了解,云测数据坚持独立第三方的立场,与所有数据采集的用户都签订数据授权协议(包括支持欧盟GDPR协议),对客户定制的数据交付后不留底全部删除,并建立了从防火墙到内部信息系统管护、各终端不联网、USB接口封死等数据保障机制来保证数据安全。
 
  为了尽量提升效率和保证数据质量和数据安全,云测数据在华北、华东、华南建立数据标注基地。一般AI产品在发布前一个月就需要拿到标注好的数据进行训练,而数据训练前一个月就应该完成数据的采集,对追求速度的AI企业来说是分秒必争的。「我们现在千人规模的全职的数据人员,但还是远远不够。」
 
  不久前IDC联合量子位发布的《AI落地白皮书》中称,中国在全球人工智能市场占比12%,位居第二,但增速64%位居全球第一,云测数据在数据采集和标准的市场还有庞大的增长空间,贾宇航认为,未来他们会更加深入AI细分领域和场景,并会考虑在未来进一步开拓国际市场。

     投稿邮箱:lukejiwang@163.com   详情访问鹿财经网:http://www.lucaijing.com.cn

相关推荐
华为发布“云龍套餐”:业界率先实现全光3000兆 华为发布“云龍套餐”:业界率先实现全光3000兆

原标题:华为发布云龍套餐:业界率先实现全光3000兆Wi-Fi 4月11日消息,河北联

科技说2024-04-11

小米SU7用华为超充桩充电实测:3秒一公里 稳定 小米SU7用华为超充桩充电实测:3秒一公里 稳定

原标题:小米SU7用华为超充桩充电实测:3秒一公里 稳定181kW 近日,雷军预祝华

科技说2024-04-10

美国电信巨头AT&T数据泄露:涉及数百万用户信 美国电信巨头AT&T数据泄露:涉及数百万用户信

原标题:美国电信巨头ATT数据泄露:涉及数百万用户信息 3月31日消息,美国电

科技说2024-03-31

全球      GPU加速向量数据库诞生 这家中国公司联 全球 GPU加速向量数据库诞生 这家中国公司联

原标题:全球 GPU加速向量数据库诞生 这家中国公司联手英伟达推出 向量数

科技说2024-03-22

中国成功发射云海二号02组卫星:刷新我国这项记 中国成功发射云海二号02组卫星:刷新我国这项记

原标题:中国成功发射云海二号02组卫星:刷新我国这项记录 3月21日消息,据我

科技说2024-03-21

新能源车渗透率要突破50% 比亚迪王传福预测 可能 新能源车渗透率要突破50% 比亚迪王传福预测 可能

原标题:新能源车渗透率要突破50% 比亚迪王传福预测 可能不止于此 2023年,我

科技说2024-03-21

仍有5亿人坚持用QQ 这个数据着实让人惊讶 仍有5亿人坚持用QQ 这个数据着实让人惊讶

原标题:仍有5亿人坚持用QQ 这个数据着实让人惊讶 据统计仍有5亿人坚持用QQ。

科技说2024-03-11

吉利新专利公布:可检测司机是否酒驾 吉利新专利公布:可检测司机是否酒驾

原标题:吉利新专利公布:可检测司机是否酒驾 2月21日消息,近日,吉利公司

科技说2024-02-21

高温超导机理研究重要一步!中国科大量子模拟 高温超导机理研究重要一步!中国科大量子模拟

原标题:高温超导机理研究重要一步!中国科大量子模拟新突破:首次观测赝能

科技说2024-02-08

华为糖尿病无创检测专利公布:解决风险检测结 华为糖尿病无创检测专利公布:解决风险检测结

原标题:华为糖尿病无创检测专利公布:解决风险检测结果不准确 2月6日消息,

科技说2024-02-06