当前位置:康壮新闻网>文化>新新葡京网站_云测数据:没有好的数据,人工智能没有未来

新新葡京网站_云测数据:没有好的数据,人工智能没有未来

新新葡京网站_云测数据:没有好的数据,人工智能没有未来

新新葡京网站,【猎云网北京】12月11日报道(文/奇点)

12月10~11日,2019年度ceo峰会暨猎云网创投颁奖盛典在北京望京凯悦酒店隆重举行,近百位知名资本大咖,独角兽创始人、创业风云人物及近千位投资人与创业者共聚“新势力·2019年度ceo峰会暨猎云网创投颁奖盛典”。

峰会上,testin云测cto陈冠诚以《场景数据成为人工智能产业突围关键》为主题分享了自己的观点。ai迅速爆发的背后究竟谁是推手?现下众多巨头企业、初创公司等纷纷入局人工智能领域,都在尝试寻找全新突破口。业内曾流传着这样一句话:得“数据”者,得“人工智能”,而能将“人工智能”玩的转的,便能称的上是翘动世界第四次工业革命的先锋了。

基于此,testin云测直击行业痛点,旗下ai数据服务品牌“云测数据”将“精准高质”“独立安全”作为业务发展的核心并不断随ai企业数据需求不断的演进。testin云测cto陈冠诚重点提出了目前ai企业对定制化数据服务的迫切需求,同时也指出:当下,人工智能正加速往应用人工智能方向发展,在算法、算力没有重大突破的前提下,质量高和安全性强的数据成为人工智能商业化落地的关键点。

人工智能技术的背后有三大支柱:算法、算力和数据,这三者相辅相成、相互制约,其中数据是核心生产资料,只要有了大量优质的数据,再加上算法实现高效的机器运算、算力的推动,ai才能越走越远。没有数据,再多的算力和模型上的投入,也不能让ai实现落地。

云测数据通过自建基于不同场景的独特数据场景实验室、开展定制化数据采集,同时自建数据标注基地的多道标审流程以确保输出“高质精准”的数据。直击特定场景化下的数据缺失、质量良莠不齐、数据隐私安全性等行业问题,以帮助ai企业打造以高精度数据为核心的行业壁垒。

此次为了帮助创业者和投资人重新蓄力,2019年,猎云网携全新品牌“新势力(new force summit)”亮相。本次峰会由猎云网主办,锐视角、猎云资本、猎云财经、企业管家协办。

此次盛典上,猎云网将通过六个版块分享创业者和投资人在智能制造、文娱、零售、医疗、教育、汽车等领域的启发性的观点和行业前瞻,围绕多个维度,分享科技和产业前沿观点,探讨创新潮流趋势、把握未来新方向。

大家下午好!我是来自testin云测的陈冠诚,非常荣幸跟大家分享关于ai话题。

目前ai应用在行业当中掀起了非常高的浪潮,若我们把ai应用比作成一个学生,那么这些学生的老师就是实现ai应用的算法工程师。但是光靠老师、学生是不够的,他们还需要高质量的教材,而数据就是老师、学生们所使用的教材,我今天跟大家分享的就是教材生产背后的故事:场景数据是人工智能产业突围的关键。

testin云测成立于2011年,为全球超过百万的企业及开发者提供云测试服务、ai数据标注服务、安全服务及推广服务。截止到目前为止,云测数据的数据标注业务已发展超一千人,为智能驾驶、智慧城市、智能家居、智慧金融等领域提供定制化的ai数据服务,全方位支持文本、语音、图像、视频等各类型数据的处理。目前我们在华北、华东、华南都有数据交付中心,很荣幸服务了众多ai相关的企业。

在我们服务的众多企业中共分为三大类型:第一类是科技巨头,覆盖的场景广,伴有多种品类的人工智能需求。第二类是新兴的人工智能企业,包含智能驾驶、视觉、语音等相关公司。第三类就是行业巨头,它们会利用ai来对整个行业进行产品升级。

其实大家都了解ai在社会变革中的影响,若从技术角度来看,ai最大的改善是将把人从重复性的工作中解放出来,不轮是工业制造的重复性劳动,还是像医疗问诊的重复性劳动,亦或者是智能驾驶中的重复性劳动。一旦通过ai技术将人从繁复的工作中解放出来时,人们便能更好的投入到许多创造性的劳动中。

比如在医疗环节中,如果问诊机器人可以更成熟化的落地,那么未来医疗人员、医护人员可以将很多精力从重复性的问诊工作中释放出来,他们会有更多时间关心病人精神、心理的相关活动,这是我们认为ai对行业的影响。

众所周知人工智能应用有三要素:算法、算力、数据。在这里我给大家举个简单的例子说明这个问题:以ocr文字识别引擎为例,文字识别是非常典型的ai应用,其也受约于算法、算力、数据,起初想做印刷数据,算法模型要想将印刷字体识别好需要的cpu、gpu,再用算力将印刷字体跑起来就可以了。

当做完印刷字体的文字识别之后,因为业务发展的需求可能还想加上对自然场景文字的识别,那就要获取更多自然场景的文字数据。另外整个算法模型需要更新换代,不仅是印刷字体的识别、自然场景的文字识别,还会有更多的需求提出。这样模型能力升级了,算力需求也跟着升级了。这是这三要素相互制约,也相互促进的迭代过程的一个简单例子。

谈到ai数据服务发展的简史,我们认为可归纳为五个阶段:1、互联网沉积数据阶段 2、通用型数据产品 3、众包数据服务 4、定制化数据服务 5、用户数据沉积,这也是ai产品从项目立项、验证、研发、落地、推广使用的生命全周期数据。

扩展来说,最早随着互联网的发展,诞生了大量用户的数据,比如用户上传的头像、发表的评论等数据。很多公司最典型的做法是用公开数据集、爬虫获取互联网上的人脸数据来训练一个模型。

但是紧接着发现一个问题,如果只是训练一个精度较低的人脸识别模型,这些通用数据是可以满足,但却没办法在垂直领域进行人脸识别的应用,不能实现商用。

同一个自然人,如果没有多个角度的照片做数据的话,整个模型是训练不出来的。这个时候发现需要用一些新的方法才能够采集到单用户多角度的照片,于是众包数据的方式产生了。

在众包平台上发布一个悬赏的任务,感兴趣的用户接受悬赏任务,授权给自己采取的多个角度的照片,如此可以把人脸识别模型做的更好。但随着数据需求的提升,众包方式采集的数据可能就满足不了算法的精度需求。算法可能需要更高精度的数据进行训练,比如2000万摄像头拍出来的照片,同时对照片拍摄的角度和光线都可能有特定的需求。这个时候便产生了定制化的数据服务需求。这也是我们ai数据服务的优势领域所在。

通过使用定制化数据服务,企业可以将自己算法的识别精度推到一个新的高度,进而落地成为产品被用户使用,而沉淀的用户数据以及用户在分享过程中逐渐产生的更多互联网数据,则会让整个数据库演变成大数据生态。

定制化设备和场景化数据,不仅考虑到新维度数据采集硬件差异化凸显的现状,还可以规避单一维度数据对算法上升成本增加的负面影响,同时也能发挥新维度数据融合加速落地场景的优势。通过定制的方式,可以获得实际场景所需的数据,反之,如果没有这样的数据,相关企业在具体场景中会很难工作。

这涉及到人工智能的公平性问题,要求产品要能被所有用户使用——肤色、方言、年龄的多样性都要纳入考虑范围。以机器人听懂人说话的这一需求为例,要求产品不仅要能够识别小孩的声音,同时也要能识别老人的声音,因此需要对相应的不同样本进行数据采集标注。这样一个复杂的工作过程,对人工智能企业服务人员的协同性提出了极大挑战。

这些需求会促使所有的ai数据服务提供方,必须至少具备三种能力:对场景深度的还原能力、作业协同化能力、专业化能力。

对于场景还原能力,首先体现在对用户真正的需求是否能够做到很好的拆解,甚至是预判,但仅仅是预判出来怎么做还是不够的,可以提前给更多的需求建议,应该怎样做、怎么复现场景才能保证算法顺利落地。这都是考验场景还原能力。

作业协同化,在生产制造中,其内部有几十个流程串联起来,像质检、抽检等等,而且参与人员非常多,那么生产流水线如何更好的把控时间节点,怎么进行上下游产业链工作环境的衔接,怎样提高工作效率,这将是非常重要的一点。

领域专业化上可以举个例子,在医疗领域做x光片病理诊断中,大多数情况下标注人员不是随便找一个普通人员就可以做,标注人员需要非常专业,甚至是副主任医师专业以上的,才能对病理的片子进行正确的数据标注与解读。类似的事情在各个领域中也多有发生,ai在各种各样垂直领域进行落地,比如说教育、法律、智能驾驶,都有细分专业化的要求。

以上讲的不仅仅是一个行业的发展趋势,对于任何一个想要开始启动ai的研发企业来讲,为了解决自己的ai产品的数据需求,通常企业自身也会经历过这几个阶段。不管是从第几个阶段开始,最后都会落在定制化数据这个阶段上。云测数据为了更好满足定制化数据的需求,我们做了几件事情:

第一有专业搭建场景的实验室,第二我们在华北、华东、华北都有数据标注的基地进行相应的交付。还有一块我们有专业的、拥有自主知识产权的采集系统、标注系统,其中重要的是有全程项目经理跟踪数据交付的流程,保证最后交付的质量。

最重要的一点,我们一直将数据隐私、数据安全作为业务开展的首要地位。

第一,不滥用数据,数据交付后清毁数据不留底,绝不二次使用;

第二,不侵犯隐私,与所有数据采集的用户都签订数据授权协议,包括欧盟非常严格的gdpr协议我们会做支持,确保ai企业用于训练的数据合法合规;

第三,建立相关的数据保障机制,如从防火墙的设置、内部信息系统的管护、乃至标准化的流程作业体系等。

我们目前支持智慧城市、智慧金融、智能驾驶、智能家居等领域。今天随着ai在各个行业的落地及定制化数据产品的需求,这应该是未来最重要的趋势之一。这是我今天的分享,希望对大家有所帮助。谢谢大家!