当前位置:主页 > 新闻资讯 > 公司新闻 >

高质量大数据推动人工智能发展

发表时间:2019-05-19 15:41

  现阶段,缺少高质量的数据集现已成为限制人工智能领域展开的瓶颈之一,如何构建人工智能数据集已成为各国政府和工业界注重的焦点。

  一、 人工智能强国从战略高度支撑构建数据集

  美国提出支撑构建高质量人工智能数据集,并将构建工作资源数据集定位为工业界不可能处理需政府层面推动的难题。2016年10月,美国先后发布《美国国家人工智能研讨和展开战略计划》和《为未来人工智能做好准备》,确认构建人工智能数据集为联邦政府人工智能战略重大计划之一。

  英国认为人工智能工作数据集的匮乏已严峻阻止人工智能的展开,将前进数据获取性和工作数据访问的便利性列为未来前进英国人工智能能力的首要任务。2017年10月,英国发布《在英国展开人工智能》的陈述,陈述认为由于隐私、安全、商业利益等要素,英国缺少满意的人工智能工作数据集,已严峻阻止其人工智能的展开,并根据此提出四方面发力打造人工智能强国的建议,其中将前进数据获取性和工作数据访问的便利性列为首要任务。

  我国将缺少有用的操练资源库列为影响人工智能展开的痛点问题之一,提出支撑缔造包括公共数据资源库、规范检验数据集、云服务途径等在内的人工智能基础数据途径。2017年12月,工业和信息化部发布《促进新一代人工智能工业展开三年举动计划》,举动计划解读明晰“我国人工智能展开的痛点问题之一便是缺少有用的工作资源操练库等公共服务支撑体系,业界广泛反映现已影响了人工智能技术展开及在工作中的运用”,提出支撑缔造面向语音辨认、视觉辨认、自然语言处理等基础领域及工业、医疗、金融、交通等工作领域的高质量人工智能操练资源库、规范检验数据集并推动同享。2018年11月工业和信息化部发布《新一代人工智能工业立异展开要点任务揭榜作业计划》,促进《举动计划》的进一步执行。

  图源:图虫构思

  二、 人工智能数据集收集战略分析

  现在,人工智能领域相关科技企业在数据集的获取方面现已构成了多种战略,由于商业方式、公司的重角度以及融资情况的不同,人工智能领域大型企业和草创企业选用的收集战略也有所差异。大型的人工智能领域科技企业重角度首要在数据的质量、价值和获取难度上。现在大型企业的数据获取战略首要有以下几种:

  战略一:数据并购。资金雄厚的企业可以通过并购获取数据。例如IBM在2016年斥资26亿美元收买了Truven健康公司。这笔买卖为IBM在电子病历、遗传学和影像资料方面带来了2亿个项目数据。

  战略二:工业数据协同。依托企业的工作影响力,与工业链下游创业公司/工作公司或工业链上游的数据/途径型公司建立协作,以此获取所需数据资源。如IBM Watson先后与美国药品连锁商店CVS、安德森癌症中心、留念斯隆-凯特林癌症研讨中心(Memorial Sloan Kettering,MSK)、泰国康民世界医院等机构协作,然后获得医疗领域人工智能操练数据资源。

  战略三:自筹数据。通过投入许多人力进行数据收集。如当时许多谈天机器人公司聘请AI教练团队对谈天运用程序进行功能点评和教导操练,所需人力随用户数量同步添加,直至引发数据网络效应,构成“更多用户——更多数据——更优智能算法——更好产品——更多用户”的正循环。此外,也可采纳投入许多资金,向顾客供应特定领域免费运用的战略快速堆集数据,如Madits、Clarifai等图画辨认公司均推出了免费的照片运用程序,以便为图画辨认中心事务堆集更多图画数据。

  战略四:构思产品撬动数据。通过构思产品招引用户,在文娱之余供应数据是获取人工智能数据集的一种立异办法。例如2016年11月,谷歌发布了名为“Quick, Draw!(猜画小歌)”的在线涂鸦App,该App要求用户依据文本提示制作简单政策,由AI猜测所画内容。所收集数据不只促进了该App本身AI的演进,还用来操练了2017年4月发布的素描AI机器人RNN。

  战略五:开源检验环境或途径换取数据。此战略适用于科技巨擘或工作巨擘,科技巨擘或工作巨擘通过开源检验环境和操练、检验数据集,旨在前进AI开发者的用户粘性,并以此获取数据以及其他资源。

  战略六:其他,如通过大赛机制完善数据集或运用虚拟环境发作数据等。一些人工智能领域竞赛要求协办方供应数据资源,促进数据同享。此外,运用虚拟环境也可发作数据资源。如斯坦福大学在操练远程遥控深海作业机器人OceanOne时,运用了许多由模仿场景(虚拟环境)发作的许多操练数据。

  关于草创企业,影响数据获取的关键要素是本钱,现在草创企业获取数据的首要战略有以下几种:

  战略一:运用政府主导的公共数据。当时,各国政府、人工智能工业链相关企事业单位以及研发人员正联合促进人工智能数据集的揭露可用,政府主导的公共数据集成为人工智能工作资源操练库的重要来历。美国联邦政府Data.gov数据途径已打开包括农业、气候、生态、教育、动力、金融、卫生、科研在内的等十余个领域的13万个数据集;英国、加拿大、新西兰等国自2009年前后初步建立政府数据公共途径;我国上海、北京、武汉、无锡、佛山等城市自2012年初步接连推出数据途径。

  战略二:购买商业数据集。数据资源的商业价值已得到广泛共同,商业数据集供应商运用最新的搜索算法收集、清洗和更新数据集,且初步出售其商业数据资源。商业数据集关于需求快速得到数据且没有内部资源来清洗和归类数据的人工智能草创企业来说对错常有利的,如道琼斯和Xignite已初步供应根据云途径的数据访问服务。

  战略三:众包商场。众包方式已成为代替人工智能科技企业收集数据的首要办法。如通过国外的亚马逊Mechanical Turk,国内的百度数据打开途径等数据众包途径可以找到承包商做数据收集作业,减少了企业雇佣数据专家的相关本钱。

  从展开趋势来看,未来数据并购和众包商场将逐渐成为首要的数据获取战略。相较于其他数据获取战略,这两种办法可以较为便捷地获取数据并构成质量较高的数据集。据CBInsights的数据闪现,人工智能领域中关于数据的并购现象将越来越显着。而关于草创企业,由于没有满意的资金,所以这类企业已将众包商场作为首要的数据来历;一同,一些大型互联网企业也将缔造数据众包途径作为展开人工智能的战略布局之一。

  三、 众包方式成为人工智能数据标明的根本办法

  收集获取的元数据需求通过进一步的标明才能对现在大部分的人工智能算法进行操练,而对海量元数据的处理需求许多的时间本钱和人力本钱。

  数据标明一般有人工标明和智能/人工结合标明两种办法。人工标明是借助必定可视化东西对数据进行纯人工标明,由于元数据的数据量极大,一般选用人工办法进行数据标明的作业量非常大。在处理具有必定规律性的数据时,可以选用智能/人工结合的办法,并通过智能/人工的多级迭代保证输出数据的质量。以百度高精地图为例,其数据智能处理程度已达到90%,能自动辨认包括交通标志、地上标志、车道线、信号灯在内的上百种政策。但是不论选用人工标明仍是智能/人工结合标明,作业量仍然对错常大的,仅靠人工智能企业本身的力量难以结束,一般需求进行数据标明任务的再分配。

  现在数据标明再分配的干流办法为众包方式。在没有第三方众包途径之前,人工智能科技企业一般自行招募数据标明员进行数据处理,这种办法数据标明和质量操控的本钱极高且功率低下。人工智能数据标明的外包商场于2015年实在初步,2016年下半年出现缩短,2017年又有了新一轮的迸发,现在已构成相对完好的众包工业生态。比较著名的Google Open Image Datasets、Youtube-8M、ImageNet数据集等均通过众包途径结束。

  众包方式首要有“众包”和“工厂”两种类型。“众包”是把任务通过途径转接分包给网民,如百度众包、京东众智、龙猫数据等途径首要选用这种办法,适用于不敏感数据;“工厂”则是途径自己运营团队,对整个流程进行操控,适用于企业敏感数据,如贵阳梦动科技运营了一个500人的“数据工厂”,在大型团队之外,还活跃着许多三五人到十几人规模不等的数据标明“小作坊”。

  众包方式的挑选需平衡任务费用、质量和时间三者的联系。任务费用、质量和时间三者之间的平衡与具体的众包任务性质密切相关。美国微软雷德蒙研讨院在数据任务花费与质量的平衡之间规划了根据马尔科夫抉择计划理论的数学模型(其内部称之为知识梯度的有用算法),以此确认哪类数据需求标明和雇佣谁进行数据标明,然后处理任务花费与质量之间的联系。一般来说,质量是最重要的政策,假如没有质量,较低的费用与较少的时间都会失掉含义。

  四、 构建人工智能数据集存在的问题和战略建议

  当时在人工智能数据集的获取和标明方面仍存在四方面问题。一是在元数据获取层面,企业出于本身利益考虑,难以实现实在的数据同享,并且某些特别领域的数据获取和运用是否合规合法存在很大的争议。二是数据标明工作仍是被具体政策支撑忽视的死角,人工智能相关政策和社会重角度首要集中在算法、运用、芯片方面,针对数据标明和众包商场的政策支撑和社会注重较少。三是第三方众包途径商场仍处于展开初期的野蛮生长情况,缺少相关工作处理规范和工作自律精神,有可能会发作一些损害客户利益的情况,如对众包数据进行二次转售外泄等。四是现在大型企业对自有数据的维护意识越来越强,但是现在众包途径首要由人工智能科技企业缔造,不存在与其他许多人工智能科技企业彻底没有利害联系的第三方众包途径。

  针对构建人工智能数据集存在问题的战略建议分析。一是进一步加强顶层规划规划和体系化布局,完善配套措施,加快相关政策落地,通过政策办法促进人工智能数据在企业间的同享和合理化运用。一同加强数据标明和众包商场的政策支撑,前进社会注重度。二是推动人工智能数据领域相关处理规范的制定和执行,加强工作自律精神缔造,建立投诉机制,保障企业数据安全。三是建议由国家层面统筹人工智能工作资源数据集缔造,探求以政府数据打开为牵引、龙头数据为基础、工作数据协作驱动,由无利益联系的第三方维护数据集并缔造数据众包途径。

此文关键字:高质,量大,数据,推动,人工智能,发展,现阶段,