来自科技 2020-01-15 13:53 的文章

人机耦合时代下的数据众包产业化

随着数据众包产业的不断崛起，本文从数据众包产业化中的不同板块进行解析，为我们分享数据众包产业化的行业发展以及发展特征。

在互联网有一种新的产业正在兴起，那就是——数据众包。要想深入了解什么是数据众包就要从它的客户需求聊起：

“数据众包”的金主爸爸：产业上游AI

人工智能（Artificial Intelligence），它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。AI是目前对数据需求量最大的客户，并且都是大型公司，小企业由于各方面资源的限制很少会使用大数据进行研究。

AI是一个新领域么？

不是，AI是计算机科学的一个分支，AI一词最初是在1956 年Dartmouth学会上提出。从神经网络到人机耦合，当前的AI研究更着眼于从人类产生的数据中分析算法来训练计算机从事人的工作。

AI现在能做什么？

解放工业生产力：应用于工业领域，例如：使用AI处理工业数据或机器人操作。
人脸识别与监控：应用于国防安保、金融加密等。
服务行业：智能语音（聊天）机器人替代人类从事24小时客服工作、电话销售、家庭陪伴等。
其他：在汽车、医疗、设计、广告、影视等领域辅助人类进行工作。

“数据众包”的甲方大佬：机器学习

机器学习是AI的一个分支。机器学习使用算法解析数据，从中学习，然后对世界上的某件事情做出决定或预测。机器学习与软件编程最大的区别是——机器学习是在教计算机如何开发一个算法来完成任务而不是编写程序让计算机执行任务。机器学习使用分类和回归、聚类和降维、以及历史经验达到学习的目的。

Python

目前做人工智能的公司基本上选择的都是Python语言。Python是一门解释型编程语言，方便调试而且可以跨平台。Python语言具有丰富的第三方程序库，一些平台会面向互联网用户提供机器学习的Python应用编程接口。Python也有丰富完整的开源工具包。机器学习中最常用的一些库：Scikit-learn、Tensorflow、Theano、Pandas、Matplotlib、Seaborn。

大数据

大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理。

大数据的5V特点（IBM提出）：

Volume（大量）
Velocity（高速）
Variety（多样）
Value（低价值密度）
Veracity（真实性）

数据就像是机器学习的燃料，5V的程度越高机器学习的效果越好。

数据服务产业化——产业下游众包模式

为了给机器学习提供充足的数据进行训练和验证，研究人员需要大量的原始数据和标准化数据。提供数据众包服务的平台也就应运而生。

目前BAT都有了自己的数据众包服务平台/服务：百度数据众包平台、阿里人工智能众包（公测）、腾讯数据标注采集服务。

其他比较知名的众包平台还有：蚂蚁众包、有道AI众包（目前新用户停止审核）、华为数据众包、Testin云测、来打标数据平台。

百度数据众包服务（图片来自官网）

数据众包服务的形式

数据众包服务分为个人分包和企业分包两种。

个人分包

即服务商运营众包平台/app面向普通大众分派任务，服务商提供便捷易学习的数据标注/拍摄/识别工具，对接包者进行培训和训练以达到可以提供标准数据服务的目的，接包者大多是兼职人群，可以提供简单的操作获取回报。

个人分包的好处是：价格便宜，服务商可以以低廉的价格获取处理结果。

企业分包

即服务商将数据任务包分派给合作商，由合作商完成并提供返回符合要求的处理结果。目前阿里和腾讯基本采用这种众包方式。

企业分包的好处是：易管理，服务商无需分派过多人手进行分包、验收等工作。

专职分包商即接包的企业，他们与大数据服务商进行合作，接到任务后或自己组织人手处理数据、或运营平台分配给其他个人或更小的专职分包商。

众包平台对上游的依赖

众包平台上的原始“发包方“基本为BAT以及几个走在AI领域前沿的大型公司，所以第三方的众包平台对上游的依赖严重，即失去“发包方”后难以再利用手中的资源创造新的市场。通过众包形式来采集的数据质量参差不齐，即使众包平台对采集到的数据进行清洗、整理，仍然无法提高其与适用场景的契合度，这也制约了众包数据毛利率上升空间。

众包平台对地域的要求

大多数数据都以文字、音频、视频的形式保存，所以众包平台很难达到跨国经营。所以欧美国家一些成熟的数据众包公司始终没有进入中国市场，相比适应中文，他们更愿意尝试拉丁文语言市场。

而由于我国方言种类繁多，数据众包是否具有严格的地域性标准还未可知，我们仅知道目前语音翻译软件公司对此有采集要求。

众包平台自拓市场

为了能够摆脱“发包方”的绝对控制，众包平台只能研发新的服务项目。拓展新的服务对象就是延伸众包数据市场的一个新手段。

协助政府监控

在过去的几十年中，政府的数据来源都是自下而上的汇报，部分数据来自于调研。在这个长长的汇报链条中，如何避免利益相关者的干扰，如何得到一手真是数据是一个大问题。数据众包服务可以发送全民提供数据，即使有部分数据失真，也能保证大数据具有参考价值。

美国公司Premise Data通过上万名兼职人员，以拍照等形式采集商品的价格。这些数据经过整理后被卖给政府部门用于监控市场上各类商品的价格变动。Premise Data在2017年的估值大约为3.75亿美元。

盘活传统企业数据

传统企业在经营过程中会产生大量生产数据，这些数据可能就此沉默在档案库和电脑中。众包数据服务给了这些数据盘活的机会。人工分类、人工标注是远超程序的数据清洗手段，但由于其需要的人力资源巨大，一般企业难以承受。众包平台可以通过培训、考核等方法将这一枯燥的工作包装成兼职，以低价获得高质量数据。

各大众包平台/产品

我们可以看出来目前数据众包是一个大鱼吃小鱼，小鱼吃虾米的产业链。作为一项操作简单，人人皆可参与的工作，数据众包在未来可能会遍地开花，一人一台电脑或者一部手机就可以开设一个数据小作坊。

在打字录入逐渐被计算机替代的今天，数据标注、数据识别等需要人脑进行“无计算感官识别”的工作仍然无法被机器代替。这一新兴的、面向“低端”劳务市场的领域目前还在蓝海阶段，在中国这样的人口大国如果能设计出一条“数据处理流水线”，也许就能在这个人机耦合时代下打造一个面向全球的数据“富士康”代工厂。

#专栏作家#

无问西东，人人都是产品经理专栏作家。工商管理硕士，猫奴一枚。主导过金融公司台账系统、多公司OA系统；参与过二手车平台、P2P平台设计。

题图来自 Unsplash ，基于 CC0 协议