密密麻麻的工作站里摆放着一排排整齐的电脑。这里的员工要么浏览图片,要么看视频,要么听声音。在观看的时候,他们标记他们所看到的。有的在为无人驾驶公司标注汽车和红绿灯,有的在为教育机构标注课程对话,有的在标注医院病历。.......
说起数据贴标行业,人们的之一印象总是直接把贴标定义为劳动密集型行业。依靠视觉冲击,在对数据标签行业有了基本了解后,他们不禁发表自己的看法:这不是富士康吗?或者我们可以看到一些关于数据行业的新闻报道突出“重复劳动”、“学历低”、“条件艰苦”,但实际上数据标签行业已经走过了小作坊的粗放式,开始进入“以技术取胜”的时代。
数据如何标注?
现在大部分数据都是没有标注的。标记数据是指对目标模型的数据进行标记或注释,以便可以预测。一般来说,数据标注包括数据标注、注释、审核、分类、转录和处理。
标记的数据突出了一些特征,并根据这些特征对它们进行分类,这样就可以使用模型来分析其模式,以预测新的目标。例如,对于自动驾驶汽车中的计算机视觉,AI专业人员或数据注释者可以使用视频注释工具,通过行人和其他车辆的位置来指示路标和火车模型的位置。
数据标注本身也需要AI辅助
文章开头我们说数据标注正在走向“以技术制胜”的时代,所以数据标注行业也在利用AI提高工作效率。
目前,在数据标注过程中引入技术是业内的普遍做法。让训练好的AI模型反馈人工标注也是标注技术公司的优势。
比如LabelIme支持物体检测、图像语义分割和数据标注;Photoshop可以选择批注界面和工具;点云标注工具支持3D盒子生成和KITTI-bin格式数据。.....
另一个例子是人工智能辅助定点。过去,注释者想要精细地描绘汽车的轮廓,必须手动标记30多个点。如果标记一辆车需要1分钟,那么标记图片中的所有物体平均需要1小时。
“在AI辅助功能的帮助下,现在你只需要在汽车外轮廓上随机命中4个点,系统会自动命中全部30个点,轮廓拟合良好。这样就可以把人工打点的次数减少到四次,只需要微调,时间减少了一半,提高了效率。”
AI数据标注的智能语义分割(来源:贝齐数据)
但是在一些全新的领域,机器还不能辅助人类工作,数据标注还是需要人力。即使有了人工智能自动贴标工具,人们仍然需要进行最后一步的审核和质量检查。
数据标注更像是一个裁缝
《经济学人》2017年发表的封面文章提出了一个问题:数据更像是有还是阳光?
不可否认,数据是“世界上最宝贵的资源”,数据是未来的石油;但相对于油、打字员、培训师的定义,我们把数据标签比作“匠心裁缝”更为贴切。根据行业的要求和用户的非标准化需求,量身定制标注器。一个数据的完成还需要经历选材(选择合作伙伴、委派标注任务)、测量(数据采集、数据标注)、拟合(数据提交、数据质检)、改样(数据修改、提交、审批)。每一步都是正确的,缺一不可。
高质量的数据标注需要高学历和相关资格证书
报道称,像百度山西基地的人,大部分都有专门的背景,经过培训,可以掌握一般的拉框和管理点的任务。但涉及到医疗、金融、语言、法律等专业领域,往往需要具备专业知识的数据标注人员进行标注。
例如,2017年,Google AI公布了一项突破性的研究成果:通过机器学习技术,AI可以从患者的视网膜眼底照片中自动诊断出潜在的病变,从而提前发现糖尿病视网膜病变,及时治疗和预防,让患者保住视力。
(比如这个,能告诉我哪个有病吗?)
而要想收到类似上面Google的数据列表,需要考取医师资格证。同样涉及到法律文书的阅卷或者投融资事件的分析,但是需要相关专业的本科生来完成。那么你还觉得数据标注是个简单的工作吗?
人工智能取代了很多工作,那么数据标注呢?
据《泰晤士报》记载,约公元前18000年,人类使用计数棒来存储和分析数据;桑戈人的骨骼于1960年在现在的乌干达被发现,这被认为是史前数据存储的最早证据之一;公元前2400年,算盘在巴比伦被用作之一种特殊的计算设备。之一个图书馆也在此时出现,这是人类之一次尝试存储大规模数据。
自古以来,人类的发展都离不开数据。随着近年来“数据时代”和“人工智能”成为热词,人工智能的发展已经成熟到一定阶段。当AI取代大量人类工作时,将不仅仅是个别行业的零星问题,最终的发展方向只会是更专业的数据标签人才取代基础工作。
在人才需求方面:
新一代人工智能发展规划提出,到2020年,人工智能整体技术和应用与世界先进水平同步,核心产业规模超过1500亿元,到2025年达到4000亿元,人工智能理论、技术和应用达到世界领先水平,核心产业规模超过1万亿元。随着政策的进一步推动和技术的成熟,人工智能产业的落地速度将明显加快,中国的AI数据服务产业也将迎来巨大的发展浪潮。
相关调查显示,2019年,企业在数据标签上的花费超过17亿美元。到2024年,这个数字将达到41亿美元,所以目前的数据标签人才还处于极短的阶段。
虽然在未来,AI很可能发展到“自学”这一步。但到目前为止,大部分的数据标注工作都是由真人来完成的。这份工作并不像大家想的那么简单,充满了复杂的判断和繁琐的重复。
随着对数据的需求越来越大,越来越多的人开始以标注数据为生。