"ChatGPT背后的数据标注产业链"
数据标注是人工智能的基础层, Plays a crucial role in the development of artificial intelligence. 数据决定了AI落地程度,基础数据服务是商业化过程中重要的一环。人工智能在变得更聪明更有人情味的过程中,离不开数据标注这个产业链。
ChatGPT的火爆,会带动数据标注行业的高增长吗?ChatGPT背后的数据标注产业链是一个非常重要的组成部分。数据标注作为人工智能的基础层,也为人工智能产业高速发展打下坚实的基础,催生了一批围绕人工智能产业链、大数据产业的新模式、新业态,成为数字经济发展的“数据”底座。
数据在AI发展过程中极为重要,业内甚至将数据称为“新的石油”来体现它作为将人类智能转化为机器智能原材料的重要性。但是,数据标注行业是一个劳动密集型的产业,需要大量的人力资源。整数智能信息技术(杭州)有限责任公司致力于为AI领域企业提供数据服务,认为数据决定了AI的落地程度,数据是人工智能产业的基础设施。
数据标注行业有一套分工流程:巨头把任务交给中游的数据标注公司,再由中游包给下游的小公司、小作坊,有的小作坊还会进一步众包给“散户”,比如兼职学生。数据标注业务的公司人员流动性很大,因为这个业务比较枯燥,做的是纯一线的重复性劳动,加之其他一些不稳定因素,一般公司会优先保证重要项目不出现人员断档。
国内做数据标注业务的公司很少有单业务链,比如内容审核集中在二三线甚至更小的城市,给的薪资相对会低。做内容审核、内容标注等这类业务的公司集中在天津、成都、重庆、西安……相对消费水准低,投入成本也低。
ChatGPT国产化有个非常大的风险,通过大量的数据训练机器人,跟所有的人对话,这个过程中其接触到的数据有很多可能是有问题的。有很多信息需要进行拦截,比如一些非法的信息。如果没有经过拦截的信息一经流出,就有可能变成变相的宣传渠道。
为了方便管理,比如担心内容外泄,较大的互联网公司都早早开始自建基地或者子公司,在安全和管理上更好把控,但成本会更高。字节跳动很早就自己建设基地,全国各地大概有六七个城市都有基地。以子公司来做数据标注,更多是基于安全的考虑,比如涉及黄赌毒的内容,有很多是不能流出的。必须承认外包业务泄露的风险要比自己公司泄露的风险大。然而,从成本上考量一定是外包公司更好。