《科创板日报》8月25日讯(记者 黄心怡)近年来,由深度学习带来的人工智能商业化应用落地,极大地推动了AI基础数据服务的需求。根据咨询机构IDC的数据,预计2025年,AI基础数据服务总市场规模将突破120亿元。
日前,位于海口市秀英区的百度智能云(海口)人工智能基础数据产业基地正式启动运营。数百名大学生入驻基地,成为新兴的人工智能AI训练师。
(资料图)
《科创板日报》记者实地走访了基地,并亲自上手体验了一把数据标注。在当前的AI大模型时代,数据标注的质量会影响大模型的“智商”。这些非结构化或半结构化的数据,必须经过清洗与标注处理,才能变成机器可理解、可学习的数据。
海口市秀英区委常委、常务副区长石晟屹在采访中表示,该基地在未来三到五年,新增就业有望突破5000人规模。“这些年海口市一直在探索,作为海南自贸港的省会城市核心区,需要千亿级园区、百亿级产业、十亿级的项目。而数字经济是我们找到的钥匙,人工智能基础数据产业基地的落地只是开始,后续将在海口建更大规模数字产业园区。”
▍AI数据标注师对能力要求高!本科学历100%
走进位于海口数据标注基地,记者看到一群大模型标注师正在借助数据标注平台对大模型生成的内容数据进行打分、排序。
百度智能云数据标注基地业务产品负责人胡驰介绍,由于大模型对同一个问题每次都生成不一样的答案,导致回答的稳定性会存疑。“有时答得很好,有时则答非所问。数据标注师的作用就像是大模型的专业辅导老师,让模型的回答更有质量。通过不断地人工标注,让大模型的表现与人类的价值观、思维方式不断地对齐,最终能像人一样,解决很多实际的问题。”
记者在现场体验了一把数据标注师的工作。对于每个问题,大模型生成5个不同的回答,然后数据标注师根据一套完整的评分规则,来给回答进行打分。满分为5分,如果分值低于3分,就需要在回答中划词指出,哪些句子存在答非所问、事实性错误等情况。
从记者的实操来看,大模型的数据标注具有一定的门槛。不仅需要判断回答有没有跑题、有没有事实性错误,还需要判断是否存在逻辑性问题、语义重复问题等等。涉及代码、法律、医疗等专业领域的对话,数据标注师则必须具备行业知识。
胡驰表示,相比传统模型,大模型数据标注需要一套全新的标注组织形式,对标注人员提出了更高的要求。这是由于传统的模型标注在规则上偏客观,而大模型的回答偏主观,要求标注师具备一定理解力、逻辑思维、总结能力。
《科创板日报》记者在现场获悉,海口标注基地的数百名数据标注师,学历本科率达到100%,招聘专业包括新闻系、中文系等。传统模型标注人员学历则普遍在中专及以上。在入职的前两个月,数据标注师需要进行集体培训和考核,通过考核后才能正式上岗,薪酬结算方式是计件制、多劳多得。
在完成数据标注后,百度会对大模型重新训练,并对更新后的大模型能力进行评估,对不足的地方再进行人工标注,通过这样的闭环把整体模型质量不断提升和迭代。
2020年2月,人社部《关于拟发布新职业信息公示的通告》中 “人工智能训练师”正式成为新职业并纳入国家职业分类目录。2022年全国约需要200万AI训练师。
记者了解到,海口标注基地在未来三到五年,新增就业有望突破5000人规模。目前百度已经在全国与各地政府合作,共建了十多个数据标注基地,累计为当地提供超过1.1万个稳定就业岗位,间接带动5万人就业。
▍剑指百亿产值!海口将建设更大规模数字产业园区
这次启动运营的海口数据标注基地,坐落于秀英区滨海大道。海口市秀英区委常委、常务副区长石晟屹在接受《科创板日报》记者采访时表示,去年海口的四个区里面,秀英区是数字经济唯一实现正增长的。
“如果要在海南自贸港核心区建设中走在前列的话,秀英区必须探索一些新的思路。从去年的数据来看,全球数字经济在经济总量的占比接近40%,中国数字经济在GDP的占比超过了55%。未来已来,特别是AI产业的发展堪称日新月异。这是我们找到的钥匙,秀英要大力发展数字经济。”
石晟屹透露,目前秀英区将从两方面入手。一是产业数字化。“秀英区从省级重点园区、市级园区到区里自有的园区有将近十来个,已经孵化了一大批生物医药类和工程机械制造类的企业,未来会为秀英区传统产业的升级改造提供支持。”
其次是数字产业化。石晟屹表示,数据标注基地的落地只是开始,后续将围绕1平台——海口数字科技创新平台,3基地——百度智能云(海口)人工智能数据标注基地、百度智算基地、百度元宇宙产业基地,5中心——飞桨产业赋能中心、城市数字化运营中心、数字化展示体验中心、交付服务中心、数字化培训赋能中心,来开展建设。
在此基础上,海口还将推动AI数字港在西海岸的核心区域的落地。“我们希望引进更多的类似于百度这样的数字企业,形成更大规模的数字产业园区。我们的计划是100亩地、100亿产值,近10亿税收,在三到五年大概达到这样的程度。五年后能实现500亿的产值。” 石晟屹说。