《科创板日报》6月21日讯(记者 张洋洋)云从科技、星环科技之后,又一家科创板公司定增投向大模型。
【资料图】
6月21日下午,海天瑞声发布公告,拟定增募资不超过7.9亿元,用于AI大模型训练数据集建设项目、数据生产垂直大模型研发项目。
此前的3月30日,“AI四小龙”之一的云从科技也披露了一份定增预案,公司拟向不超过35名发行对象发行股份不超过2.22亿股,募集资金不超过36.35亿元,扣除发行费用后拟全部用于云从“行业精灵”大模型研发项目。
紧接着6月7日,星环科技也发布定增预案公告,拟定增募资不超15.21亿元,扣除发行费用后的募集资金净额将用于数据分析大模型建设项目、智能量化投研一体化平台建设项目、数据要素安全与流通平台建设项目、AI知识助理建设项目以及研发及运营中心建设项目。
根据海天瑞声今日的公告,本次定增项目拟建设AI大模型训练数据集,即生产用于通用型、及各种垂直领域大模型训练的海量、高品质数据集;拟购置办公楼作为建设大模型训练数据研发生产基地,并购置数据采集、数据处理、数据存储和办公等软硬件设备。
具体而言,这些数据集产品具体可分为三大类:
通用及特定垂直领域的大语言模型训练数据集,包括但不限于: 中文大模型预训练语料数据集(含通用场景、特定场景、对话场景、指令 集等);多语言大模型预训练语料数据集(含通用场景、对话场景、指令集等)。
多模态大模型训练数据集:可应用于多语言图文大模型训练、多模态数字 人训练、多语种语音大模型训练、全场景自动驾驶大模型训练等场景的跨模 态数据集。
大模型评测数据集:可应用于大模型的能力、任务、指标等方面的评测。
海天瑞声称,这次定增项目建成后,将提供可供大模型训练和评测的不少于10个品类的专业数据集。
作为一家从事AI数据训练的公司,今年以来,因大模型的爆火,海天瑞声的股价也进一步抬升。年初至今,公司股价涨幅已达172.45%。
从具体的业务落地情况来看,根据海天瑞声在互动平台的回复,公司提供的训练数据覆盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个AI核心领域,可服务于包括具身智能等在内的多场景人工智能应用的开发。
根据公司最新披露的调研纪要显示,从目前一季度的情况来看,海天瑞声的大模型订单主要集中在强化学习阶段的数据处理需求,例如对prompt的内容回复续写、机器生成内容的评分等等。
但今日午后,ChatGPT概念股持续走弱,荣信文化、万兴科技、世纪天鸿均跌超10%,创业黑马、中文在线、海天瑞声等纷纷下挫。截至今日收盘,海天瑞声跌8.72%,报收115元/股。