亚洲欧洲日韩综合一区在线 ,av一区av久久av无码,国产美女MM131爽爽爽,国产午夜无码片在线观看影院

加載中...
您的位置:首頁 >證券頻道 > 正文

海天瑞聲推千萬輪對話預料庫 7.9億定增募資擬投向AI大模型訓練數據集建設等項目

2023-07-30 09:30:12 來源:每日經濟新聞


(資料圖片)

7月27日,海天瑞聲宣布正式推出「中文千萬輪對話語料庫DOTS-NLP-216」。

海天瑞聲方面分析認為,當前在中文對話領域,公開的數據集往往量少、分布有偏、價格昂貴甚至不能商用。導致一些大模型在中文對話方面的能力,相比英文對話略遜一籌。尤其是在一些需要比較深的中文語言理解能力的對話場景,無論開源的還是閉源的大模型,都往往表現不佳。

海天瑞聲方面表示,真實場景采集,符合中文表達習慣的自然對話數據,將為中文大語言模型(LLM)帶來新動能。

據海天瑞聲方面介紹,此次發(fā)布的數據集,是一個符合中國人表達習慣的自然對話數據集,共計約1000萬輪,上億級token(標記)。

此前,海天瑞聲發(fā)布公告稱,擬定增募資不超過7.9億元,其中,3.83億元計劃用于“AI大模型訓練數據集建設項目”,4.07億元計劃投向“數據生產垂直大模型研發(fā)項目”。

海天瑞聲在公告中表示,在人工智能產業(yè)進入以大模型為代表的新的發(fā)展時期,通過本次募投項目的實施,公司將建設一批適用性較強的大模型訓練數據集,拓展?jié)撛诟咴鲩L價值的新型業(yè)務板塊,并藉此進一步擴大公司業(yè)務規(guī)模;同時,以研發(fā)海天瑞聲數據生產垂直大模型為核心,升級海天瑞聲一體化技術支撐平臺,研發(fā)并引入多項新興技術,促進公司科技創(chuàng)新水平的不斷提升,鞏固公司的核心技術壁壘,構建長期技術實力支撐,從而進一步增強公司核心競爭力。

最近更新