- 首頁
- 民文
- English
- 網(wǎng)站無障礙
- 舉報(bào)
- 登錄
人民網(wǎng)聯(lián)合山東數(shù)字文化集團(tuán)共建全國首個(gè)主流文化語料庫

8月25日,人民網(wǎng)與大眾報(bào)業(yè)集團(tuán)、山東數(shù)字文化集團(tuán)共建主流價(jià)值語料庫(山東)、主流文化語料庫(山東)合作簽約暨項(xiàng)目推進(jìn)會(huì)在濟(jì)南舉行。會(huì)議現(xiàn)場,人民網(wǎng)與山東數(shù)字文化集團(tuán)正式簽約,共建全國首個(gè)主流文化語料庫,推動(dòng)數(shù)字文化產(chǎn)業(yè)高質(zhì)量發(fā)展。
隨著人工智能加速迭代,高質(zhì)量數(shù)據(jù)集作為人工智能模型訓(xùn)練與應(yīng)用的基石,成為人工智能能力提升和“人工智能+”場景落地的關(guān)鍵支撐。2025年1月,國務(wù)院辦公廳印發(fā)的《關(guān)于推動(dòng)文化高質(zhì)量發(fā)展的若干經(jīng)濟(jì)政策》提出,“建設(shè)文化領(lǐng)域人工智能高質(zhì)量數(shù)據(jù)集,支持文化領(lǐng)域大模型建設(shè)”。
主流文化語料庫由人民網(wǎng)和山東數(shù)字文化集團(tuán)共建,依托人民日?qǐng)?bào)、人民網(wǎng)、大眾報(bào)業(yè)集團(tuán)等黨報(bào)黨網(wǎng)長期建設(shè)發(fā)展形成的新聞、理論、評(píng)論、政策等權(quán)威媒體資源,結(jié)合山東省內(nèi)文化單位、高校多年來積累的優(yōu)質(zhì)私域文化資源,系統(tǒng)性注入主流價(jià)值觀,確保語料時(shí)刻與國家脈搏同頻、與社會(huì)價(jià)值共振,打造成可供AI領(lǐng)域放心使用的“價(jià)值合規(guī)型”數(shù)據(jù)資源。經(jīng)數(shù)據(jù)采集、清洗、預(yù)標(biāo)注、標(biāo)注、增強(qiáng)、校審等環(huán)節(jié),通過“AI+人工”的方式,精心打磨而成。
據(jù)了解,該語料庫具有標(biāo)準(zhǔn)統(tǒng)一、結(jié)構(gòu)完整、權(quán)威準(zhǔn)確、開放共享等特色,通過標(biāo)準(zhǔn)化的語料分類系統(tǒng)和專業(yè)的數(shù)據(jù)標(biāo)注平臺(tái),可有效解決當(dāng)下AI大模型普遍存在的敏感領(lǐng)域語料欠缺、重要文化領(lǐng)域語料不足、核心語料質(zhì)量不高等問題。為解決通用大模型常因缺乏針對(duì)性語料而“水土不服”的問題,主流文化語料庫可深入?yún)^(qū)域和垂直領(lǐng)域的具體場景,構(gòu)建富含行業(yè)術(shù)語和場景化表達(dá)的精準(zhǔn)語料資源,進(jìn)一步增強(qiáng)AI的理解力,提升應(yīng)用效能,加速AI技術(shù)與垂類領(lǐng)域的深度融合,驅(qū)動(dòng)產(chǎn)業(yè)升級(jí)。
作為全國首個(gè)主流文化語料庫,一期重點(diǎn)聚焦山東優(yōu)秀文化,目前已上線問答語料5萬對(duì)、基礎(chǔ)語料2000萬篇,正在打造孔子學(xué)術(shù)研究、孔子畫像等多個(gè)高質(zhì)量數(shù)據(jù)集。后續(xù)計(jì)劃分期分批建設(shè)覆蓋廣泛、內(nèi)容豐富主流文化數(shù)據(jù)集,推動(dòng)文化大模型的性能躍遷與數(shù)字文化產(chǎn)業(yè)高質(zhì)量發(fā)展。(顧玉雪)
分享讓更多人看到