欧美在线播放一区二区-欧美在线不卡-欧美在线不卡视频-欧美在线操-欧美在线成人午夜影视

中共中央宣傳部委托新華通訊社主辦

警惕AIGC數(shù)據(jù)污染“稀釋”人類原創(chuàng)

2024-10-18 14:38
來源:半月談網(wǎng)

半月談評論員 羅冠

互聯(lián)網(wǎng)的普及使得數(shù)據(jù)的生成、傳播和獲取變得無比便捷,網(wǎng)絡(luò)上的數(shù)據(jù)量呈指數(shù)增長,數(shù)據(jù)的規(guī)模從TB(千兆字節(jié))增加到PB(拍字節(jié))甚至EB(艾字節(jié)),數(shù)據(jù)的種類和來源也變得更加多樣化。數(shù)據(jù)的爆發(fā)式增長有力推動了以深度學(xué)習(xí)為代表的人工智能技術(shù)的突破性進(jìn)展,反過來又孕育了人工智能生成內(nèi)容(AIGC)這一新的數(shù)據(jù)生產(chǎn)方式和數(shù)據(jù)要素形態(tài)。

生成式人工智能技術(shù)的迅速發(fā)展,為人們的學(xué)習(xí)生活工作帶來了諸多便利,也極大地促進(jìn)了內(nèi)容創(chuàng)作行業(yè)的發(fā)展。生成式人工智能是一種能夠自動產(chǎn)生新的內(nèi)容、創(chuàng)造性思考的人工智能方法。這種新型的數(shù)據(jù)生產(chǎn)方式打破了傳統(tǒng)創(chuàng)作的時(shí)間和空間限制,使內(nèi)容生產(chǎn)更加高效、靈活。可以說,AIGC引發(fā)了數(shù)據(jù)要素形態(tài)的深刻變革,推動數(shù)據(jù)從靜態(tài)資源向動態(tài)智能要素的轉(zhuǎn)變,為各行各業(yè)的數(shù)字化轉(zhuǎn)型和智能化升級提供了新的動力。

生成式人工智能的普及,使數(shù)據(jù)規(guī)模以摩爾定律的速度快速增加,“全球新產(chǎn)生的數(shù)據(jù)量每兩年翻一番”,互聯(lián)網(wǎng)上每日新增的圖片、語料等內(nèi)容中AI生成內(nèi)容的占比已經(jīng)遠(yuǎn)遠(yuǎn)超過了真實(shí)的、人類生產(chǎn)的內(nèi)容。隨之而來的是數(shù)據(jù)質(zhì)量和數(shù)據(jù)污染問題,諸如深度偽造、偏見和有害內(nèi)容生成、有效數(shù)據(jù)“稀釋”等。大量低質(zhì)量或不客觀的數(shù)據(jù)充斥其中,不僅對模型的訓(xùn)練產(chǎn)生負(fù)面影響,甚至可能導(dǎo)致錯(cuò)誤的決策和偏差。這種數(shù)據(jù)質(zhì)量問題,引發(fā)了人們對“數(shù)據(jù)污染”的擔(dān)憂。

對于機(jī)器學(xué)習(xí)而言,數(shù)據(jù)污染是指用于訓(xùn)練的數(shù)據(jù)集中摻雜了低質(zhì)量的數(shù)據(jù),主要體現(xiàn)在數(shù)據(jù)缺失、數(shù)據(jù)沖突、數(shù)據(jù)重復(fù)、數(shù)據(jù)過時(shí)和隱私數(shù)據(jù)泄露幾個(gè)方面。在生成式人工智能模型大行其道的當(dāng)下,AIGC可能會加劇有效數(shù)據(jù)獲取的難度,進(jìn)而造成全社會層面的數(shù)據(jù)污染,影響構(gòu)建優(yōu)質(zhì)數(shù)據(jù)要素的進(jìn)程。

——海量AIGC“沖淡”人類產(chǎn)生的原創(chuàng)數(shù)據(jù)。一篇關(guān)于插畫繪制網(wǎng)站Pixiv的研究指出,AI繪圖興起后,人類畫師的活躍度下降了4.3%。當(dāng)AIGC生成的內(nèi)容開始主導(dǎo)信息生態(tài)時(shí),具有獨(dú)創(chuàng)性的人類內(nèi)容可能被大量的人工智能生成內(nèi)容“稀釋”乃至“淹沒”。一篇來自《Nature》的研究指出,當(dāng)大語言模型或圖片生成模型不斷地使用自身生成的數(shù)據(jù)進(jìn)行迭代訓(xùn)練時(shí),會導(dǎo)致模型性能的快速退化,這種現(xiàn)象稱為“模型崩潰”。我們將越來越難以收集優(yōu)質(zhì)的原創(chuàng)性數(shù)據(jù)進(jìn)行利用,長此以往或?qū)⑵茐膬?yōu)質(zhì)數(shù)據(jù)要素的構(gòu)建。

——放大錯(cuò)誤觀點(diǎn)及有害內(nèi)容,危害社會氛圍。生成式模型的訓(xùn)練依賴于大量公開的網(wǎng)絡(luò)數(shù)據(jù),而互聯(lián)網(wǎng)上的信息質(zhì)量良莠不齊,網(wǎng)友們的觀點(diǎn)通常帶有強(qiáng)烈的個(gè)人色彩。即使模型訓(xùn)練時(shí)盡力清洗和過濾訓(xùn)練數(shù)據(jù),也很難完全避免這些有害內(nèi)容的滲透。訓(xùn)練數(shù)據(jù)決定了模型的輸出,模型不會辨別哪些信息是正確的,哪些是有害的。如果訓(xùn)練數(shù)據(jù)中含有偏見或錯(cuò)誤信息,模型不僅會繼承這些信息,還可能通過生成新內(nèi)容的方式進(jìn)一步放大這些問題。由于生成式人工智能模型可以高效地生成海量內(nèi)容,錯(cuò)誤觀點(diǎn)和有害信息通過AIGC得以更廣泛、更快速地傳播,并且由于其逼真的表現(xiàn)形式,極易影響公眾的判斷,污染網(wǎng)絡(luò)數(shù)據(jù)導(dǎo)向。

——生成偽造虛假內(nèi)容,擾亂公共秩序。生成式人工智能可以根據(jù)人的指令生成不存在的內(nèi)容,極易被用于自動生成虛假新聞和謠言。深度偽造技術(shù)(DeepFake)正快速發(fā)展,圖片偽造、音頻合成和視頻換臉在生成式AI的幫助下變得輕而易舉,這些虛假內(nèi)容能夠以逼真的形式迅速傳播,帶來嚴(yán)重的社會影響。

——生成式人工智能與AIGC數(shù)據(jù)對優(yōu)質(zhì)數(shù)據(jù)生態(tài)造成影響。從全社會層面來看,倘若低質(zhì)量的生成內(nèi)容涌入公共數(shù)據(jù)源,將進(jìn)一步污染全社會的數(shù)據(jù)來源。當(dāng)數(shù)據(jù)源被大量低質(zhì)量生成內(nèi)容占據(jù),數(shù)據(jù)生態(tài)將逐步崩潰,構(gòu)建優(yōu)質(zhì)數(shù)據(jù)要素將無從談起。這不僅影響人工智能行業(yè)的發(fā)展,還會波及各個(gè)依賴數(shù)據(jù)要素進(jìn)行生產(chǎn)活動的行業(yè)和領(lǐng)域,例如新聞、教育、公共安全等。

AIGC數(shù)據(jù)需要“清污”。現(xiàn)存的隱私保護(hù)、知識產(chǎn)權(quán)和數(shù)據(jù)信息相關(guān)的法律與大數(shù)據(jù)時(shí)代已經(jīng)不匹配。面對互聯(lián)網(wǎng)上新增的海量原始數(shù)據(jù),我們亟須構(gòu)建完善的數(shù)據(jù)內(nèi)容維護(hù)、數(shù)據(jù)質(zhì)量管理和數(shù)據(jù)安全監(jiān)管體系。

聯(lián)合國大學(xué)關(guān)于AIGC數(shù)據(jù)利用與風(fēng)險(xiǎn)的一份調(diào)研報(bào)告中給出了一些建議:全面推進(jìn)AIGC相關(guān)立法,從源頭防范數(shù)據(jù)污染問題;構(gòu)建全面的AIGC數(shù)據(jù)質(zhì)量與安全評價(jià)體系,促進(jìn)合成數(shù)據(jù)的合理利用;將AIGC數(shù)據(jù)管理納入全球AI治理合作,促成全球范圍內(nèi)全面解決合成數(shù)據(jù)帶來的風(fēng)險(xiǎn);加快明確生成式人工智能倫理與隱私準(zhǔn)則,增強(qiáng)生成式人工智能技術(shù)的透明性,防范有違全人類共同價(jià)值的AIGC內(nèi)容擴(kuò)散,并解決用戶隱私和數(shù)據(jù)濫用等問題。

在尚未建立完善的數(shù)據(jù)污染管理體系之前,應(yīng)對AIGC數(shù)據(jù)污染的有效方法是AIGC檢測技術(shù)。依托AIGC檢測技術(shù),可以在構(gòu)建數(shù)據(jù)集和設(shè)計(jì)模型結(jié)構(gòu)的過程中篩選出真實(shí)的、公正的、有效的數(shù)據(jù)進(jìn)行訓(xùn)練,從而在新模型訓(xùn)練的層面減少數(shù)據(jù)污染的影響,阻斷數(shù)據(jù)污染擴(kuò)散。

從技術(shù)層面來看,我國已在諸如AI生成文本檢測、深度偽造圖片視頻檢測等方面取得了一定的研究成果。然而,現(xiàn)行AIGC檢測工具的泛化性能較差,檢測準(zhǔn)確率并不穩(wěn)定,一旦受到特定的攻擊干擾,其檢測準(zhǔn)確度會大幅下降。AIGC檢測方法仍然有很長的路要走。

AIGC數(shù)據(jù)的泛濫引發(fā)了人們對生成內(nèi)容的質(zhì)量、可靠性和可信度的擔(dān)憂。為了確保AIGC服務(wù)的可信性和可監(jiān)管性,應(yīng)該綜合發(fā)展打造完善的AIGC水印技術(shù),以便對AI生成的虛假信息、深度偽造視頻等具有社會危害性的數(shù)據(jù)進(jìn)行溯源和問責(zé)。此外,不妨利用“數(shù)據(jù)稅”這一概念,旨在對上傳大量無效數(shù)據(jù)或敏感數(shù)據(jù)的個(gè)體征稅。

信息安全和隱私保護(hù)問題變得日益緊迫。在設(shè)計(jì)下一代生成式模型時(shí)應(yīng)將安全設(shè)計(jì)根植于模型系統(tǒng)架構(gòu),而不是完成設(shè)計(jì)后再加入安全保障模塊,從而在更加根本的層面緩解因惡意攻擊或系統(tǒng)意外漏洞而帶來的隱私和數(shù)據(jù)安全威脅。

編輯:張曦

責(zé)任編輯:王亞冉

熱門推薦

主站蜘蛛池模板: 狠狠色丁香久久综合婷婷| 中文无码久久精品| 黑人巨大白妞出浆| 国产一级不卡毛片| 亚洲成本人网亚洲视频大全| 久久久一级| 香蕉视频网站| 97香蕉久久夜色精品国产| 国产a级午夜毛片| 日韩 国产 欧美视频一区二区三区| 最新九九精品| 精品哟哟国产在线观看| 国产欧美在线一区二区三区| 国产精品日韩欧美在线| 成人1000部免费观看视频| 一级片特黄| 精品自在线| 国产在线视频国产永久视频| 台湾一级毛片永久免费| 亚洲精品久久午夜香蕉| 91精品麻豆| 自拍视频在线观看视频精品| 91网站在线免费观看| 国产欧美日韩综合在线一| 国产一区在线免费观看| 久久成人黄色| 久久国内精品自在自线软件| 国产剧情麻豆精品免费| 中文字幕一二三四区| 毛茸茸年轻成熟亚洲人| 国产免费福利网站| 一级黄色性感片| 国产高清晰在线播放| 免费的黄色小视频| 亚洲六月丁香六月婷婷花| 黄黄的网站在线观看| 毛片一级做a爰片性色| 美女被啪到深处喷水gif动态图视频| 国产精品青草久久| 久久香蕉精品视频| 高清国产一区二区三区|