欧美在线播放一区二区-欧美在线不卡-欧美在线不卡视频-欧美在线操-欧美在线成人午夜影视

中共中央宣傳部委托新華通訊社主辦

警惕AIGC數據污染“稀釋”人類原創

2024-10-18 14:38
來源:半月談網

半月談評論員 羅冠

互聯網的普及使得數據的生成、傳播和獲取變得無比便捷,網絡上的數據量呈指數增長,數據的規模從TB(千兆字節)增加到PB(拍字節)甚至EB(艾字節),數據的種類和來源也變得更加多樣化。數據的爆發式增長有力推動了以深度學習為代表的人工智能技術的突破性進展,反過來又孕育了人工智能生成內容(AIGC)這一新的數據生產方式和數據要素形態。

生成式人工智能技術的迅速發展,為人們的學習生活工作帶來了諸多便利,也極大地促進了內容創作行業的發展。生成式人工智能是一種能夠自動產生新的內容、創造性思考的人工智能方法。這種新型的數據生產方式打破了傳統創作的時間和空間限制,使內容生產更加高效、靈活。可以說,AIGC引發了數據要素形態的深刻變革,推動數據從靜態資源向動態智能要素的轉變,為各行各業的數字化轉型和智能化升級提供了新的動力。

生成式人工智能的普及,使數據規模以摩爾定律的速度快速增加,“全球新產生的數據量每兩年翻一番”,互聯網上每日新增的圖片、語料等內容中AI生成內容的占比已經遠遠超過了真實的、人類生產的內容。隨之而來的是數據質量和數據污染問題,諸如深度偽造、偏見和有害內容生成、有效數據“稀釋”等。大量低質量或不客觀的數據充斥其中,不僅對模型的訓練產生負面影響,甚至可能導致錯誤的決策和偏差。這種數據質量問題,引發了人們對“數據污染”的擔憂。

對于機器學習而言,數據污染是指用于訓練的數據集中摻雜了低質量的數據,主要體現在數據缺失、數據沖突、數據重復、數據過時和隱私數據泄露幾個方面。在生成式人工智能模型大行其道的當下,AIGC可能會加劇有效數據獲取的難度,進而造成全社會層面的數據污染,影響構建優質數據要素的進程。

——海量AIGC“沖淡”人類產生的原創數據。一篇關于插畫繪制網站Pixiv的研究指出,AI繪圖興起后,人類畫師的活躍度下降了4.3%。當AIGC生成的內容開始主導信息生態時,具有獨創性的人類內容可能被大量的人工智能生成內容“稀釋”乃至“淹沒”。一篇來自《Nature》的研究指出,當大語言模型或圖片生成模型不斷地使用自身生成的數據進行迭代訓練時,會導致模型性能的快速退化,這種現象稱為“模型崩潰”。我們將越來越難以收集優質的原創性數據進行利用,長此以往或將破壞優質數據要素的構建。

——放大錯誤觀點及有害內容,危害社會氛圍。生成式模型的訓練依賴于大量公開的網絡數據,而互聯網上的信息質量良莠不齊,網友們的觀點通常帶有強烈的個人色彩。即使模型訓練時盡力清洗和過濾訓練數據,也很難完全避免這些有害內容的滲透。訓練數據決定了模型的輸出,模型不會辨別哪些信息是正確的,哪些是有害的。如果訓練數據中含有偏見或錯誤信息,模型不僅會繼承這些信息,還可能通過生成新內容的方式進一步放大這些問題。由于生成式人工智能模型可以高效地生成海量內容,錯誤觀點和有害信息通過AIGC得以更廣泛、更快速地傳播,并且由于其逼真的表現形式,極易影響公眾的判斷,污染網絡數據導向。

——生成偽造虛假內容,擾亂公共秩序。生成式人工智能可以根據人的指令生成不存在的內容,極易被用于自動生成虛假新聞和謠言。深度偽造技術(DeepFake)正快速發展,圖片偽造、音頻合成和視頻換臉在生成式AI的幫助下變得輕而易舉,這些虛假內容能夠以逼真的形式迅速傳播,帶來嚴重的社會影響。

——生成式人工智能與AIGC數據對優質數據生態造成影響。從全社會層面來看,倘若低質量的生成內容涌入公共數據源,將進一步污染全社會的數據來源。當數據源被大量低質量生成內容占據,數據生態將逐步崩潰,構建優質數據要素將無從談起。這不僅影響人工智能行業的發展,還會波及各個依賴數據要素進行生產活動的行業和領域,例如新聞、教育、公共安全等。

AIGC數據需要“清污”?,F存的隱私保護、知識產權和數據信息相關的法律與大數據時代已經不匹配。面對互聯網上新增的海量原始數據,我們亟須構建完善的數據內容維護、數據質量管理和數據安全監管體系。

聯合國大學關于AIGC數據利用與風險的一份調研報告中給出了一些建議:全面推進AIGC相關立法,從源頭防范數據污染問題;構建全面的AIGC數據質量與安全評價體系,促進合成數據的合理利用;將AIGC數據管理納入全球AI治理合作,促成全球范圍內全面解決合成數據帶來的風險;加快明確生成式人工智能倫理與隱私準則,增強生成式人工智能技術的透明性,防范有違全人類共同價值的AIGC內容擴散,并解決用戶隱私和數據濫用等問題。

在尚未建立完善的數據污染管理體系之前,應對AIGC數據污染的有效方法是AIGC檢測技術。依托AIGC檢測技術,可以在構建數據集和設計模型結構的過程中篩選出真實的、公正的、有效的數據進行訓練,從而在新模型訓練的層面減少數據污染的影響,阻斷數據污染擴散。

從技術層面來看,我國已在諸如AI生成文本檢測、深度偽造圖片視頻檢測等方面取得了一定的研究成果。然而,現行AIGC檢測工具的泛化性能較差,檢測準確率并不穩定,一旦受到特定的攻擊干擾,其檢測準確度會大幅下降。AIGC檢測方法仍然有很長的路要走。

AIGC數據的泛濫引發了人們對生成內容的質量、可靠性和可信度的擔憂。為了確保AIGC服務的可信性和可監管性,應該綜合發展打造完善的AIGC水印技術,以便對AI生成的虛假信息、深度偽造視頻等具有社會危害性的數據進行溯源和問責。此外,不妨利用“數據稅”這一概念,旨在對上傳大量無效數據或敏感數據的個體征稅。

信息安全和隱私保護問題變得日益緊迫。在設計下一代生成式模型時應將安全設計根植于模型系統架構,而不是完成設計后再加入安全保障模塊,從而在更加根本的層面緩解因惡意攻擊或系統意外漏洞而帶來的隱私和數據安全威脅。

編輯:張曦

責任編輯:王亞冉

熱門推薦

主站蜘蛛池模板: 日韩精品国产精品 | 久久久精品一区二区三区 | 国产在线精品一区二区中文 | 91制片厂制作果冻传媒麻豆 | 婷婷 综合 | 久草久在线 | 污片在线观看免费 | 免费黄视频网站 | 欧美一级欧美三级 | 麻豆传媒入口 | 国产主播大尺度精品福利 | www.麻豆视频| 日韩成人综合网 | 成人性色生活影片 | 国产女主播一二三区丝袜美腿 | 91久久爱 | 曰本女人一级毛片看一级毛 | 久色一区| 麻豆va一区二区三区久久浪 | 国产97色在线 | 免费 | 国产成人精品一区 | 九九免费精品视频 | 国产真实搭讪系列 | 亚洲成年网站在线777 | 8x永久免费观看成人影院 | 草草影院国产 | 亚洲精品久久九九精品 | 久久精品亚瑟全部免费观看 | 亚洲网红精品大秀在线观看 | 国产欧美中文字幕 | 国产精品亚洲第一区广西莫菁 | 一级女性全黄生活片看看 | 日韩中文字幕精品免费一区 | 国产三区视频在线观看 | 182tv午夜线路一线路二 | 国产大学生真实在线播放 | 日韩视频高清 | 欧美黄色免费看 | 精品国产综合 | 国产日产精品久久久久快鸭 | 国产最新在线视频 |