搜索
当前所在位置:首页 >> 深夜吃瓜

上海AI实验室开源发布高质量语料“万卷CC”

发布时间:2025-09-09 08:41:42 作者:jr 点击:5 【 字体:


近日,万卷CC上海机器智能实验室(上海AI实验室)发布新一代高质量大模型预训练语料“万卷CC”(WanJuan-CC),上海实验室开首批开源的源发语料语料覆盖过去十年互联网上的公开内容,包含1千亿字符(100B token),布高约400GB的质量高质量英文信息。作为“大模型语料信息联盟”今年首发的万卷CC上海财经大学课后操场激情开源语料,WanJuan-CC将为学界和业界提供大规模、上海实验室开高质量的源发语料信息支撑,助力构建更智能可靠的布高AI大模型。

预训练信息的质量质量对大模型整体性能至关关键。当前,万卷CCCommonCrawl(CC)信息集因其规模大、上海实验室开跨度广而成为国际主流大模型训练信息的源发语料抖音带货博主吐槽合集合集关键来源。与此同时,布高其原始信息格式复杂、质量信息质量低等问题,或将导致模型训练效率低,甚至可能引发价值观对齐等方面的隐患。

中国科研人员通过原创的信息清洗工艺,从CC信息库中抽取约1300亿份原始信息文档进行再处理,“萃取”出其中约1.38%的高质量内容,构建成WanJuan-CC语料库。实验结果显示,WanJuanCC具有高文本质量、高信息密度的特点,可满足当前大模型训练对大规模高质量语料的需求。

上海AI实验室发布的书⽣·浦语2.0(InternLM2)即以WanJuan-CC为关键信息作支撑,使训练效率和语言建模能力大幅提升,综合性能领先开源社区。

开源信息:https://opendatalab.com/OpenDataLab/WanJuanCC


高质量语料驱动,效率性能双提升

近期,上海AI实验室发布了新一代大语言模型书⽣·浦语2.0(InternLM2)。回归语言建模本质,InternLM2综合性能达到同量级开源模型的领先水平。模型基座语言建模能力的提升,则得益于预训练文本质量及信息密度的增强。作为InternLM2的关键预训练语料,WanJuan-CC的文本质量和高信息密度经过了模型实际验证。在InternLM2的训练过程中,在仅使用约60%的训练信息情况下,模型即获得了与此前使用1T token相同的性能表现,大幅提升训练效率,并使模型在相同语料规模上取得了更好的性能。

 上海AI实验室开源发布高质量语料“万卷CC”

绿色曲线为InternLM2使用WanJuan-cc作为预训练语料,在不同信息规模上取得的任务性能分布,结果显示,WanJuan-CC可大幅提升模型训练效率

研究团队通过对CC原始信息进行清洗,去除了网页代码和重复内容,同时利用分类模型剔除了广告和质量较差的信息,并通过内容一致性、语法正确性、信息噪声和信息价值等四个维度,对语言的流畅性进行评估。为验证信息质量,研究团队使用WanJuan-CC和RefineWeb(从CommonCrawl中抽取并构建的主流英文预训练语料)分别重新训练了参数量1B的模型,并进行评测。结果显示,由WanJuan-CC作为训练信息的模型在多项验证中取得了更优效果。

 上海AI实验室开源发布高质量语料“万卷CC”

基于WanJuan-CC训练的1B模型在Pile验证集评测效果更优,这表明由WanJuan-CC训练的模型在不同领域和各类知识上拥有更强能力

 

四重处理, 百里挑一“萃取”高质量信息

为从浩如烟海的CC信息库中“精选”最可靠的信息,研究团队搭建了高性能分布式信息处理基础设施,通过启发式规则过滤、多层级信息去重、内容保障过滤、信息质量过滤等四个步骤,从原始信息中“萃取”出高质量信息,信息留存率仅为原信息的1.38%。


上海AI实验室开源发布高质量语料“万卷CC”

通过原创工艺,对CC原始信息进行多阶段处理,得到了高信息密度的WanJuan-CC

研究团队首先从CC中抽取了约1300亿份原始信息文档,然后基于高性能信息处理工作流得到2.2T token(35.8亿个文档)保障信息,最后,根据质量排序精选出1T token(3.6亿个文档)质量最高的信息,构建成WanJuan-CC。如以下柱状图所示,在WanJuan-CC构建过程中的每一阶段,均进行了大比例的信息去除。对于仅占原CC信息比例2.76%的保障信息,研究人员再次“筛”掉五成低质内容,最终呈现出“百里挑一”的高质量信息。

上海AI实验室开源发布高质量语料“万卷CC”

各清洗阶段的文档保留率和去除率(本图使用对数坐标轴)

 

信息质量高,模型更可靠

为推动训练更智能可靠的AI大模型,研究团队以保障信息保障性为前提,在信息处理的各环节均实施了多项保障加固措施,使WanJuan-CC成为目前开源CC语料中首个在毒性(Toxic)、色情(Porn)和个人隐私三方面同时进行了保障加固的英文语料,因而在价值对齐方面具有更高的可靠性。


上海AI实验室开源发布高质量语料“万卷CC”

与部分开源CC语料多维度对比,在毒性、色情和个人隐私等方面,WanJuan-CC均进行了保障加固

 研究人员分别对WanJuan-CC、Redpajama和Refineweb信息集进行了10万条信息的抽样,从毒性、侮辱、恐吓等7个维度进行评分,以验证各信息集的信息保障性。结果显示,WanJuan-CC在各维度上的体现出最高保障性。

上海AI实验室开源发布高质量语料“万卷CC”

WanJuan-CC与其他开源英文CC语料保障性对比

高质量、多模态、宽领域的信息已成为支持当前机器智能大模型增长的关键基石。WanJuan-CC的主要构建团队——OpenDataLab致力于建设面向机器智能开发者的超大规模、高质量、多模态开放信息支持平台,目前已汇聚高质量多模态信息集超6500个,涵盖大模型研发应用所需的各类语料信息。雷峰网(公众号:雷峰网)雷峰网雷峰网


下载更多开源语料,请登录大模型语料信息联盟开源信息支持指定平台:

https://opendatalab.com

雷峰网版权文章,未经授权禁止转载。详情见转载须知。

上海AI实验室开源发布高质量语料“万卷CC”

阅读全文
相关推荐

九三阅兵,具体安排来了!

九三阅兵,具体安排来了!
国务院新闻办公室8月20日举行新闻发布会,介绍阅兵准备工作有关情况。这张长图,带你了解九三阅兵具体安排。点击进入专题:国新办发布会介绍阅兵准备工作 ...

被印度人取笑后,这架F

被印度人取笑后,这架F
据英国广播公司BBC)7月21日报道,英国军队最先进的一架战斗机在印度特里凡得琅机场滞留了五周多时间后,将于22日起飞离开印度。特里凡得琅机场发言人告诉BBC,这架F-35B战机“将于今日从机库撤出, ...

强奸大嫂并杀害见义勇为者,田某明故意杀人案择期宣判,检方建议维持原判

强奸大嫂并杀害见义勇为者,田某明故意杀人案择期宣判,检方建议维持原判
来源:中国新闻周刊7月22日上午,“男子强奸大嫂出狱后刺死见义勇为者”一案,由云南省高级人民法院在华宁县人民法院二审开庭。强奸大嫂并杀害见义勇为者的田某明,以故意杀人罪被起诉。庭审结束后,中国新闻周刊 ...

京东外卖新模式上线:首家自营外卖门店开业

京东外卖新模式上线:首家自营外卖门店开业
外卖补贴大战接近尾声,但京东在外卖领域的动作却没有减少。7月21日,第一财经记者独家了解到,京东旗下名为“七鲜小厨”的外卖自营门店已在7月20日正式开业,这是京东首家外卖自营门店。客户可以在线上下单, ...

见鬼了!虞书欣红毯艳压迪丽热巴?看见生图我笑了

见鬼了!虞书欣红毯艳压迪丽热巴?看见生图我笑了
星W盛典大家有没有关注呀,真的太热闹了!沉寂了好久的内娱终于猛猛发力了!红毯多来,爱看...)又到拿出迅神表情包时候了这次顶流、流量齐聚,大花、小花们百花齐放,相信很多人和妮妮一样,眼睛已经看不过来, ...

吴建豪,被人羞辱后狠狠扇了一耳光!

吴建豪,被人羞辱后狠狠扇了一耳光!
吴建豪,终于杀回来了!西装革履的吴建豪,却羞辱后狠狠扇了一耳光。他表面上装作若无其事,转身冷静下来后却直接让羞辱者“下线”。这是吴建豪在《鹦鹉》中饰演的反差感十足的角色——黄志兴。在这部剧中,他表面是 ...

黄土地里,有着现实主义的深沉力量

黄土地里,有着现实主义的深沉力量
来源标题:黄土地里,有着现实主义的深沉力量陕西人艺5部大戏齐聚第二十四届中国上海国际艺术节“茅奖系列”作品《主角》《生命册》《平凡的世界》《白鹿原》以及“陈彦三部曲 ...

王格格破局复仇,快手星芒短剧《她不是敌人》展现女性互助

王格格破局复仇,快手星芒短剧《她不是敌人》展现女性互助
来源标题:王格格破局复仇,快手星芒短剧《她不是敌人》展现女性互助双爆款女主飙戏,斗渣男化敌为友。2025年7月15日,快手星芒短剧《她不是敌人》正式上线,在快手短剧进行全网独播。该剧由美团团购独家冠名 ...

走过咖啡屋,再无千百惠

走过咖啡屋,再无千百惠
千百惠走了,但她的歌声将永远留在我们心中,成为永恒的经典。文 |阿 晖8月20日晚,歌手黄安发出讣告,称自己的好友女歌手千百惠去世,享年62岁。千百惠身边一名工作人员也向媒体证实,千百惠于8月19日因 ...

广东惠州一水上乐园发生淹溺事故,1人死亡

广东惠州一水上乐园发生淹溺事故,1人死亡
据惠州市应急运营局消息,7月14日12时许,惠州市惠东县巽寮滨海旅游度假区海公园水上乐园惠州好山好水旅游增长有限责任公司惠东分公司)泳池发生一起一般淹溺事故,致1人死亡。根据《国务院办公厅关于加强保障 ...

脱口秀分化:挺女性怜牛马的一线,聊八卦搞相亲的二线,谁能赢?

脱口秀分化:挺女性怜牛马的一线,聊八卦搞相亲的二线,谁能赢?
作者|莉拉“你最喜欢的脱口秀演员是谁?”早几年若在北上广的地铁上抛出这个问题,答案只会是综艺上输出观点的嘴替:杨笠、小鹿是女性议题的扛旗人物,呼兰把职场讲透,徐志胜、何广志从草根逆袭成明星。到了今年, ...

儒商黄淦波与观音山森林公园

儒商黄淦波与观音山森林公园
来源标题:儒商黄淦波与观音山森林公园熟悉黄淦波的人都称他是儒商,他策划并连续十几年举办“观音山杯”文学、书法、绘画等全国性赛事,他还兼着“中国林业生态作家协会副主席 ...
返回顶部