特斯联普惠AI:自训练学习算法促NLP技术产业落地
自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向,广泛应用于机器翻译、舆情监测、观点提取、语音识别等场景。自然语言处理技术在发展过程当中长期面临着包含内容的有效界定、不规范输入等在内的技术难点。这些都导致了较高的人工参与程度及尚有极大提升空间的机器学习效率。
特斯联所打造的科创中心致力于通过弱监督大模型训练体系及联邦学习安全训练体系,向不具备AI能力或弱AI能力的用户提供AI算法孵化服务能力。目前针对计算机视觉、自然语言处理、推荐预测、知识图谱四个方向共十三个细分项,特斯联与学术生态及产业合作伙伴已展开深入合作。在自然语言处理方向,特斯联打造了基于对比学习与自监督的NLP自训练学习算法,通过自监督的预训练算法、特征表示学习算法,及自训练系统,解决前述挑战。
NLP自训练学习算法:已知反哺未知,提升学习效率
特斯联核心算法团队基于数千项目的业务数据,提出了基于自监督的预训练算法、特征表示学习算法,及自训练系统,最大限度从领域数据、大量无标签数据、已有无标签样本、已知标签样本特征中,挖掘潜在内嵌信息,反哺到未知标签数据上,减少人工干预,提升学习效率。
基于自监督的预训练算法特斯联通过对自有数千项目生产的数据进行提取,获得大量无标签数据,并基于bert模型实行自监督无人工干预的预训练,让bert模型深入地学习到领域内知识,从而保证模型得到领域内数据更精确的特征表示。该方法通过三个步骤实现:
1)步骤1,采用[MASK]。采用基于分词的n-gram masking技术,1-gram~4gram Masking的概率分别为40%、30%、20%、10%。Mask使用whole word masking方式对分词后的结果进行。
2)步骤2,取消[MASK]。通过word2vec计算相似度,召回最相似的词替代MASK,缓解预训练任务与下游fine-tune任务的不一致性。基于分词后的结果随机挑选15%的词进行MASK。其中80%同义词替换,10%随机词替换,10%保持不变。
3)步骤3,添加sentence-order prediction任务。Sentence-order prediction任务预测自监督的两个句子为正序或逆序,使预训练模型学习到sentence pair的内在知识。
上述三个步骤之后,算法将所有训练集和测试集的数据去掉标签,并结合所有未标注的数据,进入预训练模型实行自监督预训练,让预训练模型更充分学习到任务数据的内在语义特征,更精准地预测无标签数据。
特征表示学习算法特斯联提出通过一个改进的全局特征相似度,充分挖掘样本特征内在的联系和表示,从而构建捕捉样本间细粒度特征的学习模块。
如上图,输入分别通过4个大模型,每个大模型分别在一块GPU中,通过master节点分发输入,最终master节点将4块GPU中大模型的输出进行concat,并通过线性层得到最终输出特征表示学习算法模型主要采用bert、roberta、macbert,其base和large模型级联分别对应如图GPU1、GPU2、GPU3,得到输出的embedding特征表示为E1、E2、E3。GPU0部分为bert、roberta、macbert模型级联,使用fgm对抗性训练技术,最终得到输出embedding特征表示为E0。这里使用stacking的集成学习思想,结合四种特征表示concat (E0,E1,E2,E3),再进入分类器得到模型输出,让特征的表示更加丰富,融合各模型知识,以不同的视角去获得特征表示,以此为后续的任务提供更有效的支持。
自训练系统自训练系统为一个自监督训练系统,其流程分为两个阶段:第一阶段,采用自监督对比学习技术,充分利用无标签数据进行自监督训练,让模型清晰地表达现有数据;第二阶段,使用少量带标签数据对模型微调,让模型在任务数据上达到较好效果。其中,第一阶段分为自监督与半监督两个步骤:
第一步,自监督/对比学习。首先假设样本集合为,其中和为语义相关的,为样本集合中的原始数据,为生产的与相似的数据。评价和的语义空间表示是否相关,须衡量alignment和uniformity两个指标。其中alignment计算和的平均距离为:
,uniformity计算向量整体分布的均匀程度为:
。我们希望两个指标尽可能低,也希望正样本距离足够近,语义向量尽可能均匀分布在超球面上。以上述两个指标作为指导,设计随机采样dropout mask的方式生成。设,其中z是随机生成的dropout mask。训练阶段将同一个样本分两次输入到上述的特征表示学习模型中,会在分类器前得到两个不同的特征表示向量,。将作为正样本,模型训练目标为:
。通过改变dropout mask生成的方法可保证语义一致性,只是生成的embedding不同。按照模型训练目标在无标签的数据上进行自监督训练,让模型充分学习到无标签数据的内嵌知识和表示。第二步,半监督/对比学习。从训练集中取出部分的标注数据,微调经过自监督训练的模型。过程中,也采用对比学习训练。我们记数据集中原始样本,正样本、负样本为,其中正负样本均取自原始带标注数据集,损失函数改进为。使用带标注的数据按上述损失函数进行监督训练后,模型即可达到一种良好的性能。
为进一步提升模型的性能,对于已收集到的大量无标签数据,也可使用微调后的模型对无标签数据生成标签。这里可通过设定阈值限制选择高置信度的标签,将这些标签混合原始的标注数据继续微调模型,进一步提升模型性能。
自监督训练系统解决了标注数据不足,少标签数据的问题,可在极少人工干预的情况下,让不懂AI算法的人员训练出属于自己的AI模型。
提升意图识别效率,特斯联NLP自训练学习算法助力AI产业落地
在人机对话系统的实践中,大量算法需要首先进行用户的意图识别,但用户的许多意图数据量很少,难以对用户各个意图进行大量的数据标注。这在实际的工业落地中是一个极大的挑战,也是NLP自训练学习算法可以发挥作用的场景。
特斯联NLP自训练学习算法可帮助厂家将此产业难题分解为几个pipeline式的子问题,逐一解决。厂家可先从对话系统中搜集大量未标注的用户对话语料,然后根据特斯联九章算法赋能平台提供的指标选择训练模型和训练目标,直接使用无标注的语料开启预训练。在开启预训练流程后,NLP自训练学习算法会自动挖掘用户各个意图之间的语义相关联系和区别,学习界定各个不同意图的边界方法,充分捕捉用户输入的潜在语义表达。完成预训练流程后,NLP自训练学习算法会自动使用未标注语料,进行自监督的对比学习训练,进一步学习区分不同用户输入和意图。随后的下游任务训练流程,仅需要对用户对话语料数据进行少量的标注,配合半监督技术进行下游的微调训练。待训练完成后,即可获得最终的意图识别模型,帮助满足诸如人机对话、机器人文本客服、机器人语音客服等实际工业场景中的需求。
随着技术的不断迭代,自然语言识别的能力也已从“让机器听得到”发展到了“让机器听得懂”的阶段,未来突破的方向则是让机器不仅能够“听得懂”还能“做得到”,这离不开整个产业的共同努力。借由科创中心,特斯联希望打造流程化、低门槛的AI基础设施,使各细分领域的玩家可以共同站在当前AI发展的成果的基础之上,探索更前沿的创新,使人工智能技术真正高效地参与到产业实践当中。
标签:
您可能也感兴趣:
为您推荐
如新公司全员核酸检测结果均为阴性
大咖云集|司库体系建设指南深度解读!超多干货,周五见!
福利活动进行时:汇宝利助你轻松跨境转账
排行
- 腾龙股份股东王柳芳减持302.01万股 价格区间为14.81-15.90元/股
- 因个人资金需要 新泉股份实际控制人唐志华拟减持不超1124.54万股
- 信捷电气股东邹骏宇减持50万股 价格区间为60.41-67.50元/股
- 国家卫健委:湖北以30个省外新增病例17例
- 因自身资金需求 科森科技股东徐宁拟减持不超3.71万股公司股份
- 中公高科股东潘玉利减持50万股 价格区间为20-20.60元/股
- 多地患者治愈后“复阳” 对疫情防控提出新挑战 五大焦点权威解析
- “精诚合作,打赢这一仗!”
- 生态环境部:自1月20日以来全国已累计处置医疗废物12.3万吨 ...
- 承诺两年扭转乱象 银保监会加快推进意外险费率市场化改革 ...
精彩推送
- 伯宇科技完成数千万元Pre-A轮融资,李书福出手
- 特斯联普惠AI:自训练学习算法促NLP技术产业落地
- 加元兑人民币汇率今日价格 3月18日100加元等于多少人民币?
- 广东:高中体育不合格者不能毕业,逐步提高中考体育分值
- 日元兑人民币汇率今日汇率查询 3月18日日元对人民币汇率多少?
- 新加坡元兑人民币汇率是多少 3月18日100新加坡元兑人民币汇率一览
- 瑞士法郎兑人民币汇率多少 3月18日瑞士法郎汇率一览
- “慢”深圳之下的招行速度与温度——招商银行深圳分行“疫”...
- 一“书”在手,租房不愁,乐有家发布《2022深圳青年租房红宝书》
- 社区电商“加速“逆行,区域订单量为平日两倍
- 新西兰元兑人民币汇率走势图 3月18日100新西兰元兑人民币汇...
- 烤肉市场竞争步入新阶段,洗牌期即将到来
- 当华熙生物成为一家「化妆品」公司
- 腾讯铁粉段永平
- 跨国创新临床CRO企业「HiRO」获数千万美元A轮融资,奥博资本领投
- 「他」经济走红,男性美妆成新蓝海!
- 首次引入体温AI监测,荣耀高端耳机引领行业进入新赛道
- 疫情之下,华南城助力跨境贸易行业海外觅商机
- 南科大:以伟大的抗疫精神,全力投入双一流国际交流合作工作
- 中国平安公布2021年财报,归母营运利润稳健增长6.1%
- 清泉外国语学校承担深圳市线上教学示范课
- 北交所、新三板:免收近期受疫情影响地区上市公司今年相关费用
- 3月17日24时起成品油价格按机制上调
- 高人气主播?可能是5000部手机刷出来的“假流量”!
- 这个“深圳特色”行业扶助计划,助小微企业纾困
- 中建海峡(深圳)建设发展有限公司志愿者:拼尽全力,精准防...
- 科创板上市公司科创属性的涉税研究
- 精品咖啡的「扩张悖论」
- 南京金鱼嘴基金街区:构建良性私募基金行业生态
- 跟四川人吃一次麻辣烫,我被对方拉黑了
- 抖快视频号大战付费直播
- 闻讯而动,命运与共!中建海峡(深圳)建设发展有限公司助力...
- 奈雪的茶全系降至30元以内,新系列9元起
- 深圳市直机关党员干部:抢抓黄金时间,跑出抗疫“加速度”!
- 蓝卓完成第二轮5亿元融资,富浙资本领投
- 上市即巅峰,SaaS降虚火
- 上海交大这波操作,亦可赛艇
- 罗湖区政协发动千名防疫志愿者,团结力量筑牢防疫堡垒
- 星航资本正式亮相:第一笔募资超2亿美元
- 人民币对欧元今日走势多少 100人民币等于多少欧元?
- 商务部:美方应立即停止对中国企业的无理打压
- 人民币对澳元汇率今日价格多少 3月17日人民币兑换澳元汇率查询
- 人民币对英镑汇率今日价格多少 午后100人民币等于多少英镑?
- “青”系“疫”线,逆风而行!葵涌人民医院青年突击队时刻准备着
- 洛阳涧西推出「金融十条」,将建立产业基金及城市更新基金
- 又一校外培训机构违规开展线下培训被立案调查
- 这个行业今年「凶猛」,大厂纷纷入局
- 人民币对港元汇率今日价格多少 3月17日人民币兑换港元汇率查询?
- 人民币对美元汇率今日多少 3月17日100人民币等于多少美元?
- 2021年度募资报告:募资进入2万亿时代
- 被人们抛弃的凉茶,还有救吗
- 广东交通集团引入全国第一船进口减碳沥青
- 中国招商银行外汇牌价表 今日招行人民币对美元汇率多少?
- 详解阿里2022裁员
- 中国农业银行外汇牌价表 3月17日农业银行人民币汇率多少?
- 中国工商银行外汇牌价表 3月17日中国工商银行人民币汇率多少?
- 人民币对泰铢汇率 今日多少 3月17日人民币兑换泰铢汇率查询
- 中国银行外汇牌价表 3月17日中国银行人民币汇率多少?
- 瑞士法郎兑换人民币汇率走势图 3月17日100瑞士法郎兑换人民...
- 加元兑换人民币汇率走势 3月17日加元兑换人民币汇率多少钱?
- 港元兑换人民币汇率今日价格 3月17日100港元等于多少人民币?
- 日元兑换人民币汇率 3月17日100日元等于多少人民币?
- 一台爬墙的「瓦力」,敲开一个千亿美元大市场
- 硬盘守护电视剧
- 欧元兑人民币汇率换算今日 3月17日100欧元等于多少人民币?
- 2022年武汉东湖高新区创投引导基金申报的通知
- 套现3121.02万元 宁波精达股东徐俭芬减持307.32万股
- 套现2.99亿元 赛轮轮胎股东新华联控股减持2500万股
- 耗资8100万!航民股份股东增持1500万股
- 捷佳伟创:股东减持45.49万股套现6239.42万元
- 广州市科学技术局关于公开征求广州科技创新母基金直接股权投...
- 成都百亿天使母基首期开始申报
- 3月17日人民币对美元中间价上调394个基点 美元汇率6.3406元
- 长短视频版权治理破局,搜狐全部自制作品授权抖音二创
- 广发证券策略:“稳增长”将有助于提升市场信心
- 零糖碳酸饮料风口来袭,销售额增长85%
- 江西省樟树市发布子基金基金管理人遴选公告
- 跨境转账app哪个好?汇宝利app即刻汇款!
- 「吉大正元」做LP,参设「银河吉大正元数字经济产业基金」
- 没了「呆瓜哥」,东北老铁往哪走?
- 抢抓机遇 乘势而上 奋力推动“十个走在全市前列”——访市...
- 传音控股:「非洲之王」不想躺平
- 大厂围攻,频频转向,小红书的困境谁能解?
- 致敬“逆行者”!疫情下坚守岗位的你,辛苦了
- 百利好环球 | 汇聚热门金融产品 为投资者带来多元投资优势
- 深交所:华鸿科技创业板IPO已变更为终止状态
- 六成营收由神秘大客户A贡献 富创精密遭上交所23问
- 资产规模超3万亿城商行迎来重大人事变动 霍学文担任董事长
- 养老理财试点范围扩容后新发产品陆续亮相
- 股价连续3个交易日涨停远方信息收深交所关注函
- 企企通获C2轮亿元级人民币融资,由华映资本和云晖资本共同投资
- 三家酒企同时挂牌转让 国产葡萄酒如何摆脱窘境?
- 「脚掌下的酸菜」是怎样炼成的?
- 多家险企秀出线上线下适老化服务新动作
- 苏州易昇完成6000万Pre-IPO轮融资,三峡绿色基金领投
- 让微软高攀不起的Discord,到底有什么魔力?
- 【协会动态】安徽合肥高新区青年企业家协会会长办公会召开
- 遵义市组织召开北京浙江商会考察农产品产销工作座谈会
- 刘梦海:引导青年民营企业队伍健康成长
- 蓝色脉动获得数百万美元天使轮融资,由靖亚资本投资