电子商务基础知识是什么?

电子商务基础知识是什么?,第1张

一.电子商务常用术语解释

1.什么是电子商务

专业定义:以电子及电子技术为手段,以商务为核心,把原来传统的销售、购物渠道移到互联网上来,打破国家与地区有形无形的壁垒,使生产企业达到全球化,网络化,无形化,个性化、一体化。

简单的说,就是利用网络通信形式,达到买卖双方不谋面地进行的各种商业和贸易活动。

2.什么是网上商城

网上商城类似于现实世界当中的商店,简单的理解就是在网上开的一个商店,产品通过图片的形式展示出来,可以用网上支付方式结算货款,送货时用快递进行。

3.什么是网上支付

是指交易双方在结算货款时,通过网上借助于网上第三方平台,实现资金转帐汇款的交易。如银行卡的网上银行功能,是顾客直接在网银确定对方帐号,确认支付密码,直接将款转到对方帐号实现网上转帐支付。如支付宝、财付通等第三方担保支付平台,顾客是先购买产品,然后确定支付后,将款转到支付宝网站代为保存,等收到商家货物后,在从支付宝中确认,支付宝将款打给商家完成支付。网上支付有很多种客户和商家之间可采用信用卡、电子钱包、电子支票和电子现金等多种电子支付方式进行网上支付,这种形式可以节省时间及减少手续费支出。

4.什么是B2B

B2B是英文Business to Business(商家对商家)的缩写,是商家(泛指企业)对商家的电子商务模式,即企业与企业之间通过互联网进行产品、服务及信息的交换。这些过程包括:发布供求信息,订货及确认订货,支付过程及票据的签发、传送和接收,确定配送方案并监控配送过程等。

国内目前比较知名的B2B网站综合类:阿里巴巴、慧聪网,网盛生意宝、环球资源网、中国制造网、中国网库、敦煌网等;垂直类:中国化工网等。

5.什么是B2C

B2C是英文Business to Consumer(商家对客户)的缩写,就是通常说的商业零售,直接面向消费者销售产品和服务。这种形式的电子商务一般以网络零售业为主,主要借助于互联网开展在线销售活动。B2C模式是我国最早产生的电子商务模式,以8848网上商城正式运营为标志。

国内目前比较知名的B2C网站综合类:京东商城、当当网、卓越亚马逊、易迅网、一号店等;垂直类:新蛋、好乐买、凡客诚品、酷运动、左岸女人等。

6.什么是C2C

C2C是英文Consumer to Consumer(个人对个人)的缩写,C2C同B2B、B2C一样,都是电子商务的模式之一。不同的是C2C是个人对个人的电子商务模式,C2C商务平台就是通过为买卖双方提供一个在线交易平台,使卖方可以主动提供商品上网拍卖,而买方可以自行选择商品进行竞价。

国内目前比较知名的C2C网站有:淘宝网、易趣网拍拍网、乐酷天等。

7.什么是B2G

B2G模式即企业与政府之间通过网络所进行的交易活动的运作模式,比如电子通关,电子报税等。举例来说,一个提供 B2G 服务的网站可以提供一个单一地方的业务,为一级或多级政府(城市,州或省,国家等等)来定位应用程序和税款格式;提供送出填好表格和付款的能力;更新企业的信息;请求回答特定的问题等等。 B2G 也可能包括电子采购服务,通过它商家可以了解代理处的购买需求并且代理处请求提议的回应。B2G有时也被称为电子政府。

8.什么是 Groupon模式

可以简单的归纳为是一种多方共赢(消费者,商家)的电子商务和线下消费的模式。消费者、商家、网站运营商各取所需,让资源分配得到最大的优化。国内目前比较知名的Groupon模式网站有:美团、拉手、F团、糯米、满座等。

二.相关术语解释

1.门户网站

门户网站最初提供搜索引擎、目录服务,后来由于市场竞争日益激烈,门户网站不得不快速地拓展各种新的业务类型,希望通过门类众多的业务来吸引和留住互联网用户,以至于目前门户网站的业务包罗万象,成为网络世界的“百货商场”或“网络超市”。 从现在的情况来看,门户网站主要提供新闻、搜索引擎、网络接入、聊天室、电子公告牌、免费邮箱、影音资讯、电子商务、网络社区、网络游戏、免费网页空间,等等。在我国,典型的门户网站有新浪网、网易和搜狐网等。

2.网站流量

通常说的网站流量(traffic)是指网站的访问量,是用来描述访问一个网站的用户数量以及用户所浏览的网页数量等指标,常用的统计指标包括网站的独立用户数量、总用户数量(含重复访问者)、网页浏览数量、每个用户的页面浏览数量、用户在网站的平均停留时间等。

3.网络广告

网络广告就是在网络上做的广告。利用网站上的广告横幅、文本链接、多媒体的方法,在互联网刊登或发布广告,通过网络传递到互联网用户的一种高科技广告运作方式。与传统的四大传播媒体(报纸、杂志、电视、广播)广告及近来备受垂青的户外广告相比,网络广告具有得天独厚的优势,是实施现代营销媒体战略的重要一部分。Internet是一个全新的广告媒体,速度最快效果很理想,是中小企业扩展壮大的很好途径,对于广泛开展国际业务的公司更是如此。

4.转换率

Conversions Rates,又称转化率。在互联网领域里,转化率是指用户进行了相应目标行动的访问次数与总访问次数的比率。要注意,这里所指的相应的行动可以是用户登录、用户注册、用户订阅、用户下载、用户购买等一些列用户行为,因此网站转化率是一个广义的概念。以用户登录为例,如果每100次访问中,就有10个登录网站,那么此网站的登录转化率就为10%,而最后有2个用户订阅,则订阅转化率为2%,有一个用户下订单购买,则购买转化率为1%。这里需要注意的是,目前很多人将网站转化率仅仅定义为注册转化率或者订单转换率,这都是狭义的网站转化率概念。转换率=进行了相应的动作的访问量/总访问量,衡量网站内容对访问者的吸引程度以及网站的宣传效果。

5.跳出率

跳出率是指仅浏览了一个页面就离开的用户占一组页面或一个页面访问次数的百分比。跳出次数是指访问者不访问您网站的其他任何一页便从进入页退出的次数。所以跳出率的算法就是:浏览了一个页面就离开网站的次数/进入网站的次数=跳出率。

6. 二跳率

二跳率的概念是当网站页面展开后,用户在页面上产生的首次点击被称为“二跳”,二跳的次数即为“二跳量”。二跳量与浏览量的比值称为页面的二跳率。这是一个衡量外部流量质量的重要指标。

7.访问页面

网络推广的访问者访问 5个页面以上才是有效流量。访问10个页面以上是高质量的流量,访问2个以下页面是垃圾流量。

8.停留时间

超过3分钟才是有效流量;超过6分钟是高质量流量;小于1分钟的是垃圾流量。

9.二跳率数据

推广来主页二跳率70%以上是高质量流量。

10.转化率数据

推广购买转化率为1%以上为高质量流量。

11. PR值

PR值全称为PageRank(网页级别)是Google用于评测一个网页“重要性”的一种方法。

12. Web1.0

web1.0时代是一个群雄并起,逐鹿网络的时代,是第一代互联网应用的统称。Web1.0 的主要特点在于用户通过浏览器获取信息。

13. Web2.0

Web2.0 是相对Web1.0 的新的一类互联网应用的统称。Web2.0 更注重用户的交互作用,用户既是网站内容的浏览者,也是网站内容的制造者。所谓网站内容的制造者是说互联网上的每一个用户不再仅仅是互联网的读者,同时也成为互联网的作者;不再仅仅是在互联网上冲浪,同时也成为波浪制造者在模式上由单纯的“读”向“写”以及“共同建设”发展;由被动地接收互联网信息向主动创造互联网信息发展,从而更加人性化!

三.电子商务商务常见营销方式

1.网络媒体:门户网站广告,客户端软件广告。

2.SEM:竞价排名,联盟广告。

3.EDM邮件营销:内部邮件群发,第三方平台,数据库整合营销等方式。

4.社区营销:BBS推广(发帖和活动)SNS。

5.CPS代销:销售分成(一起发,成果网,创盟)。

6.SEO:搜索引擎优化。

7.积分营销:积分兑换,积分打折,积分购买等。

8.DM目录:传统单张目录,如麦考林,红孩子,凡客,PPG。

9.线下活动:会展,体验店等。

10.传统媒体:电视电台,报刊杂志。

11.SNS社会化媒体:人人、开心等。

12.微博:即微博客(MicroBlog)的简称,如新浪,腾讯QQ微博。

四.淘宝店专业数语说明

1. 淘宝旺铺

淘宝旺铺是淘宝开辟的一项增值服务和功能,是一种更加个性豪华的店铺界面。使得顾客购物体验更好,更容易产生购买欲望。它实现更加开放的店铺装修方式,支持可视化编辑、所见即所得的操作方式,可自由添加模块,配合各种增加新功能,定制出完全属于自己的个性化店铺,为买家带来耳目一新的购物体验。使店铺能够更专业,更个性,并提供了更强大的功能,对塑造店铺形象,打造店铺品牌,推广促销您的商品,起到了至关重要的作用。

2. 直通车

直通车是由阿里巴巴集团下的雅虎中国和淘宝网进行资源整合,推出的一种全新的搜索竞价模式。它的竞价结果不只可以在雅虎搜索引擎上显示,还可以在淘宝网(以全新的图片+文字的形式显示)上充分展示。每件商品可以设置200个关键字, 卖家可以针对每个竞价词自由定价,并且可以看到在雅虎和淘宝网上的排名位置,并按实际被点击次数付费淘.(每个关键词最低出价0.05元 最高出价是100元,每次加价最低为0.01元)。

3. 量子统计

量子统计前身为雅虎统计,自2007年7月11日Beta版发布以来,一直致力于为个人站长、个人博主、网站管理者、第三方统计等用户提供网站流量监控、统计、分析等专业服务。2008年9月加入淘宝,于2009年3月正式更名为“量子统计”,成为阿里巴巴旗下一强大精准的网站统计产品。

4. 超级卖霸

超级卖霸是淘宝网重拳推出的宝贝展示集中营,搜集了全网最热卖的宝贝,将其集中展示在全网客流访问量最大的位置,以其超大活动流量、完美主题策划、投入费用优惠、效果数据监控等突出优势取得了良好的效果。是淘宝网根据不同价值的推广资源,针对不同类型的卖家推广需求,制定不同的主题活动,以促进卖家所参与活动商品的推广销售服务。

5. 钻石展位

钻石展位,淘宝网为有更高要求的卖家,量身定制的产品。选取最优质的宝贝展示位置,通过竞价排序,按照展现计费。

6. 淘宝客

CPS的其中一种,帮助淘宝卖家推广商品并按照成交效果获得佣金的人(可以是个人或者网站),淘宝客推广是一种按成交计费的推广模式,淘宝客只要从淘宝客推广专区获取商品代码,任何买家(包括您自己)经过您的推广(链接,个人网站,博客或者社区发的帖子)进入淘宝卖家店铺完成购买后,就可得到由卖家支付的佣金。

7. 消费者保障

淘宝消保,全程消费者保障服务。是指经用户申请,由淘宝在确认接受其申请后,针对其通过淘宝网这一电子商务平台同其他淘宝用户(下称“买家”)达成交易并经支付宝服务出售的商品,根据本协议及淘宝网其他公示规则的规定,用户按其选择参加的消费者保障服务项目(以下称“服务项目”),向买家提供相应的售后服务。除本协议另有规定外,使用者可根据其销售的商品种类及意愿选择参与特定的服务项目。淘宝可在淘宝网不时公示新增的服务项目或服务项目修改。

8. 爆款

爆款是指在服装销售中,供不应求,卖到断货的款式衣服。目前广泛应用于网店,实物店铺。爆款不仅指销量好的服装销售,同时还泛指商品销售好,人气高的商品。

9. 秒杀

网上竞拍的一种新方式。所谓“秒杀”,就是网络卖家发布一些超低价格的商品,所有买家在同一时间网上抢购的一种销售方式。由于商品价格低廉,往往一上架就被抢购一空,有时只用一秒钟。

10. 满就送

满就送(满就减,满就送礼,满就送积分,满就免邮费)基于旺铺,给卖家提供一个店铺营销平台,通过这个营销平台可以给卖家更多的流量。让卖家的店铺促销活动可以面向全网推广,将便宜,优惠的店铺促销活动推广到买家寻找店铺的购物路径当中,缩减买家购物途径的购物成本。

11. 搭配套餐

搭配套餐是将几种商品组合在一起设置成套餐来销售,通过促销套餐可以让买家一次性购买更多的商品。提升店铺销售业绩,提高店铺购买转化率,提升销售笔数,增加商品曝光力度,节约人力成本。此工具目前不支持虚拟类商品。

12. 掌柜助手

掌柜助手是一款针对中小卖家朋友在线管理商品的软件,是将库存和订单相结合管理的系统,为您提供精准的库存数据和订单状况。掌柜助手也在淘宝订单的基础上添加了更灵活的订单操作,节省卖家时间的发货单批量操作等功能。

13. 淘宝助理

淘宝助理是一款提供给淘宝卖家使用的免费、功能强大的客户端工具软件,它可以使您不登录淘宝网就能直接编辑宝贝信息,快捷批量上传宝贝。其强大的批处理功能将省去大量卖家上传和修改商品等信息的时间,大大提高开店效率。从而使卖家有更多的时间关注经营和其他工作。

14. 工商亮照

简单地说就是企业卖家将自己企业的营业执照信息公示在自己店铺中供消费者查看。

15. 会员关系管理工具

会员关系管理工具是帮助卖家管理自己会员的工具。通过会员关系管理工具卖家可以充分了解自己会员的信息;针对不同的会员帮助推荐更合理的营销方式;同时卖家还可以通过该工具加强自己店铺和会员之间的联系,提高会员忠诚度。

16. 限时打折

限时打折是淘宝提供给卖家的一种店铺促销工具,订购了此工具的卖家可以在自己店铺中选择一定数量的商品在一定时间内以低于市场价进行促销活动。活动期间,买家可以在商品搜索页面根据“限时打折”这个筛选条件找到所有正在打折中的商品。限时打折活动商品不支持购物车。该工具目前不支持虚拟类商品。

17. 店铺优惠券

店铺优惠券是虚拟电子现金券,卖家在开通营销套餐或会员关系管理后,额外给卖家开通的一个超强促销工具。店铺优惠券无需充值,虚拟电子现金券,卖家不必担心任何风险。

五.仓储管理方面术语

1. QC

QC即英文Quality Control的简称,中文意义是品质控制,又称质检,即对产品进行一个初步的检验,排除质量问题。

2. SKU

SKU即英文Stock Keeping Unit的简称,即库存进出计量的单位,可以是以件,盒,托盘等为单位。保存库存控制的最小可用单位。

3. 3PL

第三方物流(Third Party Logistics),电商行业意指快递公司。

4. PCS

计量单位的简写,即pieces一块、件、片、篇、张、条、套。多见于外贸交易中,后为书写方便,延伸到其他行业,可代表个、包、袋等表示数量的产品。

5. 商品编码

商品编码是指用一组阿拉伯数字标识商品的过程,这组数字称为代码。是商品进入仓库中的唯一数字身份证,从正规厂家采购的产品都会有一个全球通用、唯一的商品编码,也可以根据产品特征自己编制一套商品编码。

6. 商品条码

商品条码是由一组按一定规则排列的条、空及对应字符(阿拉伯数字)所组成的用于表示商店自动销售管理系统的信息标记或者对商品分类编码进行表示的标记。

7. 实际库存

实际库存是仓库中的实际库存量。

8. 虚拟库存

虚拟库存又叫前台库存,即网站前台展示的库存数量,是电子商务行业特定属性的产物,日常操作中,经常有消费者在下单后可能不会付款,商品不做实际出库操作,但是前台页面库存数已减少,为了不影响前台页面展现的库存量,因此需要设置一个虚拟库存。

9. 库存预警

库存预警是指设置一个库存警戒线,当仓库实际库存到达库存境界线的时候就会提醒你补货。库存警戒线设置可参照该商品平时销售情况考虑。

10. 库存盘点

库存盘点是指对仓库保管的商品进行数量和质量的检查,以清点库存物资的实际数量,做到账、物、卡三相符;查明超过保管期限、长期积压物资的实际品种、规格和数量,以便处理检查库存物资盈亏数量及原因通过盘点要求做到:库存物资数量清、规格清、质量清、账卡清、盈亏有原因,事故损坏有报告,调整有根据,确保库存物资的准确。

11. 商品入库

商品入库即把商品放入仓库储存的过程,一般分为采购入库、退货入库、调仓入库和异常入库等。

12. 商品出库

商品出库即仓库根据按其所列商品编号、名称、规格、型号、数量等项目,组织商品出库一系列工作的总称,一般分为销售出库,损坏出库和外借出库等。

13. 先进先出(FIFO)

先进先出即先入库的产品优先发货出库,采用先进先出的管理方式,可防止物料由于长时间堆积而发生变质。

14. 库存周转率

库存周转率,英文为Inventory turn over一般缩写为ITO一种衡量材料在工厂里或是整条价值流中,流动快慢的标准。最常见的计算库存周转的方法,就是把年度销售产品的成本(不计销售的开支以及管理成本)作为分子,除以年度平均库存价值。因此:库存周转率=年度销售产品成本/当年平均库存价值。

六.简单介绍

ERP(Enterprise Resource Planning):企业资源计划

EDP(Electronic Data Processing):电子数据处理系统

EOS(Electronic Ordering System):电子订货系统

FTP(File Transfer Protocol):文件传输协议

FedExpress联邦快递公司

G2G(Government to Government):政府及其职能部门之间的业务往来

G2C (Government to Consumer):政府机构对消费者的电子商务

HTTP(Hyper Text Transport Protocol):超文本传输协议

IP(Internet Protocol):互联网协议

ISP(Internet Service Provider):互联网服务提供商

ICP (Internet Content Provider): 互联网内容提供商

LAN(Local Area Network):局域网

MRP(Material Requirement Planning):材料需求计划

MAN (Metropolitan Area Network):城域网

WAN (Wide Area Network):广域网

OMC(Order Management Cycle):订货管理循环

ODBC(Open Database Connectivity):开放数据库互连

PDM (Product Development Management):产品的研发管理

QR(Quick Response):快速响应

SFA (Sales Force Automation):在线销售自动化

SCM(Supply Chain Management):供应链管理

TCP/IP (Transmission Control Protocol/Internet Protocol):传输控制协议/互联网协议

VAN (Value-Added Network):增值网

WWW (World Wide Web):万维网

Arjovsky M, Bottou L, Gulrajani I, et al. Invariant Risk Minimization[J]. arXiv: Machine Learning, 2019.

该文献为华为人工智能竞赛第一题的参考文献。

本文引入了不变风险最小化的方法(IRM),作为一种学习范例,用于估计多个分布之间的不变相关性。为了实现这一目标,IRM学习了一种数据的表达,使得在这种数据表达之上的最优分类器可以匹配所有的训练分布。通过理论和实验,我们展示了IRM学习到的不变性如何与控制数据的因果结构相关联,并实现了分布外的泛化。

我们考虑数据集 ,该数据集来自不同环境 。这些环境描述不同环境下测得的同一组随机变量。数据集 来自环境e,包含一些独立同分布的样本,分布为 。那么,我们的目标是使用这些多个数据集学习预测器 ,该模型可以很好的应用于相似环境 。也即,我们要最小化下式:

其中 是环境e中的风险值。这里 包含了所有可能的实验条件,包括观测的和假设的。考虑下面这个结构模型:

通过 预测 ,在环境e中,我们采用最小二乘预测 ,我们回归 ,得到 和 ;回归 ,得到 , ;得到 和 。使用 回归是我们的第一个不变相关性,也即该回归预测效果不依赖于环境e。相反,第二个和第三个回归的预测效果依赖环境的变化。这些变化的(虚假的)相关性不能很好的推广到测试环境中。但并不是所有的不变性都是我们所关心的,比如从空集特征到Y的回归是不变的,但却没有预测效果。

是唯一的在所有环境 中不变的预测规则。进一步,该预测也是跨环境的对目标变量取值的因果解释。换句话说,这对目标变量随输入的变化提供了一种准确的描述。这是令人信服的,因为不变性是一个可检验的量,我们可以通过它发现因果关系。我们将在第4节详细讨论不变性和因果性的关系。但是首先,如何学习得到不变性,因果的回归?我们先回顾现有技术的一些局限性:

第一,我们可以直接使用所有的训练数据进行学习,使用所有特征来最小化训练误差。这就是传统的Empirical Risk Minimization(ERM)方法。在这个例子中,如果训练环境具有很大的 ,那么ERM方法将赋予 一个很大的正系数,这就远离了不变性。

第二,我们可以最小化 ,一种鲁棒性的学习策略,其中 是一个环境基准。设置这些基准为0就表明最小化在不同环境中的最大误差。选择这些基准是为了防止对嘈杂的环境为主导的优化。例如,我们可以选择 ,来最小化不同环境间的最大解释方差。虽然很有价值,但这就等同于鲁棒性的学习会最小化环境训练错误加权平均值。即选择最优的 ,使得 最小化。但是对于混合训练环境具有很大的 ,会给 赋予较大参数,但是测试环境可能具有较小的 。

第三,我们可以采取一种自适应策略来估计在所有环境中具有相同分布的数据表达 。这对于上述例子是不可能的,因为 的分布在不同的环境中是不同的。这就说明了为什么技术匹配的特征分布优势会增加不变性的错误形式。

第四, 我们可以紧跟这种不变性因果预测技术。这些变量的子集用于回归每一个环境,在所有环境中都会产生相同的回归残差。匹配残差分布不适用于上述例子,因为Y的噪声随环境发生变化。

总之,对于这个简单的例子都很难找到不变的预测。为了解决这个问题,我们提出了IRM方法,这是一种学习范式,可以提取跨多个环境的非线性不变预测变量,从而实现OOD泛化。

用统计学的话讲,我们的目标就是学习不同训练环境中不变的相关性。对于预测问题,这就意味这需要找到一种数据表达,使得在该数据表达之上的最佳分类器在不同的环境中都相同。可按如下定义方式:

定义3:考虑一种数据表达 ,如果有一个分类函数 适用于所有环境,则可导出的跨环境 的不变预测器 ,也即对于任意的 ,都有 。

为什么上述定义等价于与目标变量的相关性稳定的学习特征?对于损失函数如均方误差和交叉熵,最优的分类器可以写为条件期望。一种数据表达 可以产生的跨环境不变预测当且仅当对于 的所有焦点h处,对于任意的 ,都有 。

我们认为不变性的概念与科学中常用的归纳法是相抵触的。实际上,一些科学发现都可以追溯到发现一些不同的但潜在的相关现象,一旦用正确的变量描述,它们似乎遵循相同精确的物理定律。严格遵守这些规则表明它们在更广泛的条件下仍有效,如果牛顿的苹果和星球遵循相同方程,那么引力就是一件事。

为了从经验数据中发现这些不变性,我们引入了IRM方法,不仅具有好的预测结果,还是跨环境 的不变预测器。从数学上,可转为为如下优化问题(IRM):

这是一个有挑战性的两级优化问题,我们将其转化为另一个版本(IRMv1):

其中 是整个不变预测器, 是一个标量和一个固定的虚拟分类器,梯度形式惩罚是用来衡量每个环境e中虚拟分类器的最优性, 是预测能力(ERM)和预测 不变性的平衡调节参数。

我们将(IRM)中的硬性约束转化为如下的惩罚性损失:

其中函数 表示了 使得 达到最小化的程度, 是平衡预测能力和不变性的超参数。在实际应用中,我们希望 关于 和 是可微的。

下面我们考虑 为线性分类器这一特殊情况。当给定数据表达 ,我们可以由 写出:

且我们希望这两个线性分类器的差异越小越好,即 。我们将该方法用到3.1中的实例中,令 , ,则c控制了这个数据表达多大程度上依赖 。我们做出不变性损失随c的变化图见图1,发现 在 处是不连续的,而当c趋于0而不等于0时,利用最小二乘法计算 的第二个量将趋于无穷,因此出现了图1中蓝线的情况。图1中黄线表明在最小二乘中添加强的正则化不能解决这一问题。

为了解决这些问题,我们将最小二乘求 中的矩阵求逆去除,并按如下方式计算不变性损失:

按照这种方式,得到图1绿线所示的情况。可见 是平滑的(它是 和 的多项式函数)。并且,当且仅当 时, 。

我们通过 最小化选择出的 是不唯一的,实际上对于可逆映射 ,我们可以重写不变预测器为:

这意味着我们可以任意选择非零 作为不变预测器。因此,我们可以将搜索限制在给定 的所有环境最优分类的数据表达上。即:

当 时,对于线性 ,上式的解 将趋于(IRM)的解 。

前文我们提出 是一个有效的分类器选择,这种情况下只有一部分的数据起作用。我们通过给出线性不变预测器的完整特征来说明这个悖论。下面的理论中的矩阵 ,为数据特征函数,向量 为最优分类器, 为预测向量 。

定理4:对于所有 ,令 为损失函数。一个向量 可以写为 ,其中 对于所有环境e,使得 同时达到最小,当且仅当对于所有环境e, 。所以,任何线性不变预测器可以被分解为不同秩的线性表达。特别的,我们研究 的情况,则有:

后文将证明,不管我们是否限制IRM搜索秩为1的 ,这种形式的分解将会引入高秩的数据表达矩阵,且是分布外泛化的关键。

3.2.4通过加入不变性损失和均方误差得到最终的IRMv1模型,可以写出一般的风险方程 ,其中 是一种可能的非线性数据表达。这种表达在任何损失下都最优匹配于常值分类器 。如果 返回的目标空间 具有多个输出,我们将它们全部乘以标量分类器 。

当使用小批量梯度下降估计目标(IRMv1)时,可以得到平方估计范数的无偏估计:

其中 和 是环境e中的两个大小为b的随机小批量样本, 为损失函数,PyTorch例子见附件D。

假设不变最优分类器w是线性的有多严格?一种说法是只要给予足够灵活的数据表达 ,就可以将不变预测器写为 。然而,强制执行线性不变性可能使得非不变预测惩罚 等于0。例如,空数据表达 允许任何w为最优值。但是,当 时,这样产生的预测器 不是不变的。ERM项会丢弃这种无效的预测器。通常,最小化ERM项 将驱动 以至于将 在所有预测器中达到最优,尽管 是线性的。

针对这个研究,我们也为未来的的研究提出了几个问题。是否存在不会被ERM和IRM丢弃的非不变预测器?如果将w放宽到可从非线性中选取将有什么好处?我们如何构造非线性不变量不变性的惩罚函数 ?

新提出的IRM方法使得在训练环境 中具有更低的误差和不变特性。什么时候这些条件可以将不变性推广到所有环境中呢?更重要的时,什么时候这些条件可以使得在全部环境 中具有更低的误差,并导致分布外的泛化呢?并且在一个更基础的水平,统计不变性和分布外的泛化如何与因果理论中的概念相关?

到目前为止,我们已经忽略了如何将不同环境应该与分布外的泛化相联系。这个问题的答案要追溯到因果理论。我们假设来自所有环境中的数据共享相同的基础结构方程模型。

定义5:控制生成向量 的结构方程模型 是一组结构方程: 其中 被称为 的双亲, 是独立于噪声的随机变量。如果 ,可记为“ causes ”。我们可以据此来绘制因果图,每个 看作节点,如果 ,则就有从 到 的一条边。我们假设该图是无环的。

根据因果图的拓扑顺序,运行结构方程,我们可以从观测分布 的得到一些样本。同样,我们还可以以不同的方式操纵(干预)一个唯一的SEM,以e为指标,来得到不同但相关的。

定义6:考虑一个。用干预e作用到 上(包括替换一个或几个方程)以得到干预,结构方程为: ,若 或者 ,则变量 是一种干预。

类似的,通过运行干预的结构方程,我们可以从干预分布 中得到一些样本。例如我们可以考虑在例1中干预 ,控制它为趋于0的常数,因此将 的结构方程替换为 。每个干预e都产生了一个干预分布为 的新环境e。有效的干预e不会损坏太多的目标变量Y的信息,从而形成了大环境 。

先前的工作考虑的是有效的干预不会改变Y的结构方程,因为对方程的任意干预都不可能预测。在这个工作中,我们也允许改变Y的噪声,因为在真实问题中会出现变化的噪声水平,这些并不会影响最优的预测规则。我们将其形式化如下:

定义7:考虑一个控制随机向量 ,以及基于X预测Y的学习目标。那么,所有的环境集合 由干预产生的所有干预分布 得到。只要(i)因果图是无环的,(ii) ,(iii) 保持有限方差,则该干预 是有效的。

如果在定义 中考虑环境特定的基线,条件(iii)可以去除,与哪些出现在鲁棒性学习目标 相似。我们留下一些分布外泛化的其它量化作为以后的工作。

先前定义了因果性和不变性之间建立的基础联系。另外,可以证明一个预测 是跨环境 的不变预测,当且仅当它能达到最佳的 ,当且仅当它只使用Y的直接因果双亲来预测,也即, 。本节的其它部分将根据这些思想去展示如何利用跨环境的不变性实现所有环境中的分布外的泛化。

IRM的目的就是建立一种可以产生out-of-distribution的预测,也即,实现在整个环境 中具有更低的误差。为此,IRM致力于在环境 中同时减少误差以及保证不变性。这两者之间的桥梁由如下两步实现:第一步,可以证明 环境中更低的误差和不变性将导致 中更低的误差。这是因为,一旦估算出在环境 中数据表达 产生的不变预测 , 的误差将控制在标准误差界中。第二步,我们测试其余条件使得在环境 中具有更低的误差,即在什么条件下,训练环境 中的不变性意味着所有环境 中的不变性?

对于线性IRM,我们回答这个问题的起点是不变因果预测理论(ICP)。这里,作者(书40)证明了只要数据(i)是高斯分布的,(ii)满足线性的SEM,(iii)从特定类型的干预中得到,那么ICP重获目标的不变性。定理9表明即使上述三个假设都不成立,IRM也能学到这种不变性。特别的,我们容许非高斯数据,将观测结果作为稳定和虚假相关性的变量的线性变换来处理。

定理的设定如下。 有一个不变相关性变量 ,它是一个未观察的潜在变量,具有线性关系为 , 独立于 。我们能观测到的是 ,它是 和另一个与 和 任意相关的变量 的干扰组合。简单的使用 回归将不计后果的利用了 (因为它给出了关于 和 额外的虚假的信息)。为了实现分布外的泛化,数据表达必须丢弃 且保留 。

在展示定理9之前,我们需要先做一些假设。为了学习有用的不变性,必须要求训练环境具有一定程度的多样性。一方面,从大数据集中随机抽取两个子集样本并不会导致环境的多样性,因为这两个子集服从相同的分布。另一方面,以任意变量为条件将大数据集分割可以产生多样性的环境,但是可能会引入虚假相关性且破坏我们需要的不变性。因此,我们需要包含足够多样性且满足基本不变性的训练环境。我们将这种多样性需求形式化为需要环境在linear general position。

假设8:训练环境 在linear general position的程度为r, , ,且对于所有的非零 :

直观上,这种linear general position的假设限制了训练环境共线性的程度。每个处在linear general position的新环境都将其不变解空间减少一个自由度。幸运的是,理论10表明不满足一个linear general position的叉积 集合为0。使用这种linear general position的假设,我们通过IRM学习的不变性可以从训练环境转化到全部环境。

下面这个定理表明,如果在 中找到一个秩为r的数据表达 导出的不变预测 ,且 在linear general position的程度为r,那么 将是整个环境


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/154213.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-03-22
下一篇2023-03-22

发表评论

登录后才能评论

评论列表(0条)

    保存