深度学习六十年绪论
来源:节能 2025年02月27日 12:19
大众可以在这那时候认出这些指令集和其他近代指令集的归纳和意味着:
ModernConvNets 库
ImageNet 表演赛。截图来自课程《 CS231n》
6
2014 年 : 深达生已成网路
生已成网路运用于从特训数据资料中都生已成或合已成新近数据资料采样,例如三维和摇滚乐。
生已成网路有很多种各种类型,但最风靡一时的是由 Ian Goodfellow 在 2014 年成立的生已成威慑网路 (GAN)。GAN 由两个主要元件组已成:生已成真采样的生已成支架,以及的区分现实采样和生已成支架生已成采样的推论支架。生已成支架和鉴别支架可以却说是互相竞争的彼此间。他们都是统一特训的,在特训全过程中都,他们玩的是零和游戏。生已成支架不断生已成欺骗推论支架的真采样,而推论支架则期望辨认出那些真采样(参考现实采样)。在每次特训迭代中都,生已成支架在生已成近似于现实的真采样之外做到得较好,推论支架不能提高标准来的区分不现实的采样和现实采样。
GAN 长期是深达研习社的区内中都最热四门的科学研究之一,该社的区内以生已成冒充的三维和 Deepfake 录像而闻名。如果大众对 GAN 的最新近进展感兴趣,可以写出 StyleGAN2、DualStyleGAN、ArcaneGAN 和 AnimeGANv2 的简介。如需 GAN 资源的完整列表: 。示意图却揭示 GAN 的三维指令集。
生已成威慑网路(GAN)
GAN 是生已成三维的一种。其他风靡一时的生已成三维各种类型还有 Variation Autoencoder (变分自序列支架,VAE)、AutoEncoder (自序列支架)和外扩散三维等。
7
2017 年:Transformers 和重心程序
等待时间遇见 2017 年。ImageNet 表演赛结束了。新近正弦网路指令集也被制作出来。量化机一个中心技术听觉社的区内的每个人都对局限性的进展深感高兴。一个中心量化机一个中心技术听觉目标(三维分类学、最终目标样品、三维分割)不再像基本上那样十分复杂。人们可以使用 GAN 生已成精巧的三维。
NLP 其实占优了。但是随后浮现了一些好事,并且在整个网路上都已已是了头条新近闻:一种完全基于重心程序的新近神经网路指令集横空出世。并且 NLP 最后受到灵感,在随后的几年,重心程序继续催生其他同方向(最显著的是听觉)。该指令集被指做 Transformer 。
在此之后的 5 年,也就是现在,我们在这那时候谈论一下这个最小的创新近已成果。Transformer 是一类;也粹基于重心程序的神经网路迭代。Transformer 不使用可逆网路或正弦。它由多头重心、残差连接起来、层一维、全连接起来层和位置序列组已成,运用于移去数据资料中都的碱基顺序。示意图却揭示 Transformer 指令集。
截图来自于《Attention Is All You Need》
大众可以在其学术性著作 《Attention is All You Need》 中都理解有关 Transformer 的愈来愈多数据。
8
2018 年至今
自 2017 年以来,深达研习迭代、运用和一个中心技术突飞猛进。为了明确起见,刚刚的简述是按大类划分。在每个大类中都,我们都会重新近阐释主要趋势和一些不可忽视的跃升。
Vision Transformers
Transformer 在 NLP 中都展示出出优异的性能后刚刚,一些勇于创新近人就往常地将重心程序用到了三维运用。在学术性著作《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》中都,谷歌的几位科学研究部四门确实,对直接在三维块碱基上直通的正常 Transformer 完成轻微修改,就可以在三维分类学数据资料集上归因于多之外的结果。他们将这种指令集指做 Vision Transformer (ViT),它在大多数量化机一个中心技术听觉可视测试中都都有很好展示出(在笔记编著本甫时,ViT 是 Cifar-10 上率技术的分类学三维)。
另一个例子见于学术性著作《Visual Transformers: Token-based Image Representation and Processing for Computer Vision,这篇学术性著作在基于滤波支架的 token 或听觉 token 上直通 Transformer。
这两篇学术性著作和许多其他未在此处列出的学术性著作跃升了一些孔径指令集(主要是 ResNet)的传统意义,但起初并并未超越局限性的可视。ViT 确实是最赞美的学术性著作之一。这篇学术性著作不可忽视的见解之一是 ViT 新近设计师基本上使用三维 patch 作为输出声指。他们对 Transformer 指令集并未太大的相反。
Vision Transformer(ViT)
除了使用三维 patch 以外,使 Vision Transformer 已已是有力指令集的构造是 Transformer 的短时间内并行性及其缩放行径。但就像社会生活中都的一切一样,并未什么是单;也的。一开始,ViT 在听觉北岸目标(最终目标样品和分割)上展示出不佳。
在加进 Swin Transformers 之后,Vision Transformer 开始被用作最终目标样品和三维分割等听觉北岸目标的骨干网路。Swin Transformer 短时间内性能的一个中心令人惊叹是由于在连续的自重心层之间使用了翻转可视。示意图描述了 Swin Transformer 和 Vision Transformer (ViT) 在紧密结合分层特质图之外的的区别。
截图来自 Swin Transformer 原甫
Vision Transformer 长期是近年来最令人兴奋的科学研究运用之一。大众可以在学术性著作《Transformers in Vision: A Survey》中都理解愈来愈多数据。其他最新近听觉 Transformer 还有 CrossViT、ConViT 和 SepViT 等。
听觉和语种三维
听觉和语种三维一般而言被指做多可定义。它们是涉及听觉和语种的三维,例如脚注到三维生已成(真定脚注,生已成与脚注描述匹配的三维)、三维中都甫字幕(真定三维,生已成其描述)和听觉问答(真定一个三维和关于三维中都概要的解决办法,生已成答案)。相当大程度上,Transformer 在听觉和语种运用的已成功促已成了多三维作为一个也就是说的统一网路。
基本上,所有听觉和语种目标都并用了可不特训一个中心技术。在量化机一个中心技术听觉中都,可不特训需要对在大型数据资料集(一般而言是 ImageNet)上特训的网路完成阶段性,而在 NLP 中都,往往是对可不特训的 BERT 完成阶段性。要理解有关 V-L 目标中都可不特训的愈来愈多数据,请求写出学术性著作《A Survey of Vision-Language Pre-Trained Models》。有关听觉和语种目标、数据资料集的一般概述,请求核对学术性著作《Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods》。
前段等待时间,OpenAI 发布新近闻了 DALL·E 2(基础上后的 DALL·E),这是一种可以根据脚注生已成精巧三维的听觉语种三维。现阶段的脚注转三维三维有很多,但 DALL·E 2 的灵敏度、三维原甫匹配度和现实感都相当出彩。
DALL·E 2 即已对公众开放,以下是 DALL·E 2 成立的一些三维示例。
前面呈现的 DALL·E 2 生已成的三维取自一些 OpenAI 工作人员,例如 @sama、@ilyasut、@model_mechanic 和 openaidalle。
大规模语种三维 (LLM)
开玩笑地却说,发明 Transformers 的人不能为语种三维在朝着大规模匹配化同方向继续前进而受到严厉批评(但基本上并未人确实受到发怒,Transformers 是只不过十年中都最赞美的发明之一,大三维令人震惊的地方在于:如果真定所需的数据资料和量化,它轻而易举较好地工作)。在只不过的 5 年中都,语种三维的个数长期在不断增短。
在加进学术性著作《Attention is all you need》一年后,大规模语种三维开始浮现。2018 年,OpenAI 发布新近闻了 GPT(Generative Pre-trained Transformer),这是起初最小的语种三维之一。一年后,OpenAI 发布新近闻了 GPT-2,一个以外 15 亿个匹配的三维。又一年后,他们发布新近闻了 GPT-3,它有 1750 亿个匹配,用了 570GB 的 脚注来特训。这个三维有 175B 的匹配,三维有 700GB。根据 lambdalabs 的却说法,如果使用在市场上价格比最低的 GPU 云特训GPT-3,需要 366 年,耗费 460 万美元!
GPT-n 系列标准型仅有仅有是个开始。还有其他愈来愈大的三维近似于甚至比 GPT-3 愈来愈大。如:NVIDIA Megatron-LM 有 8.3B 匹配;最新近 DeepMind Gopher 有 280B 匹配。2022 年 4 同年 12 日,DeepMind 发布新近闻了另一个叫做 Chinchilla 的 70B 语种三维,尽管比 Gopher、GPT-3 和 Megatron-Turing NLG(530B 匹配)小,但它的性能比起许多语种三维。Chinchilla 的学术性著作确实,现阶段的语种三维是特训欠缺的,具体来却说,它确实通过将三维的个数加倍,数据资料也确实加倍。但是,大部分在同一周内又浮现了很强 5400 亿个匹配的 Google Pathways 语种三维(PaLM)!
Chinchilla 语种三维
可不定义生已成三维
可不定义生已成是一项涉及除此以外真定可不定义或根据自然语种或脚注生已成可不定义的目标,或者比较简单地却说,它是可以撰写量化机一个中心技术流程的量化机子系统。可以猜到,近代可不定义生已成支架是基于 Transformer 的。
可以确定地却说,人们现在开始重新近考虑让量化机一个中心技术撰写自己的流程了(就像我们梦一切都是教量化机一个中心技术做到的所有其他好事一样),不过可不定义生已成支架是在 OpenAI 发布新近闻 Codex 后受到关注。
Codex 是在 GitHub 公共货仓和其他公共源可不定义上阶段性的 GPT-3。OpenAI 声指:“OpenAI Codex 是一种通用流程设计三维,这意味着它基本上可以使用任何流程设计目标(尽管结果不必要会有所不同)。我们现在已成功地将它运用于流程可不定义、解释可不定义和角度看可不定义。但我们并不知道,我们只触及了可以做到的好事的皮毛。” 目前,由 Codex 支持的 GitHub Copilot 扮演着结对脚本语言的角色。
在我使用 Copilot 后,我对它的功能深感愈来愈加不快。作为不撰写 Ja 流程的人,我用它来准备好我的移动软件包(使用 Ja)入学。量化机帮助我准备好学术性入学真是太酷了!
在 OpenAI 发布新近闻 Codex 几个同年后,DeepMind 发布新近闻了 AlphaCode,这是一种基于 Transformer 的语种三维,可以解决解决办法流程设计竞赛解决办法。AlphaCode 发布新近闻的博甫指:“AlphaCode 通过解决解决办法需要为基础批判性有意识、逻辑、迭代、序列和自然语种理解的新近解决办法,在流程设计竞赛的举例来说中都估计综合排名前 54%。” 解决解决办法流程设计解决办法(或一般的互补性流程设计)愈来愈加困难(每个做到过一个中心技术报名的人都同意这一点),正如 Dzmitry 所却说,击败 “人类水平即便如此原订”。
前刚刚,来自 Meta AI 的生物学家发布新近闻了 InCoder,这是一种可以生已成和主编流程的生已成三维。愈来愈多关于可不定义生已成的学术性著作和三维可以在这那时候认出:
最后返回感知机
在 2021 年 7 同年,科学研究部四门出版了两篇基于感知机的学术性著作。一个是 MLP-Mixer: An all-MLP Architecture for Vision,另一个是 Pay Attention to MLPs(gMLP).
MLP-Mixer 声指正弦和重心都不是要能的。这篇学术性著作仅有使用多层感知机 (MLP),就在三维分类学数据资料集上赢取了高的精准性。MLP-Mixer 的一个极为重要令人惊叹是,它包括两个主要的 MLP 层:一个统一使用三维块(走廊混杂),另一个是层跨块运用(空间混杂)。
大众显然一定会使用 MLP 去获得率技术的性能,但它们与率技术的深达网路的相较较却是令人着迷的。
最后使用正弦网路:2020 年代的正弦网路
自 Vision Transformer(2020 年)发布以来,量化机一个中心技术听觉的科学研究描绘出着 Transformer 展开(在 NLP 运用,Transformer 现在是一种规范)。Vision Transformer (ViT) 在三维分类学之外赢取了率技术的结果,但在听觉北岸目标(都可样品和分割)中都敏感度不佳。随着 Swin Transformers 的发布,使得Vision Transformer 很快也接管了听觉北岸目标。
很多人(除此以外我自己)都喜欢正弦神经网路。正弦神经网路确实能很慢,而且放弃现在被表明有效的东西是较难的。这种对深达网路三维构造的热诚让一些杰出的生物学家返回只不过,科学研究如何使正弦神经网路(精准地却说是 ResNet)近代化,使其很强和 Vision Transformer 同样的吸引人的特质。特别是,他们探讨了「Transformers 中都的新近设计决策者如何影响正弦神经网路的性能?」这个解决办法。他们一切都是把那些塑造成了 Transformer 的秘诀运用到 ResNet 上。
Meta AI 的 Saining Xie 和他的同事们换用了他们在学术性著作中都明确陈述的路线图,最终形已成了一个叫做 ConvNeXt 的 ConvNet 指令集。ConvNeXt 在不同的可视测试中都赢取了可与 Swin Transformer 相媲美的结果。大众可以通过 ModernConvNets 库(近代 CNN 指令集的归纳和意味着)理解愈来愈多关于他们换用的路线图。
9
结论
深达研习是一个愈来愈加有活力、愈来愈加较宽的运用,较难概括其中都所发生的一切。笔记只触及了内层,学术性著作多到一个人读不完,较难伪装所有概要。例如,我们并未讨论强化研习和深达研习迭代,如 AlphaGo、蛋白质折叠 AlphaFold(这是最小的科学跃升之一)、深达研习框架的演变(如 TensorFlow 和 PyTorch),以及深达研习硬体。或许,还有其他极为重要的好事构已成了我们并未讨论过的深达研习发展史、迭代和软件包的相当大一部分。
作为一个小小的免责声明,大众不必要现在注意到,笔记偏向于量化机一个中心技术听觉的深达研习,对其他专四门为 NLP 新近设计的极为重要深达研习一个中心技术笔记不必要并并未涉及。
此外,较难确切地并不知道某项特定一个中心技术是什么时候出版的,或者是谁率先出版的,因为大多数奇特的东西往往受到近人杰作的灵感。如有纰漏,大众可以去原甫甫章的区与笔记讨论。
( 原甫关键字:
—知识产权声明—
来源:工具之心,主编:nhyilin
仅有运用于学术性分享,知识产权仅有指原笔记。
若有原告,请求联系百度号:Eternalhui或nhyilin删除或修改!
—THE END—
☞ 兰州大学最新近真设:新近冠大风靡一时将于2023年底结束
☞ 我在MIT量化机科学研究实验室工作一年学到的 5 件事
☞ 2022,Clark们,又开始晒工资了
☞ 全国高校大学的戏精,都在学术性著作致谢那时候了
☞ 我这么期望读个Clark,不行只是为了进个高校拿5000每同年的惨死工资?四个现实案例!
☞ 降维打击!复旦「韦神」一夜横扫吓退6名Clark4个同年的难题
。打一针干细胞多少钱孩子不吃饭瘦小怎么办
眼睛疼眼药水好
湿气重脾胃功能弱怎么办
儿童装江中牌健胃消食片
胃酸胃烧心吃什么药
什么牌子的血糖仪好
康恩贝肠炎宁颗粒止泻效果怎么样
康恩贝肠炎宁颗粒的功效和禁忌
什么血糖仪准确度高
-
“全民健身日”张掖打球邀请赛对决
“民间团体跑步日”武都美式足球邀请赛对决 2022年8月8日是我国第14个“民间团体跑步日”。为庆祝“民间团体跑步日”到来,丰富广大民众群众的体育界文化生活,在8月7日立秋之际,