------------ 必修 ------------

-------- 必修深入講解 -------------

機器學習2021】Transformer (上)

機器學習2021】Transformer (下)

究竟神經網路是什麼？ l 第一章深度學習(開中文字幕)

梯度下降，神經網絡如何學習 l 第二章深度學習(開中文字幕)

什麼是反向傳播演算法？| 深度學習，第3章(開中文字幕)

Backpropagation calculus | Chapter 4, Deep learning(開中文字幕)

But what is a GPT? Visual intro to transformers | Chapter 5, Deep Learning

Attention in transformers, visually explained | Chapter 6, Deep Learning

-------Lee -----

ML Lecture 14: Unsupervised Learning - Word Embedding

什么是词嵌入，Word Embedding算法

機器學習2021】自注意力機制 (Self-attention) (上)

機器學習2021】自注意力機制 (Self-attention) (下)

機器學習2021】Transformer (上)

機器學習2021】Transformer (下)

Transformer

[DLHLP 2020] BERT and its family - ELMo, BERT, GPT, XLNet, MASS, BART, UniLM, ELECTRA, and more

[DLHLP 2020] 來自獵人暗黑大陸的模型 GPT-3

[DLHLP 2020] Multilingual BERT

[DLHLP 2020] Audio BERT (1/2) (由助教劉廷緯同學講授)

[DLHLP 2020] Audio BERT (2/2)

2020 李宏毅 [DLHLP 2020]

【機器學習2021】自督導式學習 (Self-supervised Learning) (一) – 芝麻街與進擊的巨人

【機器學習2021】自督導式學習 (Self-supervised Learning) (二) – BERT簡介

【機器學習2021】自督導式學習 (Self-supervised Learning) (三) – BERT的奇聞軼事

【機器學習2021】自督導式學習 (Self-supervised Learning) (四) – GPT的野望

【機器學習2021】自督導式學習 (Self-supervised Learning) (一) – 芝麻街與進擊的巨人

【機器學習 2022】各式各樣神奇的自注意力機制 (Self-attention) 變型

【機器學習 2022】如何有效的使用自督導式模型 - Data-Efficient & Parameter-Efficient Tuning

【機器學習 2022】語音與影像上的神奇自督導式學習 (Self-supervised Learning) 模型

【機器學習2022】自然語言處理上的對抗式攻擊 (由姜成翰助教講授) - Part 1

【機器學習2022】自然語言處理上的對抗式攻擊 (由姜成翰助教講授) - Part 2

【機器學習2022】自然語言處理上的對抗式攻擊 (由姜成翰助教講授) - Part 3

【機器學習 2022】惡搞自督導式學習模型 BERT 的三個故事

【機器學習 2022】各種奇葩的元學習 (Meta Learning) 用法

----------- David Shen --------------

GPT背后的力量，Transformer模型入门简介

--------------------- 小嘿嘿 --------------------

Transformer模型详解，Attention is all you need

------- 莫凡 ---------

计算机怎么理解人类语言？什么是自然语言处理 NLP 技术？

言模型 #5.4 (莫烦Python NLP 自然语言处理教学)

BERT 看透你说的话语言模型 #6.4 【莫烦Python NLP 自然语言处理教学】

GPT 预训练生成语言模型 #6.3【莫烦Python NLP 自然语言处理教学】

-------------------- 漫士沉思錄 ---------------------------

GPT是如何運作的？為什麼要學習接下一個字

-------------- VcubingX + Art of The Problem -----------

ChatGPT: 30 Year History | How AI Learned to Talk

What does it mean for computers to understand language? | LM1

Why Recurrent Neural Networks are cursed | LM2

How did the Attention Mechanism start an AI frenzy? | LM3

------ 簡介 -----------

大咖來科普] 什麼是"Transformer AI"? - 耐能智慧 Kneron CEO&創辦人劉峻誠

01 大咖來科普] 什麼是"多模態基礎模型"? - 鴻海研究院人工智慧研究所栗永徽所長

03 大規模視覺基礎模型之機會與挑戰

大咖來科普多模態基礎模型序列講座

------------ AI 甘安 -------------------

看完秒懂！用日常例子十分鐘搞懂 Transformer 的厲害之處

---------Lucidate ---------

Discover Neural Networks in 60 Seconds: The Powerhouse Behind AI Breakthroughs!

Neural Networks Explained in 60 Seconds: The Quick & Easy Guide!

Word Embeddings in 60 Seconds for NLP AI & ChatGPT

Chatgpt Transformer Positional Embeddings in 60 seconds

Transformers in 60 Seconds

Chat GPT in 60 seconds

Chatgpt & GPT 3 Transformers in 60 Seconds

Chatgpt Transformer Attention in 60 Seconds

Attention is all you need explained

How chatgpt works

ChatGPT - Semantics: Transformers & NLP 2

ChatGPT Position and Positional embeddings: Transformers & NLP 3

--------- The AI Hacker ------

Illustrated Guide to Transformers Neural Network: A step by step explanation

Illustrated Guide to LSTM's and GRU's: A step by step explanation

Illustrated Guide to Recurrent Neural Networks: Understanding the Intuition

------ Google Cloude Tech. -------

Attention mechanism: Overview

------- IBM Tech. ------------

Neural Networks Explained in 5 minutes

What are Convolutional Neural Networks (CNNs)?

Five Steps to Create a New AI Model

人工智能】Transformer论文《Attention Is All You Need》发表六周年回顾 | 八名作者如今都在干什么 | 多人创立独角兽公司

------- 林粒粒 -------

人人都能懂的AI大模型科普课 | 预告片

啥是“AIGC”？带你分清一堆AI技术词 | AI大模型科普1

啥是大语言模型（LLM）？| AI大模型科普2

ChatGPT原理揭密！背后的黑科技Transformer | Demystify Transformer Behind ChatGPT 3

如何3步炼成一个ChatGPT？ 4

调教AI的秘密！提示工程：小样本提示、思维链、分步骤思考 5

AI数据过时、编造事实、计算不准，怎么办？详解RAG、ReAct、PAL 6

保姆级教程，教你私人定制GPTs

-------

GPT原理讲解。什么是Transformer模型？Attention！

-------- Algorithmic Simplicity ------

Transformer Neural Networks Derived from Scratch

Why Does Diffusion Work Better than Auto-Regression?

MAMBA from Scratch: Neural Nets Better and Faster than Transformers

Why do Convolutional Neural Networks work so well?

But what is a neural network REALLY?

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

----- 概念簡介水論文程序員（Transformer技術介紹）----

Transformer和BERT看不懂来这里，告诉你他们的前世今生，必能懂

--------- 代碼實作 ---------

01 通过 Pytorch 构建 Transformer 框架课程介绍（拿什么打倒你的面试对手呢？坚决不做调包侠）

0201 为什么 Pytorch 定义模型要有一个 init 和一个 forward，两者怎么区分

03 Transformer 中的多头注意力（Multi-Head Attention）Pytorch代码实现

04 Transformer 中的位置编码的 Pytorch 实现（徒手造 Positional Encoding）

05 Transformer 中的前馈神经网络（FFN）的实现

06 Transformer 中的Linear+Softmax 的实现

07 Transformer 中的掩码多头注意力机制（Masked Multi-head Attention）的实现

08 Transformer 中的编码器（Encoder）的Pytorch实现

09 自然而然就能听懂的Transformer 中[双向]解码器（Decoder）的Pytorch实现

10 Transformer 框架搭建之 init 在干吗？（万事具备，开始调包）

11 （完结）Transformer 中 Transformer框架的 forward 的构建，期待 GPT 和 BERT

------ 原理解說

水論文程序員 --------

01 GPT 和 BERT 开课了（两者和 Transformer 的区别）

02 没人用的 GPT 原来这么容易理解

03 BERT，集大成者，公认的里程碑

04 统计语言模型（n元语言模型）

05 神经网络语言模型（独热编码+词向量 Word Embedding 的起源）

06 Word2Vec模型（第一个专门做词向量的模型，CBOW和Skip-gram）

07 预训练语言模型的下游任务改造简介（如何使用词向量）

08 ELMo模型（双向LSTM模型解决词向量多义问题）

09 Transformer 之什么是注意力机制（Attention）

10 Transformer 框架搭建之 init 在干吗？（万事具备，开始调包）

1001 Attention 和 Self-Attention 的区别（还不能区分我就真的无能为力了）

11 Self-Attention 相比较 RNN 和 LSTM 的优缺点

12 Transformer的掩码自注意力机制，Masked Self-Attention（掩码自注意力机制）

13 Transformer的多头注意力，Multi-Head Self-Attention（从空间角度解释为什么做多头）

14 Transformer之位置编码Positional Encoding （为什么 Self-Attention 需要位置编码）

1401 位置编码公式详细理解补充

15 Transformer 框架概述

16 Transformer的编码器（Encodes）——我在做更优秀的词向量

17 Transformer 的解码器（Decoders）——我要生成一个又一个单词

18 Transformer 的动态流程

19 Transformer 解码器的两个为什么（为什么做掩码、为什么用编码器-解码器注意力）

20 Transformer 的输出和输入是什么

------ 王木頭學科學 -------

从编解码和词嵌入开始，理解Transformer，注意力机制(Attention)的本质是卷积神经网络

“神经网络”是什么？如何直观理解它的能力极限？它是如何无限逼近真理的？

学习分享一年，对神经网络的理解全都在这40分钟里了

从“卷积”、到“图像卷积操作”、再到“卷积神经网络”，“卷积”意义的3次改变

卷积神经网络的底层是傅里叶变换，傅里叶变换的底层是希尔伯特空间坐标变换

什么是“感知机”，它的缺陷为什么让“神经网络”陷入低潮

“损失函数”是如何设计出来的？直观理解“最小二乘法”和“极大似然估计法”

直观解释：为什么噪声不是过拟合的原因?又什么只要没有过拟合就一定有噪声?

5. 深度学习和元胞自动机有什么关系？会给编程带来什么样的颠覆性改变？

从编解码和词嵌入开始，理解Transformer，注意力机制(Attention)的本质是卷积神经网络

“神经网络”是什么？如何直观理解它的能力极限？它是如何无限逼近真理的？

学习分享一年，对神经网络的理解全都在这40分钟里了

------ CodeEmporium ＋ Hedu AI by Batool Haider ----------

Visual Guide to Transformer Neural Networks - (Episode 1) Position Embeddings（3集）

Hedu AI by Batool Haider（AI 基礎解說）

Self Attention in Transformer Neural Networks (with Code!)(12集)

Transformers - Part 1 - Self-attention: an introduction(9集)

Which transformer architecture is best? Encoder-only vs Encoder-decoder vs Decoder-only models

網頁

Transformer

------------ 必修 ------------

ChatGPT原理揭密！背后的黑科技Transformer Demystify Transformer Behind ChatGPT 3

如何3步炼成一个ChatGPT？ 4

究竟神經網路是什麼？ l 第一章 深度學習(開中文字幕)

【機器學習2021】自督導式學習 (Self-supervised Learning) (四) – GPT的野望

--------------------- 小嘿嘿 --------------------

ChatGPT原理揭密！背后的黑科技Transformer | Demystify Transformer Behind ChatGPT 3

如何3步炼成一个ChatGPT？ 4

调教AI的秘密！提示工程：小样本提示、思维链、分步骤思考 5

Visual Guide to Transformer Neural Networks - (Episode 1) Position Embeddings（3集）

Transformers - Part 1 - Self-attention: an introduction(9集)

究竟神經網路是什麼？ l 第一章深度學習(開中文字幕)