Transformer

 啥是大语言模型(LLM)? AI大模型科普2

   ChatGPT原理揭密!背后的黑科技Transformer  Demystify Transformer Behind ChatGPT 3

   如何3步炼成一个ChatGPT? 4

 六周年回顾 | 八名作者多人创立独角兽公司


-------- 必修深入講解 -------------

   機器學習2021】Transformer (上)

    究竟神經網路是什麼? l 第一章 深度學習(開中文字幕)

    梯度下降,神經網絡如何學習 l 第二章 深度學習(開中文字幕)

    什麼是反向傳播演算法?| 深度學習,第3章(開中文字幕)

    Backpropagation calculus | Chapter 4, Deep learning(開中文字幕)

 

-------Lee -----

什么是词嵌入,Word Embedding算法


)

【機器學習2021】自督導式學習 (Self-supervised Learning) (三) – BERT的奇聞軼事

【機器學習2021】自督導式學習 (Self-supervised Learning) (四) – GPT的野望

【機器學習2021】自督導式學習 (Self-supervised Learning) (一) – 芝麻街與進擊的巨人






---------------------   小嘿嘿    --------------------


------- 莫凡 ---------


BERT 看透你说的话 语言模型 #6.4 【莫烦Python NLP 自然语言处理教学】

GPT 预训练生成语言模型 #6.3【莫烦Python NLP 自然语言处理教学】


-------------------- 漫士沉思錄   ---------------------------

-------------- VcubingX + Art of The Problem -----------

Why Recurrent Neural Networks are cursed | LM2

How did the Attention Mechanism start an AI frenzy? | LM3




------  簡介 -----------



------------  AI 甘安   -------------------


---------Lucidate    ---------


Chatgpt Transformer Positional Embeddings in 60 seconds

Chatgpt & GPT 3 Transformers in 60 Seconds

Chatgpt Transformer Attention in 60 Seconds

How chatgpt works

ChatGPT - Semantics: Transformers & NLP 2

ChatGPT Position and Positional embeddings: Transformers & NLP 3

--------- The AI Hacker ------

Illustrated Guide to Transformers Neural Network: A step by step explanation

Illustrated Guide to LSTM's and GRU's: A step by step explanation


-------   IBM Tech. ------------
-------- Algorithmic Simplicity ------
Algorithmic Simplicit

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

----- 概念簡介  水論文程序員(Transformer技術介紹)----

 水論文程序員 --------

02 没人用的 GPT 原来这么容易理解

13 Transformer的多头注意力,Multi-Head Self-Attention(从空间角度解释为什么做多头)

15 Transformer 框架概述

16 Transformer的编码器(Encodes)——我在做更优秀的词向量

20 Transformer 的输出和输入是什么

------ 王木頭學科學 -------

从编解码和词嵌入开始,理解Transformer,注意力机制(Attention)的本质是卷积神经网络

“神经网络”是什么?如何直观理解它的能力极限?它是如何无限逼近真理的?

学习分享一年,对神经网络的理解全都在这40分钟里了

从“卷积”、到“图像卷积操作”、再到“卷积神经网络”,“卷积”意义的3次改变

卷积神经网络的底层是傅里叶变换,傅里叶变换的底层是希尔伯特空间坐标变换

什么是“感知机”,它的缺陷为什么让“神经网络”陷入低潮

“损失函数”是如何设计出来的?直观理解“最小二乘法”和“极大似然估计法”

直观解释:为什么噪声不是过拟合的原因?又什么只要没有过拟合就一定有噪声?

5. 深度学习和元胞自动机有什么关系?会给编程带来什么样的颠覆性改变?


从编解码和词嵌入开始,理解Transformer,注意力机制(Attention)的本质是卷积神经网络

“神经网络”是什么?如何直观理解它的能力极限?它是如何无限逼近真理的?

学习分享一年,对神经网络的理解全都在这40分钟里了


------ CodeEmporium + Hedu AI by Batool Haider ----------

Hedu AI by Batool Haider(AI 基礎解說)

Self Attention in Transformer Neural Networks (with Code!)(12集)

Transformers - Part 1 - Self-attention: an introduction(9集)

Which transformer architecture is best? Encoder-only vs Encoder-decoder vs Decoder-only models