多模态AI笔记

First Post:

Last Update:

LLM领域的AI应用

1、基座模型与上层应用,分层清晰、各有空间

2、应用层几乎不涉及模型和算法

3、逻辑性抢、更容易量化

多模态领域的AI应用

1、模型即是应用

2、多模型模块的组合

3、多模块底层逻辑的理解

ea5705823bbc7b820471ffb5ea7aa77

多模态领域的重要技术突破:

语言与视觉打通的Clip(contrastive Language-Image pre-training )openAI于2021-1月发布

向量、空间、特征

1、Contrastive pre-training

大量训练数据、弱监督训练

OpenAI对其设计了简单模型结构:相似度运算

5a417d362a3b571849bb943a5e8ef38

9657e450d5f862ec36c9949812edc7e

各种多模态的模块组合与学习:

如:Text2Image(文生图-文字生成图片Text to Image)

2022.4 DALLE2组合了

1、Clip Text Encoder

2、Diffusion Model 中的逆向扩散过程

两个模型中间用一个Transformer Decoder 串联起来

2022.8 Stablel Diffusion 发现了

1、Runway首席科学家Patrick Esser 发表了一遍有关Latent Diffusion Model的论文

2、用代码把论文里的模型实现了一遍

3d82f987ced5ed297f2c923a3db6e68

如:Text2Video(文生视频-文字生成视频Text to Video)

2023.3月 发布的Gen2 里面组合了

1、Clip Text Encoder

2、Diffusion Model中的逆向扩散过程

(逆向扩散过程:如清晰的一张图逐渐加噪点变模糊化,这叫扩散,逆向扩散就是一张模糊的旧图逆向训练成清晰的图)

3、Latent Diffusion Model中的潜在空间

20024.2 发布的Sora组合了

1、DALLLE3的Caption improvement

2、Meta ICCV2023的DIT(Duffusion Transformer)替换U-Net

3、Google ICCV2021 的ViViT(A Video Vision Transformer)

cadfdb5b613b92f0e3934de174ee074

建议:

1、不要一上来就做一个单独的AI产品

2、从一个优化带你开始

3、2C产品建议从留存、活跃、互动率考虑

4、2B从大规模效率出发

5、内部系统从用户操作复杂度

学习模型原理、学习模型边界、学习多模态的各种模块