多模态AI笔记
Last Update:
LLM领域的AI应用
1、基座模型与上层应用,分层清晰、各有空间
2、应用层几乎不涉及模型和算法
3、逻辑性抢、更容易量化
多模态领域的AI应用
1、模型即是应用
2、多模型模块的组合
3、多模块底层逻辑的理解

多模态领域的重要技术突破:
语言与视觉打通的Clip(contrastive Language-Image pre-training )openAI于2021-1月发布
向量、空间、特征
1、Contrastive pre-training
大量训练数据、弱监督训练
OpenAI对其设计了简单模型结构:相似度运算


各种多模态的模块组合与学习:
如:Text2Image(文生图-文字生成图片Text to Image)
2022.4 DALLE2组合了
1、Clip Text Encoder
2、Diffusion Model 中的逆向扩散过程
两个模型中间用一个Transformer Decoder 串联起来
2022.8 Stablel Diffusion 发现了
1、Runway首席科学家Patrick Esser 发表了一遍有关Latent Diffusion Model的论文
2、用代码把论文里的模型实现了一遍

如:Text2Video(文生视频-文字生成视频Text to Video)
2023.3月 发布的Gen2 里面组合了
1、Clip Text Encoder
2、Diffusion Model中的逆向扩散过程
(逆向扩散过程:如清晰的一张图逐渐加噪点变模糊化,这叫扩散,逆向扩散就是一张模糊的旧图逆向训练成清晰的图)
3、Latent Diffusion Model中的潜在空间
20024.2 发布的Sora组合了
1、DALLLE3的Caption improvement
2、Meta ICCV2023的DIT(Duffusion Transformer)替换U-Net
3、Google ICCV2021 的ViViT(A Video Vision Transformer)

建议:
1、不要一上来就做一个单独的AI产品
2、从一个优化带你开始
3、2C产品建议从留存、活跃、互动率考虑
4、2B从大规模效率出发
5、内部系统从用户操作复杂度
学习模型原理、学习模型边界、学习多模态的各种模块