課程簡介

多模態AI簡介

  • 什麼是多模態AI?
  • 主要挑戰與應用
  • 領先多模態模型概覽

文本處理與自然語言理解

  • 利用LLMs構建基於文本的AI代理
  • 理解多模態任務的提示工程
  • 針對特定領域微調文本模型

圖像識別與生成

  • 使用AI處理圖像:分類、描述與目標檢測
  • 使用擴散模型生成圖像(Stable Diffusion, DALLE)
  • 將圖像數據與基於文本的模型集成

語音與音頻處理

  • 使用Whisper ASR進行語音識別
  • 文本到語音(TTS)合成技術
  • 增強基於語音的AI用戶交互

集成多模態輸入

  • 構建處理多種輸入類型的AI管道
  • 融合技術:結合文本、圖像與語音數據
  • 多模態AI代理的實際應用

部署多模態AI代理

  • 構建API驅動的多模態AI解決方案
  • 優化模型以提高性能與可擴展性
  • 在生產中部署多模態AI的最佳實踐

倫理考量與未來趨勢

  • 多模態AI中的偏見與公平性
  • 多模態數據的隱私問題
  • 多模態AI的未來發展

總結與下一步

最低要求

  • 瞭解機器學習基礎知識
  • 具備Python編程經驗
  • 熟悉深度學習框架(如TensorFlow、PyTorch)

受衆

  • AI開發者
  • 研究人員
  • 多媒體工程師
 21 時間:

人數


每位參與者的報價

客戶評論 (1)

Upcoming Courses

課程分類