課程簡介

Gemini 3多模態介紹

  • 文本、圖像、音頻和視頻的處理能力。
  • 模型選擇和端點概述。
  • 多模態推理的關鍵概念。

處理文本和結構化輸入

  • 文本生成的提示策略。
  • 元數據、上下文窗口和嵌入。
  • 基於文本的多模態任務編排。

圖像理解與視覺工作流

  • 使用Gemini 3進行圖像分析和解釋。
  • 創建視覺搜索和標記工具。
  • 構建圖像到文本和文本到圖像的交互。

音頻輸入處理

  • 語音識別和轉錄工作流。
  • 音頻事件檢測和解釋。
  • 將音頻與文本和視覺輸入集成。

視頻智能與場景分析

  • 逐幀和連續視頻推理。
  • 構建摘要和高亮提取工具。
  • 基於視頻的自動化和內容工作流。

設計多模態應用架構

  • 在單一管道中組合多種輸入類型。
  • 延遲、成本和計算考量。
  • 可擴展多模態系統的最佳實踐。

原型設計多模態應用

  • 動手創建多模態原型。
  • 通過提示工程進行快速迭代。
  • 測試和改進用戶體驗流程。

部署多模態解決方案

  • 部署策略和環境設置。
  • 監控實際性能。
  • 安全和合規考量。

總結與下一步

最低要求

  • 瞭解現代AI概念。
  • 具備Python或JavaScript經驗。
  • 熟悉REST API。

受衆

  • 設計師。
  • 內容創作者。
  • 技術產品團隊。
 14 時間:

人數


每位參與者的報價

客戶評論 (1)

即將到來的課程

課程分類