感謝您提交詢問!我們的一位團隊成員將在短時間內與您聯繫。
感謝您提交預訂!我們的一位團隊成員將在短時間內與您聯繫。
課程簡介
Gemini 3多模態介紹
- 文本、圖像、音頻和視頻的處理能力。
- 模型選擇和端點概述。
- 多模態推理的關鍵概念。
處理文本和結構化輸入
- 文本生成的提示策略。
- 元數據、上下文窗口和嵌入。
- 基於文本的多模態任務編排。
圖像理解與視覺工作流
- 使用Gemini 3進行圖像分析和解釋。
- 創建視覺搜索和標記工具。
- 構建圖像到文本和文本到圖像的交互。
音頻輸入處理
- 語音識別和轉錄工作流。
- 音頻事件檢測和解釋。
- 將音頻與文本和視覺輸入集成。
視頻智能與場景分析
- 逐幀和連續視頻推理。
- 構建摘要和高亮提取工具。
- 基於視頻的自動化和內容工作流。
設計多模態應用架構
- 在單一管道中組合多種輸入類型。
- 延遲、成本和計算考量。
- 可擴展多模態系統的最佳實踐。
原型設計多模態應用
- 動手創建多模態原型。
- 通過提示工程進行快速迭代。
- 測試和改進用戶體驗流程。
部署多模態解決方案
- 部署策略和環境設置。
- 監控實際性能。
- 安全和合規考量。
總結與下一步
最低要求
- 瞭解現代AI概念。
- 具備Python或JavaScript經驗。
- 熟悉REST API。
受衆
- 設計師。
- 內容創作者。
- 技術產品團隊。
14 時間:
客戶評論 (1)
演講的流暢性、氛圍與主題
Lukasz Kowalczyk - Allegro Sp. z o.o.
課程 - Google Gemini AI for Data Analysis
機器翻譯