what-is-gemini-live.md 24 KB

+++ title = "Gemini CLI 是什麼? Gemini Live 是什麼?" date = "2025-07-15T00:39:46+02:00" tags = ["ai","google","gemini"] categories = ["ai"] banner = "https://i0.wp.com/9to5google.com/wp-content/uploads/sites/4/2024/08/Gemini-Live-on-Pixel-9-Pro.jpg" +++

Gemini CLI:深入解析與開發者生態系戰略

一、前言:開發者終端 AI 化趨勢與 Gemini CLI 的誕生

對於廣大軟體開發者而言,命令列介面(CLI)不僅是工具,更是一個「舒適圈」或「主場」,其高效率、普及性與跨平台特性使其成為首選工具。隨著大型語言模型(LLM)和「Vibe Coding」趨勢的興起,開發者對整合 AI 協作功能的需求日益增長,進而催生了「代理人式 CLI」(Agentic CLI)或「終端代理人」(Terminal Agent)的概念,這標誌著開發者與 AI 互動的下一階段:一種對話式、協作式的開發模式,AI 能進行推理、規劃並採取行動。

Google 近期發布的 Gemini CLI 正是進軍此新興戰場的重量級產品,被定位為「對命令列體驗的根本性升級」,旨在「提供從提示詞(prompt)到模型最短最快的路徑」。此舉呼應了產業趨勢,因為在 Gemini CLI 問世前幾個月內,Anthropic 推出了 Claude Code,OpenAI 也發表了 Codex CLI,顯示三大 AI 巨頭不約而同地將目光投向開發者終端,爭奪下一代軟體開發工作流程的主導權。

二、Gemini CLI 技術解構與功能亮點

Gemini CLI 作為一款開源 AI 代理,將 Gemini 的強大功能直接整合至終端機,提供輕便的方式使用 Gemini。

2.1 核心驅動力:Gemini 2.5 Pro 與百萬 Token 上下文視窗

  • 模型基礎:「Google Gemini CLI 的核心驅動力是 Google 最先進的 gemini-2.5-pro 模型。」
  • 超大上下文:「這個模型最引人注目的特點,也是 Google 行銷的重點,是高達 100 萬 Token 的超大上下文視窗 (Context Window)。」這使得 Gemini CLI 能一次性分析極大量資訊,進行更複雜的推理與操作。
  • 多模態能力:除了文字處理,「Gemini CLI 還具備多模態 (Multimodal) 能力,能夠根據 PDF 或手繪草圖等非文字輸入來生成新的應用程式。」
  • 技術棧:Gemini CLI 使用 Node.js(要求 v18 或更高版本)建立,並透過 npm 套件形式發布,降低了 JavaScript 和網頁開發者的入門門檻。

2.2 代理人核心:「推理與行動」(ReAct)循環及內建工具

Gemini CLI 的運作模式基於「推理與行動」(Reason and Act, ReAct) 的循環框架,AI 代理人會規劃行動步驟、執行工具、觀察結果並進行推理以決定下一步行動。為此,Gemini CLI 內建了豐富的工具:

  • 檔案系統工具:ReadFile、WriteFile、Edit(應用 diff 格式程式碼變更)、FindFiles、ReadManyFiles。
  • 執行工具:Shell(執行終端機指令,以 ! 為前綴)、SearchText(在檔案內搜尋文字)。
  • 網路工具:GoogleSearch(提供即時資訊)、WebFetch(獲取網頁內容)。
  • 記憶工具:Save Memory (memoryTool),用於在單次對話中儲存事實和偏好設定。
  • 自訂行為:開發者可透過在專案根目錄建立 GEMINI.md 檔案,來為特定專案客製化代理人的行為,類似於永久性系統提示詞。

2.3 免費與付費策略:慷慨與爭議並存

Google 為 Gemini CLI 提供了雙軌並行的存取策略:

  • 個人開發者免費方案:「開發者只需使用個人 Google 帳戶登入,即可免費獲得 Gemini Code Assist 授權,並免費使用 Gemini CLI。」此方案提供 Gemini 2.5 Pro 及其高達 100 萬詞元的上下文長度,並提供「業界最寬裕的使用額度:每分鐘 60 次,每日最多可達 1,000 次的模型執行額度,且完全免費。」
  • 進階認證:專業開發者可透過 Google AI Studio 或 Vertex AI 的金鑰進行按使用量計費,或取得 Gemini Code Assist 標準或企業版本授權。
  • Workspace 的困境與社群批評:擁有付費 Google Workspace 帳號的用戶往往無法享受免費方案,而被要求導向需額外付費的「Gemini for Google Cloud」訂閱方案。這被社群批評為「在懲罰付費客戶,同時獎勵免費使用者」。
  • 性能與可靠性問題:雖然免費策略旨在快速獲取用戶,但大量用戶報告指出「即使在極少量的使用下,也會一直遇到 429 Too Many Requests (請求過多) 的錯誤」。為此,Gemini CLI 會在偵測到高負載或延遲時,自動將用戶對話階段切換到功能較弱的 gemini-2.5-flash 模型,導致用戶體驗降級,未能兌現其穩定提供頂級模型存取的承諾。

三、開發者採用與實際應用流程

Gemini CLI 可應用於多種任務,從內容生成、問題解決到深入研究和任務管理。

3.1 完整開發工作流程範例:修復 Bug 生命週期

Gemini CLI 能夠顯著提升開發效率,將原本數小時甚至數天的人工操作,濃縮為一系列簡潔的自然語言指令:

  1. 程式碼庫上手:輸入 > Explore the current directory and describe the architecture of the project,代理人會分析檔案結構並提供高層次摘要。
  2. 錯誤調查:提供 GitHub issue URL,代理人會讀取內容,分析程式碼庫,並提出多步驟的錯誤修復計畫。
  3. 程式碼實作:開發者核准計畫後,代理人會使用 Edit 工具以 diff 形式應用程式碼變更。
  4. 測試生成:輸入 > Write a pytest unit test for this change,代理人會生成相應的測試程式碼。
  5. 文件撰寫:輸入 > Write a markdown summary of the bug, fix, and test coverage,代理人會生成 markdown 摘要並可直接儲存。

3.2 開發者社群回饋:驚艷與不滿並存

Gemini CLI 的發表在開發者社群中激起了複雜而兩極的反應:

  • 初期驚艷:許多開發者讚賞其反應速度、單一請求處理複雜任務的能力以及流暢的「代理人式體驗」。
  • 性能與可靠性批評:最常見的抱怨是頻繁的「429 Too Many Requests」錯誤、極端緩慢的延遲,以及自動降級到功能較弱的 Flash 模型,嚴重影響使用者體驗。
  • 品質與幻覺問題:程式碼生成品質不一致,有用戶報告其會犯下嚴重錯誤、產生不存在的函式呼叫(幻覺),或未能正確遵循指令。
  • 可用性與 UX 爭議:Gemini CLI 在執行任務時顯示詳細「思考」過程,部分用戶認為透明,另一些則覺得冗長且煩人。基於 Node.js 的技術選擇也被批評為對系統性能的拖累和不必要的環境依賴。

四、競爭舞台:Gemini CLI 與主要競爭者

Gemini CLI 的問世,直接攻入了由其他科技巨頭早已佈局的競爭領域。

4.1 與 Anthropic 的 Claude Code 正面對決

  • 定位與優勢:Claude Code 被視為市場領導者,以其精緻使用者體驗、高品質程式碼輸出和「代理人式搜尋」實現的深度程式碼庫感知能力備受讚譽。其關鍵差異化功能是「子代理人」機制,實現階層式的多代理人協作。
  • 弱點與差異:Claude Code 為高階付費訂閱產品,免費方案限制較多,與 Gemini CLI 的激進免費策略形成鮮明對比。
  • 直接比較:社群普遍認為 Claude Code 在可靠性和錯誤率方面表現更佳,但 Gemini 2.5 Pro 正常運作時反應速度可能更快。

4.2 與 OpenAI 的 Codex CLI 正面對決

  • 定位與優勢:Codex CLI 將重點放在使用者控制和安全性上,提供三種「核准模式」(Suggest、Auto Edit、Full Auto),給予使用者精細控制代理人自主性。它也支援多模態輸入,並在本地端執行以確保程式碼隱私。
  • 弱點與差異:Codex CLI 需要 OpenAI API 金鑰,沒有慷慨的免費方案,且對 Windows 的支援仍處於實驗階段。

4.3 與 Microsoft 的 AI Shell 正面對決

  • 定位與優勢:AI Shell 是更專業化的工具,深度整合於 Microsoft 生態系統,特別是 PowerShell 和 Azure。其主要功能是作為「對話式夥伴」,幫助使用者建構複雜的 Azure CLI 和 PowerShell 指令。它採用多個專業「代理人」組成的框架。
  • 弱點與差異:AI Shell 並非通用型軟體開發代理人,其設計目標更多是輔助 Azure 生態系統中的系統管理員和雲端工程師,而非廣泛的程式碼庫操作和修改。

4.4 領先代理人式 CLI 比較分析表

特性Google Gemini CLIAnthropic Claude CodeOpenAI Codex CLIMicrosoft AI Shell核心模型Gemini 2.5 ProClaude 4 OpusGPT-4o-mini, GPT-4.1GPT-4o, Copilot in Azure關鍵功能1M Token 上下文,ReAct 循環,多模態輸入,GEMINI.md 設定代理人式搜尋,多檔案編輯,子代理人,IDE 整合三種批准模式(Suggest, Auto Edit, Full Auto),本地端執行PowerShell 整合,專業化代理人(Azure),錯誤解決擴充性模型上下文協定 (MCP),捆綁擴充套件模型上下文協定 (MCP),SDK,GitHub Actions開源,但未強調如 MCP 的正式協定用於自訂提供者的代理人框架定價模型個人帳戶享慷慨免費方案;Workspace / 企業版需付費高級訂閱制(每月 $20-$200),API 按量付費需要 OpenAI API 金鑰(按用量計費)工具免費,需有 Azure/OpenAI 後端存取權限目標受眾廣大開發者,特別是網頁 / JS 社群專業開發者,處理大型程式碼庫的企業團隊希望對 AI 自主性和隱私有精細控制的開發者Azure 雲端工程師,系統管理員,PowerShell 使用者五、Google 的宏大戰略:Gemini CLI 作為 AI 生態系的關鍵

Gemini CLI 的發表並非單點產品,而是 Google 全面推行「Gemini Everywhere」戰略的關鍵一步,旨在將 Gemini 的智慧能力嵌入 Google 的整個產品矩陣。

5.1 與 Code Assist 和 Vertex AI 的共生關係

  • 協同定位:Gemini CLI 與其在 IDE 中的對應產品 Gemini Code Assist 存在明確且緊密的整合關係,兩者被定位為「同一枚硬幣的兩面」,Code Assist 的「代理人模式」正是由 Gemini CLI 驅動。
  • 共享額度:開發者在 IDE 和終端機中的互動會消耗同一個請求配額池,鼓勵將兩者視為統一的 Google 驅動開發環境。
  • 企業級升級路徑:對於企業用戶,Gemini CLI 扮演通往更強大、更可客製化的 Vertex AI 模型的門戶,創造了一條從免費方案到付費企業級雲端 AI 服務的升級路徑。

5.2 模型上下文協定 (MCP) 的戰略重要性

  • 開放標準:「Gemini CLI 內建對『模型上下文協定』(Model Context Protocol, MCP) 的支援,這是一項極具前瞻性的關鍵戰略決策。」MCP 是一個新興的開放標準,旨在讓 AI 代理人以標準化方式連接外部工具、資料庫和服務,作用類似於「AI 的 USB-C 連接埠」。
  • 開放生態:Google 透過擁抱 MCP,表明其希望將 Gemini CLI 打造成一個開放、可擴充的中心,而非封閉專有工具,鼓勵社群驅動創新。
  • 互通性競爭:Google 和 Anthropic 對 MCP 的早期和高調支持,被視為一種在 Agentic AI 領域變得支離破碎之前,搶先建立開放標準的先發制人策略。這降低了工具開發者支援其平台的門檻,並給予使用者更大靈活性,同時確保自家代理人能從跨平台、快速增長的 MCP 相容工具庫的網路效應中獲益。

六、未來軌跡與長期影響:重塑開發工作流程

6.1 預期演進:解決瓶頸與擴展能力

Gemini CLI 的未來發展將圍繞解決當前痛點和擴展核心能力:

  • 性能與可靠性:最緊迫的任務是解決頻繁的 429 錯誤、高延遲和強制降級等問題,穩定免費方案的體驗是贏得長期用戶信任的關鍵。
  • 功能對標與創新:未來路線圖可能包括進階權限模型、實作類似 Claude Code 的「子代理人」功能、優化的上下文管理(允許開發者定義專案模組),以及改善企業整合。

6.2 終端之戰:重塑開發工作流程與生產力

Gemini CLI、Claude Code 和 Codex CLI 之間的激烈競爭,將加速 AI 輔助軟體開發領域的創新。

  • 全新開發模式:這將從根本上改變開發者的工作模式和基本要求,優秀開發工具必須包含 Agentic AI 能力。這已催生出「氛圍程式設計」(Vibe Coding) 或「對話式開發」(Conversational Development) 等全新模式。
  • 角色重新定義:長遠來看,這場終端之戰的結果將是開發者生產力的顯著提升。但同時,「它也可能重新定義軟體工程師這個角色本身,未來的工程師可能需要將更多精力投入到系統架構設計、問題分解和 AI 監督上,而花在逐行編寫程式碼上的時間則會相對減少。」這不僅是工具革命,更是開發者工作方式和價值的革命。

什麼是 Gemini Live

Gemini Live 是一種對話式體驗,可讓您與數位助理進行自由流暢的對話。除了文字輸入之外,Gemini Live 還可以免持輸入。此外,助手會在後台工作,甚至在手機鎖定時也能工作。Gemini Live 開始向 Android 手機(包括部分 Pixel 和三星裝置)上的 Gemini Advanced 訂閱者推出英文版本,並將在未來幾週內擴展到 iOS 和更多語言。

Gemini Live 如何運作

Gemini Live 的介紹提示標題為“與 Gemini 一起直播”,詳細介紹了點擊直播按鈕可啟動麥克風。用戶可以點擊「保持」或「結束」按鈕或說「停止」來關閉麥克風。該提示還指出,某些功能(例如擴充功能)在 Live 中尚不可用。聊天記錄保存在 Gemini 應用程式活動中。 Gemini Extensions 預計稍後將添加,讓用戶可以透過語音控製手機並存取其他應用程式。9to5Google 報告稱,Gemini UI 很乾淨,用戶可以退出應用程式繼續使用手機或在通話時鎖定螢幕。透過鎖定畫面使用 Gemini Live 時,會出現「與 Gemini 一起直播」通知,表示麥克風已開啟並提供結束直播模式按鈕。互動結束後,「最近」歷史清單中會產生一份文字記錄,顯示文字提示和 Gemini 回覆。使用者可以透過點擊螢幕一角的「即時」按鈕來重新啟動對話。

Gemini Live 與新聲音在 Pixel、三星上推出

影像]

正如 Google 在 Made by Google 2024 期間宣布的那樣,Gemini Live 即將推出,我們今天可以在 Pixel 和其他 Android 手機上看到更廣泛的可用性。

Gemini Live 圖示是一個帶有閃光標誌的波形,出現在 Gemini 覆蓋層和全螢幕應用程式的右下角。

嗨,我是Gemini。我們即將上線,您只需透過交談即可探索複雜的主題或想法。

介紹性提示解釋如何使用底部的大按鈕「保持」或「結束」對話,或說「停止」。 Google一開始就表示,Gemini Extensions 尚未在 Live 中提供,但稍後會推出,讓您可以透過語音控製手機並存取其他應用程式(Gmail、YouTube 等)。

全螢幕 Gemini Live 使用者介面非常乾淨,但您可以退出應用程式以繼續使用手機或鎖定/關閉螢幕以繼續通話。在這種情況下,您會收到「與 Gemini 一起直播」通知,其中註明「麥克風已開啟」以及「結束直播模式」按鈕。

結束對話後,將出現顯示您的提示和 Gemini 回應的文字記錄。它像其他文字聊天一樣出現在「最近」歷史記錄清單中。您可以透過點擊角落的「即時」按鈕來重新啟動對話。

在 Gemini 設定中,您可以使用新的“中斷即時回應”開關(Google特別自豪讓用戶插話)和“Gemini聲音”,可以從 10 個適合明星和太空主題的選項中進行選擇(感謝 Omega192) 。這種新聲音也可以在 Live 之外使用。

  • Nova:平靜•中頻聲音
  • Ursa:參與 • 中頻聲音
  • Vega:明亮•更高的聲音
  • Pegasus:參與 • 聲音低沉
  • 曲目:精力充沛•聲音低沉
  • 天琴座:明亮•聲音更高
  • Orion:明亮·聲音低沉
  • Dipper:投入 • 聲音低沉
  • Eclipse:充滿活力 • 中頻聲音
  • 無伴奏合唱:英國口音 • 聲音較高

到目前為止,我們已經在 Pixel 和 Samsung 設備上看到了這一點。 Gemini Live 正在廣泛推廣到 Android 平台。它需要 Gemini Advanced 訂閱,並且可以在全球範圍內使用英語。

影像]

多年來,我們一直依靠數位助理來設定計時器、播放音樂或控制我們的智慧家庭。這項技術讓工作變得更加容易,並且每天節省了寶貴的時間。

現在,借助生成式人工智慧,我們可以為複雜任務提供全新類型的幫助,從而節省您的時間。透過 Gemini,我們正在重新構想私人助理真正提供幫助的含義。 Gemini 正在不斷發展,以提供人工智慧驅動的行動協助,將提供新水平的幫助,同時更加自然、對話式和直觀。

了解有關新 Gemini 功能的更多信息,該功能將在 Android 和 iOS 上提供。

影像]

ChoozMo是台灣領先的生成式AI應用公司,為台灣各大電視台提供AI新聞主播服務,包括SET iNews、CTS、Hakka TV。為台北101開發基於LLM的AI客服,支援中文、英文、日文、韓文。此外,他們正在開發 ESG 領域的法學碩士。

Google今天在 Pixel 9 活動上宣布,將為 Gemini 推出新的語音聊天模式,名為 Gemini Live。 Gemini Advanced 訂閱者可以使用,它的工作原理很像 ChatGPT 的語音聊天功能,有多種聲音可供選擇,並且能夠進行對話式交談,甚至無需點擊按鈕即可打斷。

谷歌表示,與 Gemini Live 的對話可以“自由流動”,因此你可以做一些事情,例如在句子中打斷答案或暫停對話並稍後再返回。 Gemini Live 也可以在背景或當您的手機鎖定時運作。谷歌在今年稍早的 I/O 開發者大會上首次宣布 Gemini Live 即將推出,並表示 Gemini Live 將能夠即時解釋影片。

Gemini Live 為 Google 的 AI 助理添加了語音聊天功能。動圖:Google

谷歌還提供了 10 個新的 Gemini 聲音供用戶選擇,名字包括 Ursa 和 Dipper。該功能已於今天開始針對 Android 裝置推出,僅提供英文版本。該公司表示,它將在「未來幾週內」登陸 iOS 並提供更多語言。

除了 Gemini Live 之外,Google還宣布了其 AI 助理的其他功能,包括稍後推出的 Keep、Tasks、Utilities 和 YouTube Music 等應用程式的新擴充功能。 Gemini 也獲得了對螢幕環境的感知,類似於蘋果今年在 WWDC 上宣布的人工智慧功能。谷歌表示,當用戶點擊“詢問此屏幕”或“詢問此視頻”後,Gemini 可以為您提供信息,包括從旅行視頻中提取目的地等詳細信息以添加到谷歌地圖中。

影像]

這是不可避免的。隨著 Gemini 在 Google 生態系統的各個部分逐漸形成,Android 顯然最終也會效仿。除了新的Pixel 硬體系列之外,Google還宣布將加倍兌現其人工智慧承諾,推出一些支援Gemini 的新功能,其中包括Gemini Live,它可以讓你與它聊天,就像它就在你耳邊一樣。谷歌稱其為新重建的“Gemini 助理體驗”。

Android 用戶將獲得新的 Gemini 覆蓋層。與之前的 Assistant 一樣,Gemini 可以在您需要時隨時長按電源按鈕彈出,並提供有關螢幕上內容的上下文。這可以以不同的方式與多個不同的應用程式配合使用。 Google 的範例包括詢問有關您在 YouTube 影片上觀看的內容的更多資訊。或者,使用它在 Google Messages 等應用程式中生成圖像。 Circle to Search 在大多數 Android 裝置上也有一個小功能提升。您可以在與之互動時選擇並分享材料。

然後,還有今天推出的 Gemini Live。這種體驗感覺最像獨立低俗時代的電影《Her》,但採用的是 Google 方式,而且沒有 ScarJo 的問題。你可以「自然地」與Gemini說話,就像你與另一個人交談一樣,就像華金·菲尼克斯對耳機所做的那樣。是的,新款 Pixel Buds Pro 2 將啟用此功能。谷歌表示,新的 Gemini Live 可以理解意圖,遵循思路,並完成智慧助理以前無法完成的複雜任務。 Gemini Live 甚至可以讓您與它談論生活並追蹤您可能有的任何想法。該公司建議使用它來「集思廣益」適合您技能的潛在工作。讓機器幫你找出你在機器中的位置。

Gemini 將成為 Google 最廣泛使用的人工智慧助手,就像 Google Assistant 一樣。在某種程度上,它仍然存在於 Nest 生態系統中,但 Gemini 取代了曾經的 Google Assistant,成為了得心應手的幫手。唯一的區別是您輸入的方式。Gemini更依賴圖像和直接提示,而這不是我們與 Google Assistant 交談的方式。一旦我們意識到數位助理並不像我們希望的那樣進行“隨意對話”,我們就會訓練自己調低提示音。也許 Gemini 就是 Android 的那個。

谷歌承諾 Gemini 是私有的。該功能需要您的許可才能訪問生態系統中您生活的所有部分,然後它將與您的電子郵件和文件進行交互,並充當其標稱的助手。 Gemini 的一些 Android 功能是在雲端處理的,而大多數「敏感用例」則透過 Gemini Nano 保留在裝置上。

如果您按照 Google 的預期使用 Gemini,Gemini Live 等功能將開始向 Gemini Advanced 訂閱者推出。如果您購買 Pixel 9 或 Pixel 9 Pro,Google 將贈送一年的 Google One AI Premium Plan,其中包括一年免費使用 Gemini Advanced。

影像]

Kerry Wan/ZDNET

生成式人工智慧最有用(也是最需要的)應用之一是增強語音助手,多年來它相對保持不變。現在,Google在 Gemini 的幫助下對其語音助理體驗進行了多項升級。

在周二舉行的谷歌製造活動上,谷歌將Gemini 設為默認語音助手,用更智能的替代品取代了Google Assistant,它可以被打斷,能夠識別你的谷歌應用程序,甚至可以幫助回答有關屏幕內容的問題。

另外:Google憑藉 Gemini Live 和 Pixel 的人工智慧功能在指數中名列前茅

可以說,Gemini 最大的公告是 Google 在 Google I/O 大會上宣布 Gemini Live 三個月後推出。

Gemini Live 是一款高級語音助手,可就複雜話題進行類人的多輪(或交流)口頭對話,甚至為您提供建議。例如,與助理說話時,您可以中途打斷,助理仍然能聽懂您的意思。您還可以選擇多種聲音來增強您的對話體驗。

然而,有一個問題:只有 Android 裝置上的 Gemini Advanced 訂閱者才能存取它。該功能已在三星和 Pixel 設備上推出。

作為獎勵,Pixel Pro 9 用戶可以訪問 Google One AI Premium 計劃,其中包括訪問 Gemini Advanced - 以及 Gemini Live - 第一年無需額外付費。但對於所有其他 Android 用戶來說,很難說 Gemini Live 是否值得每月支付 20 美元購買 Google One AI Premium Plan。如果您想了解該計劃是否值得,可以透過一個月的試用免費試用。

另外:如何免費試用 Google 新推出的 Gemini Live AI 助手

當在 Google I/O 大會上宣佈時,Gemini Live 還具有多模式功能,使其能夠使用相機查看周圍的世界,並將其作為答案的背景。不過,該功能尚未發布。

Gemini Live 是 GPT-4o 全新改進的語音模式的直接競爭對手,後者俱有相同的對話和多模式功能。與Google一樣,OpenAI 尚未提供影片和螢幕分享功能。