註冊並獲得 10000 個免費 tokens!

免費開源的 Gemini CLI 是什麼?教你打造 AI Agent 的快速入門教學

首頁 » 教學文章 » 免費開源的 Gemini CLI 是什麼?教你打造 AI Agent 的快速入門教學
CalendarIcon

2025/07/02

what-is-gemini-cli
#GeminiCLI#AI生成#AI Agent#AI自動化

在 AI 工具日新月異的今天,開發者需要一套既簡潔又高效的方式來構建智能代理系統。 Gemini CLI 正是為此而生,這款由 Google 推出的開源命令列工具,能協助你快速開發、部署並測試 AI Agent,從終端機直接操控你的 AI 腦袋。不論你是想打造聊天機器人、自動化任務處理器,還是專屬的資料助手,Gemini CLI 都能讓開發流程變得直觀又靈活。 本文將帶你一步步從安裝 Gemini CLI 到撰寫實際 AI Agent 程式碼,並透過實戰案例教你如何在終端機部署一個可運作的AI代理,現在就開啟你的 AI Agent 開發之旅吧!

文章目錄
  1. Gemini CLI 能做什麼?釋放 AI Agent 的強大潛力
  2. Gemini CLI 安裝與快速上手
  3. 選擇主題與登入授權
  4. Gemini CLI 使用指南
  5. 打造一個能寫貪食蛇遊戲的 AI Agent
  6. Gemini CLI 與 ChatGPT 的差異:為什麼它更適合開發 AI Agent?
  7. Gemini CLI 將如何重塑 AI 工具開發生態?

Gemini CLI 能做什麼?釋放 AI Agent 的強大潛力

Gemini CLI (Command Line Interface) 是 Google 開發的開源工具,讓你直接透過終端機與強大的 Gemini AI 模型互動,並以此為基礎開發和管理各種 AI Agent 。它簡化了 AI 操作,讓你在終端機中就能完成複雜的 AI 任務。

1. 聊天問答與內容生成

Gemini CLI 讓你在終端機裡就能與 AI 對話:

  • 自然語言互動: 直接提問,快速獲取答案,無論是資料查詢、問題解決還是創意寫作。
  • 多樣內容生成: 不僅是文本,它還能生成程式碼、腳本、圖片描述,甚至結合 Imagen 等模型生成圖片和影片。

2. 程式碼輔助與開發流程優化

它是工程師的得力助手,大幅提升效率:

  • 程式碼理解與生成: 閱讀、理解、修改、生成程式碼,協助你解釋複雜程式、重構、修復 Bug。
  • 除錯與自動化: 直接將錯誤訊息給它,獲取解決方案。將指令嵌入腳本,自動化單元測試、文件生成等重複性編碼任務。

3. 結合外部工具與資訊來源

Gemini CLI 具備強大擴展性,能與多種工具整合:

  • 內建 Google Search: 整合搜尋功能,AI 能參考即時網頁資料,確保資訊即時與可靠,對需要最新資訊的 AI Agent 至關重要。
  • 執行終端機指令: 透過特定語法,AI Agent 不僅能生成內容,還能執行實際系統操作。
  • 擴展功能: 支援 MCP 和內建擴充,能連接外部資料庫、API,讓 AI Agent 讀取檔案、管理資料或與第三方服務互動。

4. 開發 AI Agent

它是開發 AI Agent 的核心工具:

  • 核心驅動: 提供程式化、高可控性介面,讓你設計 AI Agent 行為、串聯多步驟任務並部署。
  • 多步驟推理: 透過內建工具和 ReAct 循環,幫助 AI Agent 完成複雜的多步驟任務,如分析需求、生成方案、執行指令和驗證結果。

Gemini CLI 是一款多功能工具,將 Google Gemini AI 的強大能力帶入開發者的終端機工作流程,提升生產力,簡化 AI 任務,並為打造自動化、智能化的 AI Agent 提供堅實基礎。

Gemini CLI 安裝與快速上手

以下是安裝和啟動 Gemini CLI 的步驟:

事前準備

  • Node.js 版本需求:請確認您的電腦已安裝 Node.js 18 版或更高版本。

執行 CLI

您可以選擇以下任一方式來執行 Gemini CLI:

  • 直接執行:在您的終端機中輸入以下指令:

npx https://github.com/google-gemini/gemini-cli

或者

  • 全域安裝:輸入以下指令進行安裝,然後再執行 gemini 命令:

" npm install -g @google/gemini-cli"

快速啟動

命令提示字元下 執行 "gemini"

設定與驗證

  • 選擇顏色主題:啟動後,您可以選擇喜歡的介面顏色主題。
  • 登入驗證:依照提示使用您的 Google 帳戶登入。這將讓您每分鐘最多發送 60 個模型請求,每天最多 1,000 個模型請求。

完成以上步驟,您就可以開始使用 Gemini CLI 了!

gemini-cli-start

選擇主題與登入授權

接著選擇主題,然後就是選擇 Auth Method(授權方法),有三種登入方式:

  • Login with Google:使用你的 Google 帳號登入(不需要 API key)
  • Gemini API Key:如果你有申請 Gemini API(透過 Google AI Studio)
  • More...:其他較進階的登入方式
auth method

這邊會開啟瀏覽器授權,看到以下畫面就授權成功了。

login with google

接著你就可以看到以下對話框,可以開始對話了!

先輸入 /help 可以查看所有可用指令與使用說明。

help

Gemini CLI 使用指南

以下是 Gemini CLI 的基本功能、指令和鍵盤快捷鍵:

基本功能 (Basics)

  • 新增上下文 (Add context):使用 @ 符號來指定檔案或資料夾作為上下文。例如:@src/myFile.ts 可以針對特定檔案或資料夾提供上下文資訊給 Gemini。
  • Shell 模式 (Shell mode):透過 ! 符號來執行終端機命令。例如:!npm run start。你也可以使用自然語言,例如:啟動伺服器。

命令 (Commands)

  • /help:顯示 Gemini CLI 的所有幫助資訊。
  • /docs:在瀏覽器中開啟完整的 Gemini CLI 文件。
  • /clear:清除螢幕並清除對話歷史記錄。
  • /theme:更改介面主題顏色。
  • /auth:更改身份驗證方式。
  • /editor:設定外部編輯器偏好設定。
  • /privacy:顯示隱私權聲明。
  • /stats:查看會話統計數據。
  • /mcp:列出已配置的 MCP (Model Context Protocol) 伺服器和工具。
  • /memory:管理記憶體。用法:/memory [要新增的文字]。
  • /tools:列出所有可用的 Gemini CLI 工具。
  • /about:顯示版本資訊。
  • /bug:提交錯誤報告。
  • /chat:管理對話歷史記錄。用法:/chat [標籤]。
  • /compress:透過將上下文替換為摘要來壓縮上下文。
  • !:執行 Shell 命令。

打造一個能寫貪食蛇遊戲的 AI Agent

讓我們將 Gemini CLI 的應用提升到一個更進階的層次:打造一個能夠生成並輔助開發「貪食蛇遊戲」程式碼的 AI Agent。這將展示 Gemini 模型在程式碼生成方面的強大能力,以及您如何利用 Gemini CLI 來驅動這類複雜的任務。

目標:讓 AI Agent 理解我們的需求,生成貪食蛇遊戲的 Python 程式碼,並在必要時提供修改建議。

核心實作概念:

  • 多輪對話與上下文管理:AI Agent 需要記住之前的對話內容,以便理解後續的請求。
  • 精確的提示詞工程:為了讓 Gemini 生成正確且可運行的程式碼,提示詞必須非常具體。
  • 程式碼執行與驗證(可選但推薦):更進階的 AI Agent 甚至可以在生成程式碼後,嘗試執行並除錯。
make-snake-game

要求Gemini CLI 製作一個簡單的貪食蛇遊戲,Gemini CLI會跟你說明他的技術選擇跟和新功能、並且在視覺上如何呈現,最後說明檔案結構。

make-snake-game-1st

第一次執行的問題

一開始開啟網頁時,遊戲立即啟動且很快就結束,沒有任何提示或重新開始的按鈕,導致玩家還沒反應就 Game Over。

第一次產生的遊戲,網頁一開啟就結束了,沒有設置任何重新開始的按鈕,所以還來不及反應的話就會結束

snake-game-first

提出修正請求

我們請 Gemini CLI 加入 reset 機制,並說明錯誤原因如下:

  • 問題原因:初始狀態直接進入遊戲迴圈,未給玩家準備時間或提供重新開始的機制。
  • 解決方法:加入「Restart」按鈕、暫停與重新啟動控制流程,並增加分數記錄。

Gemini CLI 隨即回應,並自動修改程式碼,新增以下功能:

  • 畫面中央顯示 Restart 按鈕,遊戲結束後可以重新開始。
  • 新增分數統計功能,畫面右上角顯示目前得分。
  • 修正初始化與結束邏輯,避免遊戲閃現即終止。
make-snake-game-retry

最終結果

經過修正後,成功產出一款可正常遊玩的貪食蛇遊戲,具備:

  • 操作順暢的方向控制
  • 計分系統與即時更新
  • Restart 按鈕讓玩家可反覆挑戰
  • 介面風格簡潔,遊戲體驗接近 Nokia 經典版本

這次任務展示了 Gemini CLI 協助開發互動式應用的實力,從錯誤識別到功能完善,全自動完成流程。

snake-game

Gemini CLI 與 ChatGPT 的差異:為什麼它更適合開發 AI Agent?

在 AI 領域,Gemini CLI 和 ChatGPT 都是強大的工具,但它們在設計理念和應用場景上有所不同,這也決定了它們在開發 AI Agent 時的適用性。

ChatGPT(透過其 API 或網頁介面)

ChatGPT 主要專注於對話與使用者體驗,其設計初衷是提供流暢、自然的多輪對話能力,並透過極為直觀易用的網頁介面吸引用戶,API 方面也相當適合開發者快速整合對話功能,對多數一般使用者而言,ChatGPT 更像是一個「即用即聊」的黑箱服務,雖然開發者可以透過 API 傳送提示詞,但對模型行為的細緻控制能力相對有限。因此, ChatGPT 更適合用於直接面向終端使用者的智能對話應用,或用於快速驗證對話式應用的原型設計與概念開發

Gemini CLI(與其底層的 Gemini API)

Gemini CLI 是專為開發者設計的工具,提供命令列介面,直接暴露 Gemini API 的功能,從設計之初就著重於程式化、自動化和靈活整合的能力。它具備高度可控性,開發者可透過 CLI 或 Python 函式庫,精準控制模型的各項參數,如 temperature、top_p、top_k,並能處理多模態輸入(例如圖片),甚至利用函數呼叫來進一步擴充模型的行動能力。 此外,Gemini CLI 採模組化設計,宛如開發者手中的樂高積木,可輕鬆嵌入現有工作流程、腳本、自動化系統或大型應用中,不僅支援文字生成,亦能產出程式碼與文字檔,處理複雜的輸入與輸出結構。透過 CLI,開發者也能更直接接觸底層 Gemini 模型,對於需要高度客製化與最佳化 AI Agent 行為的應用場景尤為重要。

為什麼 Gemini CLI 更適合開發 AI Agent?

Gemini CLI 具備多項特性,使其成為開發 AI Agent 的理想工具。首先,在自動化與腳本化方面,它讓開發者能夠輕鬆地將 AI 模型呼叫嵌入任意腳本中,達成無需人工干預的任務執行流程。其細緻的參數控制功能,則為 AI Agent 的行為調校提供極高的自由度,能依據任務需求靈活調整模型的回應方式。對於需要處理多種資料類型的應用, Gemini CLI 背後的模型亦支援強大的多模態能力,可理解並生成文字、圖片、PDF 與程式碼等內容(目前尚未支援影片與音訊)。進一步來說,它的函數呼叫功能更是關鍵,允許模型依情境決定是否呼叫外部工具或函式,像是查詢資料庫、發送郵件或執行命令,讓 AI Agent 真正具備實際執行任務的能力 。最後,作為 Google AI 生態系統的一環,Gemini CLI 建構於穩定的雲端基礎設施之上,並與多元的開發工具鏈高度整合,使得部署與擴充 AI Agent 更加順暢且具可擴展性。

總之,如果您的目標是建立一個能夠自動執行任務、與外部系統互動、並需要高度客製化行為的 AI Agent,那麼 Gemini CLI 以其程式化、可控性和整合性,無疑是比主要側重於對話的 ChatGPT 更為合適和強大的選擇。

Gemini CLI 將如何重塑 AI 工具開發生態?

Gemini CLI 不僅是當前一個強大的工具,它更承載著重塑未來 AI 工具開發生態的巨大潛力。隨著 AI 技術的飛速發展,我們正從單純的「使用 AI」轉向「利用 AI 開發 AI Agent 和智能工具」的時代 ,而 Gemini CLI 正是這場轉變中的關鍵催化劑。

以下是 Gemini CLI 可能會如何影響未來 AI 開發生態的幾個關鍵方面:

加速 AI Agent 的普及化與客製化:

  • 門檻降低:透過標準化的命令列介面,非 AI 領域的開發者也能更容易地將 AI 能力融入其應用,從而加速各行各業中 AI Agent 的開發和部署。
  • 專業化 Agent:我們將看到更多針對特定領域(如法律、醫療、金融)高度客製化的 AI Agent 出現,它們將能執行更精確、更專業的任務。

推動 AI 優先的開發範式(AI-First Development):

  • 傳統的軟體開發通常是先設計應用邏輯,再考慮如何整合 AI。Gemini CLI 將鼓勵開發者在設計之初就思考如何將 AI 作為核心組件,讓 AI Agent 成為應用程式的核心驅動力。
  • 這將催生更多「由 AI 定義功能,由人微調和監督」的應用模式。

強化多模態 AI 的應用廣度:

  • 隨著 Gemini 模型本身在處理多模態資訊方面的進步,Gemini CLI 將成為開發者建構能理解並生成文本、圖像、音訊甚至影片等多元數據的 AI Agent 的利器。
  • 這將打開全新的應用場景,例如視覺內容分析 Agent、智能語音助理的進階版本等。

促進開源協作與工具鏈整合:

  • 作為一個命令列工具,Gemini CLI 天然適合與各種現有的開源工具、CI/CD 管道和自動化腳本整合。
  • 這將鼓勵開發者圍繞 Gemini CLI 建立更豐富的開源工具和函式庫生態系統,進一步降低開發複雜性。

重新定義開發者與 AI 的互動方式:

  • 開發者將不再僅僅是 AI 模型的消費者,而是 AI 模型的「編排者」和「導演」。
  • 他們將透過 Gemini CLI 精心設計提示詞、設定模型參數,並將 AI Agent 編織到更複雜的系統中。
  • 這將促使開發者社群共享更多關於「提示詞工程」、「Agent 設計模式」的最佳實踐。

邊緣 AI 與嵌入式 Agent 的發展:

  • 隨著模型壓縮和推理效率的提升,未來可能會出現輕量級的 Gemini 模型版本,搭配 Gemini CLI 在邊緣設備上運行,從而實現更即時、更低延遲的本地 AI Agent。

總而言之, Gemini CLI 不僅僅是一個工具,它更是一個引領 AI Agent 時代到來的關鍵基礎設施。它將 empower 開發者以更靈活、更高效、更具創造力的方式,去設計、建構和部署下一代智能應用,從而真正重塑我們所知的 AI 工具開發生態

開始你的 AI Agent 開發之旅!

試試看下載 Gemini CLI,親手打造屬於你的 AI Agent。如果你想體驗更方便的 UI 介面,不妨預約試用我們正在開發中的 GenApe AI Agent,探索更多自動化與智能整合的可能性!

預約 GenApe AI Agent 試用

立即使用GenApe AI,提升生產力和創造力!

與AI合作,加速你的工作流程!

相關文章

defaultImage

Google AI工具大更新!Veo 3 的功能有哪些?Gemini 2.5 能用在哪些地方?

Google I/O 開發者大會上,AI 工具迎來重大升級,推出備受矚目的 Veo 3、Gemini 2.5、Imagen 4 與全新的 AI 創作平台 Google AI Studio。 這波更新不僅提升了 AI 模型的多模態能力,更開啟了視覺生成、語言理解與工作流程自動化的新時代,現在就帶你深入了解這些工具的強大功能與應用場景!

最後更新: 2025/05/27

defaultImage

AI 聊天免費推薦:6 款熱門選擇,ChatGPT、Deepseek、Gemini 誰最強?

近年來,AI聊天機器人成為熱門話題,從OpenAI的ChatGPT、Google的Gemini,到近來備受矚目的Deepseek,各家科技巨頭都紛紛推出自己的AI天工具,聊讓選擇變得更加多元,但這些AI聊天機器人有何不同?哪一款最適合你的需求?本文將解析AI聊天機器人的運作原理、應用場景,並推薦6款熱門AI聊天機器人,幫助你找到最理想的選擇!

最後更新: 2025/04/11

defaultImage

Landing Page是什麼?Landing Page設計、範例提高轉換率技巧

在數位行銷聽到會需要製作Landing Page,好的Landing Page(著陸頁)是可幫助品牌達到好的轉換效果,如:電商交易或訂閱電子報等,本文會以深入探討 Landing Page 重要性、與一般網站的區別、提供Landing Page範例,以及如何運用設計技巧來提高轉換率。

最後更新: 2025/04/07

分類

  • GenApe教學

  • 案例分享

  • 電商行銷

  • 文案寫作

  • 社群廣告

  • 影音創作

  • AI工具

Assistant
LineButton