注册并获得 10000 个免费 tokens!

用 Gemini CLI 快速打造 AI Agent,从终端机部署到实战案例

首页 » 教学文章 » 用 Gemini CLI 快速打造 AI Agent,从终端机部署到实战案例
CalendarIcon

2025/07/01

what-is-gemini-cli
#GeminiCLI#AI生成#AI Agent#AI自动化

在 AI 工具日新月异的今天,开发者需要一套既简洁又高效的方式来构建智能代理系统。 Gemini CLI 正是为此而生,这款由 Google 推出的开源命令列工具,能协助你快速开发、部署并测试 AI Agent,从终端机直接操控你的 AI 脑袋。不论你是想打造聊天机器人、自动化任务处理器,还是专属的资料助手,Gemini CLI 都能让开发流程变得直观又灵活。 本文将带你一步步从安装 Gemini CLI 到撰写实际 AI Agent 程式码,并透过实战案例教你如何在终端机部署一个可运作的AI代理,现在就开启你的 AI Agent 开发之旅吧!

文章目录
  1. Gemini CLI 能做什么?释放 AI Agent 的强大潜力
  2. Gemini CLI 安装与快速上手
  3. 选择主题与登入授权
  4. Gemini CLI 使用指南
  5. 打造一个能写贪食蛇游戏的 AI Agent
  6. Gemini CLI 与 ChatGPT 的差异:为什么它更适合开发 AI Agent?
  7. Gemini CLI 将如何重塑 AI 工具开发生态?

Gemini CLI 能做什么?释放 AI Agent 的强大潜力

Gemini CLI (Command Line Interface) 是 Google 开发的开源工具,让你直接透过终端机与强大的 Gemini AI 模型互动,并以此为基础开发和管理各种 AI Agent 。它简化了 AI 操作,让你在终端机中就能完成复杂的 AI 任务。

1. 聊天问答与内容生成

Gemini CLI 让你在终端机里就能与 AI 对话:

  • 自然语言互动: 直接提问,快速获取答案,无论是资料查询、问题解决还是创意写作。
  • 多样内容生成: 不仅是文本,它还能生成程式码、脚本、图片描述,甚至结合 Imagen 等模型生成图片和影片。

2. 程式码辅助与开发流程优化

它是工程师的得力助手,大幅提升效率:

  • 程式码理解与生成: 阅读、理解、修改、生成程式码,协助你解释复杂程式、重构、修复 Bug。
  • 除错与自动化: 直接将错误讯息给它,获取解决方案。将指令嵌入脚本,自动化单元测试、文件生成等重复性编码任务。

3. 结合外部工具与资讯来源

Gemini CLI 具备强大扩展性,能与多种工具整合:

  • 内建 Google Search: 整合搜寻功能,AI 能参考即时网页资料,确保资讯即时与可靠,对需要最新资讯的 AI Agent 至关重要。
  • 执行终端机指令: 透过特定语法,AI Agent 不仅能生成内容,还能执行实际系统操作。
  • 扩展功能: 支援 MCP 和内建扩充,能连接外部资料库、API,让 AI Agent 读取档案、管理资料或与第三方服务互动。

4. 开发 AI Agent

它是开发 AI Agent 的核心工具:

  • 核心驱动: 提供程式化、高可控性介面,让你设计 AI Agent 行为、串联多步骤任务并部署。
  • 多步骤推理: 透过内建工具和 ReAct 循环,帮助 AI Agent 完成复杂的多步骤任务,如分析需求、生成方案、执行指令和验证结果。

Gemini CLI 是一款多功能工具,将 Google Gemini AI 的强大能力带入开发者的终端机工作流程,提升生产力,简化 AI 任务,并为打造自动化、智能化的 AI Agent 提供坚实基础。

Gemini CLI 安装与快速上手

以下是安装和启动 Gemini CLI 的步骤:

事前准备

  • Node.js 版本需求:请确认您的电脑已安装 Node.js 18 版或更高版本。

执行 CLI

您可以选择以下任一方式来执行 Gemini CLI:

  • 直接执行:在您的终端机中输入以下指令:

npx https://github.com/google-gemini/gemini-cli

或者

  • 全域安装:输入以下指令进行安装,然后再执行 gemini 命令:

" npm install -g @google/gemini-cli"

快速启动

命令提示字元下 执行 "gemini"

设定与验证

  • 选择颜色主题:启动后,您可以选择喜欢的介面颜色主题。
  • 登入验证:依照提示使用您的 Google 帐户登入。这将让您每分钟最多发送 60 个模型请求,每天最多 1,000 个模型请求。

完成以上步骤,您就可以开始使用 Gemini CLI 了!

gemini-cli-start

选择主题与登入授权

接著选择主题,然后就是选择 Auth Method(授权方法),有三种登入方式:

  • Login with Google:使用你的 Google 帐号登入(不需要 API key)
  • Gemini API Key:如果你有申请 Gemini API(透过 Google AI Studio)
  • More...:其他较进阶的登入方式
auth method

这边会开启浏览器授权,看到以下画面就授权成功了。

login with google

接著你就可以看到以下对话框,可以开始对话了!

先输入 /help 可以查看所有可用指令与使用说明。

help

Gemini CLI 使用指南

以下是 Gemini CLI 的基本功能、指令和键盘快捷键:

基本功能 (Basics)

  • 新增上下文 (Add context):使用 @ 符号来指定档案或资料夹作为上下文。例如:@src/myFile.ts 可以针对特定档案或资料夹提供上下文资讯给 Gemini。
  • Shell 模式 (Shell mode):透过 ! 符号来执行终端机命令。例如:!npm run start。你也可以使用自然语言,例如:启动伺服器。

命令 (Commands)

  • /help:显示 Gemini CLI 的所有帮助资讯。
  • /docs:在浏览器中开启完整的 Gemini CLI 文件。
  • /clear:清除萤幕并清除对话历史记录。
  • /theme:更改介面主题颜色。
  • /auth:更改身份验证方式。
  • /editor:设定外部编辑器偏好设定。
  • /privacy:显示隐私权声明。
  • /stats:查看会话统计数据。
  • /mcp:列出已配置的 MCP (Model Context Protocol) 伺服器和工具。
  • /memory:管理记忆体。用法:/memory [要新增的文字]。
  • /tools:列出所有可用的 Gemini CLI 工具。
  • /about:显示版本资讯。
  • /bug:提交错误报告。
  • /chat:管理对话历史记录。用法:/chat [标签]。
  • /compress:透过将上下文替换为摘要来压缩上下文。
  • !:执行 Shell 命令。

打造一个能写贪食蛇游戏的 AI Agent

让我们将 Gemini CLI 的应用提升到一个更进阶的层次:打造一个能够生成并辅助开发「贪食蛇游戏」程式码的 AI Agent。这将展示 Gemini 模型在程式码生成方面的强大能力,以及您如何利用 Gemini CLI 来驱动这类复杂的任务。

目标:让 AI Agent 理解我们的需求,生成贪食蛇游戏的 Python 程式码,并在必要时提供修改建议。

核心实作概念:

  • 多轮对话与上下文管理:AI Agent 需要记住之前的对话内容,以便理解后续的请求。
  • 精确的提示词工程:为了让 Gemini 生成正确且可运行的程式码,提示词必须非常具体。
  • 程式码执行与验证(可选但推荐):更进阶的 AI Agent 甚至可以在生成程式码后,尝试执行并除错。
make-snake-game

要求Gemini CLI 制作一个简单的贪食蛇游戏,Gemini CLI会跟你说明他的技术选择跟和新功能、并且在视觉上如何呈现,最后说明档案结构。

make-snake-game-1st

第一次执行的问题

一开始开启网页时,游戏立即启动且很快就结束,没有任何提示或重新开始的按钮,导致玩家还没反应就 Game Over。

第一次产生的游戏,网页一开启就结束了,没有设置任何重新开始的按钮,所以还来不及反应的话就会结束

snake-game-first

提出修正请求

我们请 Gemini CLI 加入 reset 机制,并说明错误原因如下:

  • 问题原因:初始状态直接进入游戏回圈,未给玩家准备时间或提供重新开始的机制。
  • 解决方法:加入「Restart」按钮、暂停与重新启动控制流程,并增加分数记录。

Gemini CLI 随即回应,并自动修改程式码,新增以下功能:

  • 画面中央显示 Restart 按钮,游戏结束后可以重新开始。
  • 新增分数统计功能,画面右上角显示目前得分。
  • 修正初始化与结束逻辑,避免游戏闪现即终止。
make-snake-game-retry

最终结果

经过修正后,成功产出一款可正常游玩的贪食蛇游戏,具备:

  • 操作顺畅的方向控制
  • 计分系统与即时更新
  • Restart 按钮让玩家可反复挑战
  • 介面风格简洁,游戏体验接近 Nokia 经典版本

这次任务展示了 Gemini CLI 协助开发互动式应用的实力,从错误识别到功能完善,全自动完成流程。

snake-game

Gemini CLI 与 ChatGPT 的差异:为什么它更适合开发 AI Agent?

在 AI 领域,Gemini CLI 和 ChatGPT 都是强大的工具,但它们在设计理念和应用场景上有所不同,这也决定了它们在开发 AI Agent 时的适用性。

ChatGPT(透过其 API 或网页介面)

ChatGPT 主要专注于对话与使用者体验,其设计初衷是提供流畅、自然的多轮对话能力,并透过极为直观易用的网页介面吸引用户,API 方面也相当适合开发者快速整合对话功能,对多数一般使用者而言,ChatGPT 更像是一个「即用即聊」的黑箱服务,虽然开发者可以透过 API 传送提示词,但对模型行为的细致控制能力相对有限。因此, ChatGPT 更适合用于直接面向终端使用者的智能对话应用,或用于快速验证对话式应用的原型设计与概念开发

Gemini CLI(与其底层的 Gemini API)

Gemini CLI 是专为开发者设计的工具,提供命令列介面,直接暴露 Gemini API 的功能,从设计之初就著重于程式化、自动化和灵活整合的能力。它具备高度可控性,开发者可透过 CLI 或 Python 函式库,精准控制模型的各项参数,如 temperature、top_p、top_k,并能处理多模态输入(例如图片),甚至利用函数呼叫来进一步扩充模型的行动能力。 此外,Gemini CLI 采模组化设计,宛如开发者手中的乐高积木,可轻松嵌入现有工作流程、脚本、自动化系统或大型应用中,不仅支援文字生成,亦能产出程式码与文字档,处理复杂的输入与输出结构。透过 CLI,开发者也能更直接接触底层 Gemini 模型,对于需要高度客制化与最佳化 AI Agent 行为的应用场景尤为重要。

为什么 Gemini CLI 更适合开发 AI Agent?

Gemini CLI 具备多项特性,使其成为开发 AI Agent 的理想工具。首先,在自动化与脚本化方面,它让开发者能够轻松地将 AI 模型呼叫嵌入任意脚本中,达成无需人工干预的任务执行流程。其细致的参数控制功能,则为 AI Agent 的行为调校提供极高的自由度,能依据任务需求灵活调整模型的回应方式。对于需要处理多种资料类型的应用, Gemini CLI 背后的模型亦支援强大的多模态能力,可理解并生成文字、图片、PDF 与程式码等内容(目前尚未支援影片与音讯)。进一步来说,它的函数呼叫功能更是关键,允许模型依情境决定是否呼叫外部工具或函式,像是查询资料库、发送邮件或执行命令,让 AI Agent 真正具备实际执行任务的能力 。最后,作为 Google AI 生态系统的一环,Gemini CLI 建构于稳定的云端基础设施之上,并与多元的开发工具链高度整合,使得部署与扩充 AI Agent 更加顺畅且具可扩展性。

总之,如果您的目标是建立一个能够自动执行任务、与外部系统互动、并需要高度客制化行为的 AI Agent,那么 Gemini CLI 以其程式化、可控性和整合性,无疑是比主要侧重于对话的 ChatGPT 更为合适和强大的选择。

Gemini CLI 将如何重塑 AI 工具开发生态?

Gemini CLI 不仅是当前一个强大的工具,它更承载著重塑未来 AI 工具开发生态的巨大潜力。随著 AI 技术的飞速发展,我们正从单纯的「使用 AI」转向「利用 AI 开发 AI Agent 和智能工具」的时代 ,而 Gemini CLI 正是这场转变中的关键催化剂。

以下是 Gemini CLI 可能会如何影响未来 AI 开发生态的几个关键方面:

加速 AI Agent 的普及化与客制化:

  • 门槛降低:透过标准化的命令列介面,非 AI 领域的开发者也能更容易地将 AI 能力融入其应用,从而加速各行各业中 AI Agent 的开发和部署。
  • 专业化 Agent:我们将看到更多针对特定领域(如法律、医疗、金融)高度客制化的 AI Agent 出现,它们将能执行更精确、更专业的任务。

推动 AI 优先的开发范式(AI-First Development):

  • 传统的软体开发通常是先设计应用逻辑,再考虑如何整合 AI。Gemini CLI 将鼓励开发者在设计之初就思考如何将 AI 作为核心组件,让 AI Agent 成为应用程式的核心驱动力。
  • 这将催生更多「由 AI 定义功能,由人微调和监督」的应用模式。

强化多模态 AI 的应用广度:

  • 随著 Gemini 模型本身在处理多模态资讯方面的进步,Gemini CLI 将成为开发者建构能理解并生成文本、图像、音讯甚至影片等多元数据的 AI Agent 的利器。
  • 这将打开全新的应用场景,例如视觉内容分析 Agent、智能语音助理的进阶版本等。

促进开源协作与工具链整合:

  • 作为一个命令列工具,Gemini CLI 天然适合与各种现有的开源工具、CI/CD 管道和自动化脚本整合。
  • 这将鼓励开发者围绕 Gemini CLI 建立更丰富的开源工具和函式库生态系统,进一步降低开发复杂性。

重新定义开发者与 AI 的互动方式:

  • 开发者将不再仅仅是 AI 模型的消费者,而是 AI 模型的「编排者」和「导演」。
  • 他们将透过 Gemini CLI 精心设计提示词、设定模型参数,并将 AI Agent 编织到更复杂的系统中。
  • 这将促使开发者社群共享更多关于「提示词工程」、「Agent 设计模式」的最佳实践。

边缘 AI 与嵌入式 Agent 的发展:

  • 随著模型压缩和推理效率的提升,未来可能会出现轻量级的 Gemini 模型版本,搭配 Gemini CLI 在边缘设备上运行,从而实现更即时、更低延迟的本地 AI Agent。

总而言之, Gemini CLI 不仅仅是一个工具,它更是一个引领 AI Agent 时代到来的关键基础设施。它将 empower 开发者以更灵活、更高效、更具创造力的方式,去设计、建构和部署下一代智能应用,从而真正重塑我们所知的 AI 工具开发生态

开始你的 AI Agent 开发之旅!

试试看下载 Gemini CLI,亲手打造属于你的 AI Agent。如果你想体验更方便的 UI 介面,不妨预约试用我们正在开发中的 GenApe AI Agent,探索更多自动化与智能整合的可能性!

预约 GenApe AI Agent 试用

立即使用GenApe AI,提升生产力和创造力!

与AI合作,加速你的工作流程!

相关文章

defaultImage

AI Overview 是什么?Google AI 概览全面解析及使用方法说明!

AI 概览(AI Overview)是 Google 推出的生成式 AI 功能,旨在全面提升用户的搜索体验。本文将从 AI 概览的定义、工作原理、展示样式、对 SEO 的影响、网站应对策略、在中国台湾的应用现状,以及未来发展趋势等多个维度,深入解析这项正在重塑搜索行业的新兴技术。 现在就一起来看看 AI Overview 到底是什么,以及 AI overviews 怎么用吧!

最后更新: 2025/06/06

defaultImage

AI 聊天免费推荐:6 款热门选择,ChatGPT、Deepseek、Gemini 谁最强?

近年来,AI聊天机器人成为热门话题,从OpenAI的ChatGPT、Google的Gemini,到近来备受瞩目的Deepseek,各家科技巨头都纷纷推出自己的AI天工具,聊让选择变得更加多元,但这些AI聊天机器人有何不同?哪一款最适合你的需求?本文将解析AI聊天机器人的运作原理、应用场景,并推荐6款热门AI聊天机器人,帮助你找到最理想的选择!

最后更新: 2025/04/07

defaultImage

Landing Page是什么?Landing Page设计、范例提高转换率技巧

在数位行销听到会需要制作Landing Page,好的Landing Page(著陆页)是可帮助品牌达到好的转换效果,如:电商交易或订阅电子报等,本文会以深入探讨 Landing Page 重要性、与一般网站的区别、提供Landing Page范例,以及如何运用设计技巧来提高转换率。

最后更新: 2025/04/07

分类

  • GenApe教学

  • 案例分享

  • 电商行销

  • 文案写作

  • 社群广告

  • 影音创作

  • AI工具

Assistant
LineButton