GUI 桌面自动化实战：用 DesireCore 打通跨应用工作流

2026/4/2 · DesireCore

GUI自动化Computer UseHostAgent工作流跨应用

GUI 桌面自动化实战：用 DesireCore 打通跨应用工作流

在数字化转型的浪潮中，企业和个人都面临着一个共同的挑战：大量重复性的手工操作占据了宝贵的工作时间。从逐条录入客户信息到在多个应用之间复制粘贴数据，从每天检查监控面板到批量处理文档报表——这些机械、枯燥却又不可或缺的任务，正在消耗着知识工作者的创造力和精力。

传统的 RPA（机器人流程自动化）工具试图解决这个问题，但它们往往需要复杂的脚本编写、精确的像素坐标定位，且一旦界面发生微小变化就会导致流程崩溃。更重要的是，传统 RPA 缺乏”理解”能力——它只是机械地执行预设的步骤，无法在面对意外情况时做出灵活判断。

DesireCore 提出了一种全新的解决方案：AI 原生的 GUI 桌面自动化。通过 Computer Use 功能，DesireCore 的 AI 智能体能够”像人一样操作电脑和手机的图形界面”，不仅能看懂屏幕上的内容，还能根据上下文做出智能决策。结合智能任务编排引擎，单步操作可以被组织成复杂的跨应用工作流，真正实现端到端的自动化。

本文将从概念解析、安装配置、操作能力、实战案例到安全机制，全面介绍如何利用 DesireCore 打通跨应用工作流，帮助你彻底告别重复性手工操作。

第一部分：Computer Use 是什么——远程桌面的智能版

从远程桌面到智能操控

如果你使用过 TeamViewer、向日葵或 Windows 远程桌面，那么你已经对”远程操控”这个概念并不陌生。传统远程桌面允许你通过网络连接到另一台电脑，然后用鼠标和键盘控制它的图形界面。

Computer Use 五步工作流程

DesireCore 的 Computer Use 功能可以被理解为**“远程桌面的智能版”**。与传统远程桌面不同的是，操控者不再是人类，而是一个具备视觉理解能力的 AI 智能体。这个智能体可以：

看懂屏幕内容：通过截图识别技术，AI 能够理解当前屏幕上显示了什么——文本、按钮、输入框、下拉菜单、表格，甚至图表和图片中的信息。
理解操作上下文：AI 不只是识别单个元素，它能理解整个页面的布局和逻辑关系，知道当前处于哪个应用的哪个界面，正在执行什么任务。
做出智能决策：面对意外弹窗、加载延迟、界面变化等情况，AI 可以根据当前状态灵活调整操作策略，而不是像传统 RPA 那样直接报错停止。
自然语言交互：你不需要编写任何脚本或代码，只需用自然语言描述你想要完成的任务，AI 就能自动规划并执行相应的操作。

Computer Use 的工作流程

DesireCore 的 Computer Use 遵循一个清晰的五步工作流程：

第一步：用户下达任务。 你通过自然语言向 AI 智能体描述需要完成的工作。例如：“帮我把这份 Excel 表格里的客户信息逐条录入到 CRM 系统中。”

第二步：智能体制定操作计划。 AI 分析任务需求，将复杂任务拆解为一系列具体的操作步骤。它会考虑需要打开哪些应用、操作的先后顺序、可能遇到的异常情况及应对方案。

第三步：HostAgent 执行操作。 安装在目标设备上的 HostAgent 插件接收智能体发出的操作指令，在设备的图形界面上执行具体操作——移动鼠标、点击按钮、输入文字、切换窗口等。

第四步：截图回传与验证。 每执行一步操作后，HostAgent 会截取当前屏幕画面并回传给智能体。智能体通过视觉识别确认操作是否成功执行，以及当前界面状态是否符合预期。

第五步：结果汇报。 任务完成后，智能体向用户汇报执行结果，包括成功完成了哪些操作、遇到了哪些问题、以及最终的执行状态。

这个流程的核心优势在于闭环验证。传统 RPA 通常是”盲操作”——执行完预设步骤后并不确认结果是否正确。而 DesireCore 的每一步操作都伴随着视觉验证，确保操作的准确性和可靠性。

为什么不直接调用 API？

有人可能会问：既然可以调用 API 直接操作数据，为什么还需要通过 GUI 界面来操作？答案是：并非所有系统都提供 API。

在现实工作场景中，大量企业内部系统、老旧的遗留应用、第三方 SaaS 服务，要么没有开放 API，要么 API 功能不完整，要么 API 调用需要复杂的审批流程。而 GUI 界面是几乎所有应用都具备的交互方式。通过 Computer Use，DesireCore 可以操作任何有图形界面的应用，不受 API 限制，真正实现了”万能连接器”的角色。

此外，许多操作本身就是 GUI 层面的——例如在特定应用中生成报表然后导出 PDF，或者在网页上填写一个需要动态交互的多步骤表单。这些操作即使有 API，通过 GUI 自动化反而更加直观和可靠。

第二部分：HostAgent 安装配置完全指南

什么是 HostAgent？

HostAgent 是 DesireCore Computer Use 功能的执行引擎，它是一个轻量级的客户端插件，需要安装在你希望被自动化操作的目标设备上。你可以把它理解为 AI 智能体在目标设备上的”双手”——智能体的大脑在云端，但实际的鼠标点击、键盘输入等操作，都是通过 HostAgent 在本地执行的。

HostAgent 的设计遵循以下原则：

轻量级：安装包体积小，运行时资源占用低，不影响设备的正常使用。
安全性：所有通信都经过加密，操作执行遵循最小权限原则。
跨平台：支持 Windows、macOS、Linux、Android、iOS 和 HarmonyOS 六大平台。

三步完成安装配置

无论你使用哪个平台，HostAgent 的安装配置都遵循统一的三步流程：

第一步：下载并安装 HostAgent

访问 DesireCore 官网的下载页面，根据你的目标设备操作系统选择对应的安装包。

Windows 平台：

下载 .exe 安装程序
双击运行安装向导，按照提示完成安装
安装完成后，HostAgent 会在系统托盘中显示图标
建议将 HostAgent 设置为开机自启动，确保随时可用

macOS 平台：

下载 .dmg 安装镜像
打开镜像文件，将 HostAgent 拖入”应用程序”文件夹
首次运行时，macOS 可能提示”无法验证开发者”，需要在”系统设置 → 隐私与安全性”中允许运行
HostAgent 会出现在菜单栏中

Linux 平台：

提供 .deb（Debian/Ubuntu）和 .rpm（Fedora/CentOS）两种安装包
使用对应的包管理器安装：sudo dpkg -i hostagent.deb 或 sudo rpm -i hostagent.rpm
安装后通过 systemctl start hostagent 启动服务
使用 systemctl enable hostagent 设置开机自启

Android 平台：

从 DesireCore 官网下载 APK 安装包（Google Play 版本也在审核中）
允许”安装未知来源应用”后进行安装
打开应用后会引导完成初始化设置

iOS 平台：

通过 TestFlight 或企业签名方式安装（App Store 版本审核中）
安装后打开应用，按照引导完成初始化

HarmonyOS 平台：

从 DesireCore 官网或华为应用商店下载安装
安装流程与 Android 类似

第二步：在 DesireCore 中添加设备并输入配对码

安装完成后，打开 HostAgent，你会看到一个配对码（一般为 6 位数字或字母组合）。这个配对码是一次性的，用于安全地将你的目标设备与 DesireCore 平台关联。

登录 DesireCore 客户端或网页端
进入”设备管理”页面
点击”添加新设备”
输入 HostAgent 显示的配对码
确认设备信息（操作系统、设备名称等）
点击”完成配对”

配对成功后，你会在设备管理列表中看到这台设备，其状态应显示为”在线”。你可以为每台设备设置一个便于识别的名称，例如”办公电脑-Windows”或”测试手机-Android”。

第三步：根据操作系统授予必要权限

这是最关键的一步。为了让 HostAgent 能够执行 GUI 操作，它需要获得操作系统层面的相关权限。不同平台所需的权限有所不同：

Windows 平台需要的权限：

管理员权限：部分应用（特别是以管理员身份运行的程序）需要 HostAgent 也具有管理员权限才能操作。建议首次使用时以管理员身份运行 HostAgent。
屏幕录制权限：Windows 10/11 通常默认允许屏幕截图，无需额外设置。
无障碍权限：HostAgent 会利用 Windows 的 UI Automation 接口来更精确地识别界面元素，系统通常会自动授权。

macOS 平台需要的权限：

辅助功能权限（Accessibility）：这是最核心的权限，允许 HostAgent 控制鼠标和键盘。前往”系统设置 → 隐私与安全性 → 辅助功能”，找到 HostAgent 并开启。
屏幕录制权限（Screen Recording）：允许 HostAgent 截取屏幕内容。前往”系统设置 → 隐私与安全性 → 屏幕录制”，找到 HostAgent 并开启。
自动化权限（Automation）：如果需要操作特定应用，macOS 可能会弹出授权提示，请选择允许。

Linux 平台需要的权限：

X11/Wayland 权限：在 X11 环境下通常自动具备操作权限。Wayland 环境需要额外配置，建议参考 DesireCore 文档中的 Wayland 配置指南。
输入设备权限：确保运行 HostAgent 的用户在 input 用户组中：sudo usermod -aG input $USER

Android 平台需要的权限：

无障碍服务权限：进入”设置 → 无障碍 → HostAgent”并开启。这是 Android 上实现 GUI 自动化的核心权限。
悬浮窗权限：允许 HostAgent 在其他应用上方显示状态指示器。
屏幕截图权限：首次使用时系统会弹出授权提示。
存储权限（如涉及文件操作）

iOS 平台需要的权限：

iOS 的权限管理较为严格，HostAgent 通过辅助功能 API 和快捷指令集成来实现自动化操作。
需要在”设置 → 辅助功能”中完成相应配置。

HarmonyOS 平台需要的权限：

与 Android 类似，需要授予无障碍服务、悬浮窗和屏幕截图权限。
HarmonyOS 的权限管理界面路径可能略有不同，请参照系统提示操作。

配置验证

完成上述三步后，你可以通过以下方式验证配置是否成功：

在 DesireCore 中选择已添加的设备
在对话框中输入一个简单的指令，例如”打开计算器”
观察目标设备是否成功打开了计算器应用

如果操作成功执行，说明 HostAgent 已经正确安装、配对并获得了必要权限，你可以开始使用 Computer Use 功能了。

多设备管理

DesireCore 支持同时管理多台设备。你可以在设备管理页面看到所有已配对设备的列表，以及它们的在线状态、操作系统信息和最近活动时间。在下达任务时，你可以指定在哪台设备上执行操作，也可以创建跨设备的工作流——例如，先在 Windows 电脑上从 ERP 系统导出数据，然后在 macOS 电脑上用特定软件处理数据，最后在 Android 手机上通过企业 IM 发送结果。

第三部分：操作能力全景——鼠标、键盘、截图、应用控制

DesireCore 的 Computer Use 功能提供了一套完整的 GUI 操作能力集，覆盖了人类在使用图形界面时可能执行的各类操作。下面我们逐一介绍这些能力。

鼠标操作

鼠标是 GUI 交互的基础工具，DesireCore 支持以下鼠标操作：

单击（Click）： 最基本的操作，用于点击按钮、选择菜单项、激活输入框等。智能体会先通过视觉识别定位目标元素的位置，然后指示 HostAgent 在该位置执行单击操作。

双击（Double Click）： 用于打开文件、选中单词等需要双击的场景。智能体能够判断当前操作是否需要双击而非单击。

右键点击（Right Click）： 打开上下文菜单（右键菜单），用于访问复制、粘贴、属性等快捷操作。智能体可以识别右键菜单中的选项并进行后续操作。

拖拽（Drag and Drop）： 将元素从一个位置拖动到另一个位置。常用于文件管理、界面布局调整、图表元素移动等场景。智能体会精确计算拖拽的起始点和目标点。

滚动（Scroll）： 向上、向下、向左或向右滚动页面或列表。当需要查看的内容超出可视区域时，智能体会自动判断滚动方向和距离。这对于处理长列表、长页面或大型表格尤其重要。

鼠标悬停（Hover）： 将鼠标移动到特定位置但不点击，用于触发工具提示（tooltip）、展开子菜单或激活悬停效果。

键盘输入

键盘操作覆盖了从简单的文字输入到复杂的快捷键组合：

文字输入（Type）： 在输入框、文本编辑器等位置输入文字内容。支持中文、英文及其他语言的输入。对于中文输入，HostAgent 可以通过剪贴板方式实现，避免输入法兼容问题。

快捷键（Shortcut）： 执行单个快捷键操作，如 Tab（切换焦点）、Enter（确认）、Escape（取消）、Delete（删除）等。

组合键（Key Combination）： 执行需要同时按下多个键的操作，如 Ctrl+C（复制）、Ctrl+V（粘贴）、Ctrl+S（保存）、Alt+Tab（切换窗口）、Ctrl+Shift+S（另存为）等。智能体能够根据任务需求智能选择合适的组合键。

特殊键操作： 支持功能键（F1-F12）、方向键、Page Up/Down、Home/End 等特殊键。

截图识别

截图识别是 Computer Use 的”眼睛”，也是实现闭环验证的基础：

全屏截图： 捕获整个屏幕的画面，用于获取全局视图和状态概览。

区域截图： 捕获屏幕特定区域的画面，用于聚焦分析某个特定的界面元素或区域。

元素识别： 基于截图内容，AI 能够识别出界面中的各种元素——按钮、输入框、文本标签、下拉菜单、复选框、单选按钮、表格行列、选项卡等。这种识别不依赖于固定的像素坐标，而是基于视觉语义理解，因此即使界面布局发生变化，也能准确定位目标元素。

文字识别（OCR）： 从截图中提取文字信息，用于读取界面上显示的数据、错误信息、状态提示等。这使得智能体能够”看懂”屏幕上的内容，做出基于信息的决策。

状态判断： 通过分析截图，判断当前操作是否成功。例如，表单提交后是否显示了成功提示、按钮点击后页面是否发生了预期的变化等。

应用操作

除了在应用内部进行操作，DesireCore 还能管理应用本身：

打开应用： 启动指定的桌面应用程序。智能体可以通过开始菜单、Dock 栏、桌面快捷方式或命令行来打开应用。

切换应用： 在多个已打开的应用之间切换。通过任务栏点击或 Alt+Tab 等方式快速切换到目标应用。

关闭应用： 关闭指定的应用程序，释放系统资源。智能体会确认是否需要保存数据后再关闭。

窗口管理： 调整应用窗口的大小和位置，最小化、最大化或还原窗口。在多显示器环境下还可以将窗口移动到指定的显示器上。

表单填写

表单填写是 GUI 自动化中最常见的需求之一，DesireCore 对此提供了专门的优化：

自动定位： 智能体能够识别表单中的各个字段及其标签，自动将输入光标定位到正确的输入框中。即使表单布局复杂、字段分布不规则，也能准确识别。

智能填充： 根据字段类型自动选择合适的填写方式：

文本框：直接输入文字
下拉菜单：展开选项列表并选择正确选项
复选框/单选按钮：根据需要勾选或取消
日期选择器：通过日期控件选择正确的日期
文件上传：选择指定的文件进行上传

数据校验： 填写后，智能体会检查是否有错误提示或校验警告，如有则自动修正或向用户报告。

文件操作

对于涉及文件系统的操作，DesireCore 同样提供了完整支持：

文件复制： 将文件从一个位置复制到另一个位置，可以通过文件管理器的 GUI 操作或快捷键完成。

文件移动： 将文件移动到指定目录，支持拖拽和剪切粘贴两种方式。

文件重命名： 选中文件后执行重命名操作，输入新的文件名。

批量操作： 对多个文件执行相同的操作，如批量重命名、批量移动到指定文件夹等。

操作能力的组合

以上单项操作能力可以被灵活组合，形成复杂的操作序列。例如，“打开 Chrome 浏览器 → 导航到某个网址 → 填写登录表单 → 点击登录 → 等待页面加载 → 在搜索框中输入关键词 → 滚动查看结果 → 将结果数据复制到 Excel”——这个完整的操作序列涉及了应用操作、键盘输入、鼠标点击、表单填写、滚动和文件操作等多种能力。DesireCore 的智能体能够自动规划并执行这样的复杂操作序列。

第四部分：智能任务编排——从单步操作到复杂工作流

单步的 GUI 操作虽然有用，但真正的生产力提升来自于将多个操作编排成完整的工作流。DesireCore 的智能任务编排引擎正是为此而设计的。

编排引擎的三大核心步骤

意图识别

当你向智能体描述任务时，编排引擎首先进行意图识别。它会分析你的自然语言描述，提取出以下关键信息：

目标：你希望达成什么结果？
输入数据：需要处理哪些数据或文件？
涉及的应用：任务需要在哪些应用中操作？
约束条件：有没有特殊的顺序要求、时间限制或质量标准？

例如，当你说”把这份客户名单从 Excel 导入到 Salesforce，确保每条记录的手机号格式正确”，编排引擎会识别出：目标是数据导入，输入数据是 Excel 文件中的客户名单，涉及 Excel 和 Salesforce 两个应用，约束条件是手机号格式需要校验。

任务拆解

识别意图后，编排引擎将整体任务拆解为一系列细粒度的子任务。每个子任务都是一个可独立执行和验证的操作单元。拆解时会考虑：

依赖关系：哪些子任务必须按顺序执行，哪些可以并行？
数据流转：上一步的输出如何成为下一步的输入？
容错策略：每个子任务失败后应该重试、跳过还是中止整个流程？
检查点：在哪些关键节点需要验证中间结果？

以上面的例子为继续说明，编排引擎可能将其拆解为：

打开 Excel 文件
读取第一行客户数据
校验手机号格式（如不正确则标记并记录）
打开 Salesforce 的新建客户页面
填写客户信息表单
提交表单并确认保存成功
返回 Excel，移动到下一行
重复步骤 2-7 直到所有行处理完毕
生成处理报告（成功 N 条，失败 M 条，失败原因列表）

能力自动匹配

拆解完成后，编排引擎会为每个子任务自动匹配最合适的执行能力。DesireCore 不仅提供 GUI 操作能力，还集成了多种工具和能力，包括：

Computer Use（GUI 操作）：当任务需要操作图形界面时使用
API 调用：当目标应用提供 API 且 API 方式更高效时优先使用
数据处理：对数据进行格式转换、校验、聚合等处理
文件处理：读取、写入、转换各种格式的文件
通知发送：通过邮件、即时通讯等方式发送通知

编排引擎会自动选择最优的能力组合。例如，读取 Excel 数据时优先使用文件处理能力（直接解析文件），而在 Salesforce 中填写表单则使用 Computer Use（因为需要操作 GUI）。如果 Salesforce 配置了 API 接入，系统可能会在”API 调用”和”GUI 操作”之间选择更高效的方案。

两种执行模式

DesireCore 的编排引擎支持两种执行模式，适应不同的自动化场景：

固化模式（SOP/Workflow）

固化模式适用于已经明确且需要反复执行的标准化流程。在这种模式下：

流程预定义：你可以先手动执行一遍操作，系统会记录整个操作序列并固化为标准流程（SOP）。
稳定可靠：每次执行都严格按照预定义的步骤进行，确保结果的一致性。
可调度：固化的工作流可以设置定时触发、事件触发或手动触发。
可优化：通过多次执行的数据反馈，可以持续优化流程的效率和准确性。

固化模式特别适合以下场景：

每天/每周需要重复执行的例行任务
有严格操作规范要求的合规性任务
需要多人遵循相同流程的团队协作任务
关键业务流程（如财务对账、订单处理等）

灵活模式（AI 驱动编排）

灵活模式利用 AI 的智能判断能力，根据实时情况动态规划操作步骤。在这种模式下：

动态规划：智能体根据当前屏幕状态和任务进展实时调整操作策略。
异常处理：遇到意外情况时，AI 可以自主判断如何应对，不需要预先定义所有可能的异常路径。
上下文感知：智能体会根据之前步骤的执行结果来调整后续操作，实现真正的自适应执行。
自然语言驱动：整个过程只需用自然语言描述任务目标，无需预先编排流程。

灵活模式特别适合以下场景：

首次执行的新任务（尚未形成标准流程）
需要根据数据内容做出不同处理的判断性任务
涉及复杂决策的非结构化任务
探索性任务（不确定最优执行路径）

全程状态追踪

无论采用哪种执行模式，DesireCore 都提供全面的状态追踪能力：

实时进度显示： 你可以随时查看当前任务的执行进度，了解已完成多少步骤、正在执行哪一步、预计还需要多长时间。

超时提醒： 如果某个步骤的执行时间超过预期，系统会自动发出提醒，你可以选择继续等待、跳过当前步骤或中止整个流程。

自动重分配： 当某个步骤失败后，系统可以根据预设策略自动重试，或者将任务重新分配到其他设备上执行。

完成汇总： 任务完成后，系统会生成详细的执行报告，包括每个步骤的执行时间、成功/失败状态、处理的数据量等信息。这些报告对于后续的流程优化非常有价值。

第五部分：实战案例一——批量 CRM 数据录入

让我们通过一个具体的实战案例来展示 DesireCore GUI 自动化的完整流程。

场景描述

某公司的销售团队每周都会收集到一批新的潜在客户信息，这些信息存储在一份 Excel 表格中，包含客户姓名、公司名称、职位、手机号、邮箱、来源渠道等字段。销售助理需要将这些信息逐条录入到公司使用的 CRM 系统（以 Salesforce 为例）中。

每周大约有 200-300 条新记录，每条记录手工录入需要 2-3 分钟（打开新建页面、逐个字段填写、选择下拉选项、保存），整个过程需要 8-15 个小时。这不仅极其耗时，而且容易出错——复制粘贴时可能错行、下拉选项可能选错、手机号格式可能不统一。

准备工作

在开始自动化之前，需要做好以下准备：

确认设备连接：确保安装了 HostAgent 的电脑已与 DesireCore 完成配对且在线。
准备数据文件：确保 Excel 文件已保存在目标电脑的指定位置，数据格式规范（列标题清晰、无合并单元格）。
确认 CRM 登录状态：确保 Salesforce 已登录，或者准备好登录凭据。
字段映射确认：明确 Excel 中的每一列对应 CRM 中的哪个字段。

执行过程

在 DesireCore 的对话界面中，输入任务描述：

“请帮我把桌面上的’新客户名单0402.xlsx’中的客户数据逐条录入到 Salesforce 的’潜在客户’模块中。Excel 表格的列分别是：A-姓名、B-公司、C-职位、D-手机号、E-邮箱、F-来源渠道。手机号需要确保是 11 位数字格式。如果某条记录有问题就跳过并标记。”

智能体会开始执行以下操作序列：

阶段一：数据预处理

打开桌面上的 Excel 文件
读取表格数据，统计总行数
对手机号列进行格式预检查
向用户汇报：“共检测到 256 条记录，其中 12 条手机号格式异常（非 11 位数字），将在录入时跳过并标记。确认继续？”

阶段二：逐条录入

对于每一条有效记录：

切换到 Chrome 浏览器中的 Salesforce 页面
点击”新建潜在客户”按钮
等待新建表单加载完成
在”姓名”字段输入客户姓名
在”公司”字段输入公司名称
在”职位”字段输入职位信息
在”手机”字段输入手机号
在”邮箱”字段输入邮箱地址
在”来源”下拉菜单中选择对应的来源渠道
点击”保存”按钮
截图验证保存是否成功（检查是否出现成功提示或详情页面）
如果保存失败，记录错误信息并截图
切换回 Excel，在当前行添加状态标记（“已录入”或”失败+原因”）
移动到下一行

阶段三：结果汇报

所有记录处理完毕后，智能体生成执行报告：

“批量录入任务已完成。处理情况如下：

总记录数：256 条

成功录入：241 条

格式异常跳过：12 条（手机号非 11 位）

录入失败：3 条（2 条因邮箱重复被 Salesforce 拒绝，1 条因公司名包含特殊字符）

总耗时：1 小时 47 分钟

Excel 文件已更新录入状态标记

失败记录详情已汇总在 Excel 的 Sheet2 中，请查阅。“

效率对比

指标	手工操作	DesireCore 自动化
处理 256 条记录耗时	约 10 小时	约 1.8 小时
错误率	3-5%（疲劳导致）	<1%（格式校验+视觉验证）
人工参与度	100%（全程手动）	5%（下达指令+查看报告）
可重复性	依赖操作人员状态	一致且稳定

进阶优化：固化为 SOP

如果这个任务每周都需要执行，你可以将上述流程固化为标准工作流：

在任务完成后，选择”保存为工作流”
设置触发条件（如”每周一上午 9:00 自动执行”或”当指定文件夹中出现新 Excel 文件时触发”）
配置参数化选项（如 Excel 文件路径、CRM 模块名称等可以在每次执行时指定）
设置完成后的通知方式（邮件、企业微信、钉钉等）

此后，整个录入流程就会自动运行，你只需在收到完成通知后查看执行报告即可。

第六部分：实战案例二——跨应用数据转移（后台 → Excel → 邮件）

场景描述

运营团队每天需要从公司的后台管理系统中导出前一天的销售数据，在 Excel 中进行整理和数据透视分析，然后将分析结果通过邮件发送给管理层。这个流程涉及三个不同的应用：Web 后台系统、Excel 和 Outlook/企业邮箱，需要在它们之间进行数据的流转和处理。

跨应用数据转移流程

手动执行这个流程通常需要 30-45 分钟，而且因为是每天必须完成的任务，往往成为运营人员早上到岗后的第一件”苦差事”。

任务描述

在 DesireCore 中输入：

“每天早上 8:30 自动执行以下任务：

登录公司后台管理系统（地址：admin.company.com），进入’销售数据’模块，导出昨天的销售明细报表为 Excel 文件

打开导出的 Excel 文件，创建一个数据透视表，按产品类别汇总销售金额和订单数量，并生成柱状图

将整理好的 Excel 文件作为附件，通过 Outlook 发送邮件给管理层分发组（leadership@company.com），邮件主题为’日报：[日期] 销售数据分析’，正文包含当天的关键数据摘要”

详细执行流程

阶段一：后台数据导出

打开 Chrome 浏览器
导航到 admin.company.com
如果需要登录，输入用户名和密码（首次需要用户提供，后续可使用安全存储的凭据）
进入”销售数据”模块
设置日期筛选条件为”昨天”
点击”导出”按钮
选择导出格式为 Excel
等待文件下载完成
截图确认文件已成功下载到”下载”文件夹

阶段二：Excel 数据整理

打开下载的 Excel 文件
检查数据完整性（行数、列标题是否正确）
选中数据区域
插入数据透视表到新工作表
设置行字段为”产品类别”
设置值字段为”销售金额”（求和）和”订单数量”（计数）
按销售金额降序排列
选中数据透视表，插入柱状图
设置图表标题和格式
回到数据透视表，提取关键数据：总销售额、总订单数、Top 3 产品类别及其销售额
保存文件，重命名为”销售日报_[日期].xlsx”

阶段三：邮件发送

打开 Outlook
点击”新建邮件”
在收件人栏输入 leadership@company.com
输入邮件主题：“日报：2026-04-01 销售数据分析”
在正文中编写数据摘要：

各位领导好，

以下是 2026 年 4 月 1 日的销售数据摘要：

总销售额：¥1,234,567

总订单数：456 单

同比昨日：+12.3%

Top 3 产品类别：

智能硬件 ¥456,789（占比 37%）

软件服务 ¥345,678（占比 28%）

配件耗材 ¥234,567（占比 19%）

详细分析请见附件。

添加 Excel 文件为附件
点击”发送”
截图确认邮件已成功发送

跨应用协调的关键

这个案例的核心难点在于三个应用之间的数据流转。传统 RPA 处理这种跨应用场景时，需要为每个应用分别编写操作脚本，并通过固定的文件路径或剪贴板来传递数据。一旦任何一个环节出现意外（如下载路径变化、Excel 版本不同导致菜单位置变动、Outlook 更新了界面），整个流程就会崩溃。

DesireCore 的 AI 智能体凭借视觉理解能力，能够在每一步操作后实时识别当前界面状态，自动适应界面变化。例如：

如果后台系统的导出按钮位置变了，AI 可以通过文字识别找到新位置
如果 Excel 版本不同导致”插入数据透视表”的菜单路径不同，AI 会自适应定位
如果 Outlook 界面更新了，AI 同样能识别新的”新建邮件”按钮

这种自适应能力是 AI 原生自动化相比传统 RPA 的核心优势。

定时执行与异常处理

将此流程设置为定时任务后，DesireCore 的调度系统会在每天早上 8:30 自动触发执行。如果执行过程中遇到异常，系统会按照以下策略处理：

后台系统无法访问：等待 5 分钟后重试，最多重试 3 次。如果仍然失败，向运营人员发送通知：“后台系统访问异常，今日日报需要手动处理。”
数据导出为空：可能是节假日无销售数据。系统会发送邮件告知：“昨日无销售数据，日报将不发送。”
Outlook 未登录：尝试自动登录，如果需要两步验证则通知用户手动处理。

第七部分：实战案例三——定时 GUI 巡检与异常告警

场景描述

IT 运维团队需要定期检查多个监控面板（如 Grafana、Zabbix、公司自建的运维大屏）的状态，确认各项指标正常、无告警信息。这项工作通常由值班人员每隔 1-2 小时手动执行一次：打开各个监控页面、逐一检查关键指标、确认是否有异常告警、如果有则记录并上报。

这种巡检工作虽然单次耗时不长（约 10-15 分钟），但由于需要高频重复执行，累计消耗大量人力。而且在夜间值班时段，人工巡检的可靠性会因疲劳而下降。

任务配置

在 DesireCore 中配置定时巡检任务：

“每隔 1 小时执行一次以下 GUI 巡检任务：

打开 Chrome，访问 Grafana 监控面板（grafana.company.com/dashboard/main）

检查 CPU 使用率是否超过 80%

检查内存使用率是否超过 85%

检查磁盘使用率是否超过 90%

检查是否有红色告警标记

切换到 Zabbix 页面（zabbix.company.com）

检查’未确认问题’列表是否为空

如果有未确认问题，记录问题详情

切换到公司运维大屏（ops-screen.company.com）

检查服务可用性是否全部为绿色

检查响应时间是否全部在阈值以内

如果发现任何异常：

截取异常画面

通过企业微信发送告警到运维群（包含异常描述和截图）

如果是严重异常（如服务不可用），额外电话通知值班负责人”

巡检执行详情

每轮巡检的执行步骤：

Grafana 检查：
- 打开 Grafana 主监控面板
- 截取全屏画面
- 通过 OCR 读取 CPU、内存、磁盘使用率的当前数值
- 与设定的阈值进行比对
- 扫描页面是否存在红色/橙色告警图标
- 记录检查结果
Zabbix 检查：
- 导航到 Zabbix 问题列表页面
- 读取”未确认问题”的数量
- 如果数量不为零，逐一读取问题的名称、严重程度、持续时间和影响范围
- 记录检查结果
运维大屏检查：
- 导航到运维大屏页面
- 检查各服务状态指示灯的颜色
- 读取响应时间数值
- 记录检查结果
结果处理：
- 如果所有检查项正常：记录巡检日志，继续等待下一轮
- 如果发现异常：
  - 生成异常报告（包含截图、异常指标、可能的影响）
  - 通过企业微信 API 或 GUI 操作发送告警消息
  - 根据严重程度决定是否触发电话通知

巡检报告示例

正常情况下的巡检日志：

巡检时间： 2026-04-02 14:00:00 巡检结果： 全部正常

Grafana：CPU 45%，内存 62%，磁盘 71% — 全部在阈值内

Zabbix：未确认问题 0 条

运维大屏：所有服务绿色，响应时间正常

异常情况下的告警消息：

[告警] 巡检发现异常 — 2026-04-02 15:00:00

在定时巡检中发现以下异常：

Grafana — 服务器 prod-web-03 CPU 使用率 94%（阈值 80%），已持续 23 分钟

Zabbix — 存在 2 条未确认问题：

【高】prod-db-01 磁盘 I/O 延迟异常（15:02 触发）

【中】prod-cache-02 连接数接近上限（14:47 触发）

已附上异常截图，请及时处理。

巡检自动化的价值

方面	人工巡检	DesireCore 自动化巡检
执行频率	1-2 小时/次（人力限制）	可低至 5 分钟/次
夜间可靠性	受疲劳影响，容易遗漏	全天候一致执行
响应速度	发现到上报 5-10 分钟	发现到告警 <1 分钟
检查粒度	依赖人员经验，可能忽略细节	按照预定义规则逐项检查
历史追溯	依赖手工记录，可能缺失	每轮巡检自动存档
人力成本	需要专人值班	释放人力到更有价值的工作

第八部分：安全机制——白名单、人闸门、审计日志

让 AI 智能体操作你的电脑和手机，安全性自然是首要关切。DesireCore 在设计 Computer Use 功能时，将安全性作为核心考量，建立了多层次的安全防护体系。

五层安全防护机制

应用白名单控制

并非所有应用都适合被自动化操作。DesireCore 提供了应用白名单机制，让你精确控制 AI 智能体可以操作哪些应用：

白名单配置：

在设备管理页面，为每台设备配置允许操作的应用列表
只有在白名单中的应用才会响应智能体的操作指令
不在白名单中的应用即使被智能体请求操作，HostAgent 也会拒绝执行

典型配置示例：

允许操作：Chrome、Excel、Outlook、公司 CRM 系统、ERP 系统
禁止操作：网银应用、密码管理器、系统设置（部分）、杀毒软件

动态管理：

白名单可以随时调整
支持按时间段设置不同的白名单策略（如工作时间允许操作 CRM，非工作时间仅允许巡检类操作）
支持按工作流设置白名单（每个工作流只能操作其必需的应用）

人闸门确认机制

对于敏感操作，DesireCore 引入了”人闸门”（Human Gate）确认机制。这是一个类似于工业生产中安全闸门的概念——在执行关键操作之前，必须获得人类操作者的明确确认。

触发条件： 人闸门不是在每一步操作时都会触发的，那样会失去自动化的意义。它只在以下情况下触发：

资金相关操作：涉及付款、转账、订单确认等金融操作时
数据删除操作：执行删除数据、清空记录等不可逆操作时
权限变更操作：修改用户权限、角色分配等安全敏感操作时
外部通信操作：发送邮件、消息到外部联系人时（可配置）
系统配置变更：修改系统设置、网络配置等可能影响服务稳定性的操作时
自定义规则：你可以自定义哪些操作需要触发人闸门

确认流程：

智能体执行到需要确认的步骤时暂停
向用户发送确认请求，包含：
- 即将执行的操作描述
- 操作的目标和预期效果
- 操作涉及的数据或对象
- 当前屏幕截图
用户审阅后选择：
- 确认执行：继续执行该操作
- 拒绝执行：跳过该操作，根据策略决定后续流程
- 修改后执行：调整操作参数后再执行
确认操作会记录在审计日志中

人闸门的灵活性：

可以设置确认超时时间（如 5 分钟内未确认则自动跳过）
可以指定确认人（不一定是发起任务的人，可以是上级或安全审核人员）
可以设置”批量确认”模式（对于同类操作，确认一次后后续同类操作自动执行）

完整操作审计日志

每一次 Computer Use 操作都会被完整记录在审计日志中，确保操作的可追溯性和合规性：

日志记录内容：

时间戳：操作执行的精确时间
操作者：发起任务的用户身份
目标设备：操作执行在哪台设备上
操作类型：鼠标操作、键盘输入、应用操作等
操作详情：具体的操作内容（如”在 Salesforce 的姓名字段输入’张三’”）
截图存档：操作前后的屏幕截图
执行结果：操作是否成功，如果失败则记录失败原因
人闸门记录：如果触发了人闸门，记录确认人、确认时间和确认结果

日志用途：

合规审计：满足行业合规要求（如金融、医疗等受监管行业）
问题排查：当自动化流程出现异常时，通过日志可以精确定位问题发生的步骤和原因
流程优化：通过分析日志中的执行时间和成功率数据，发现可优化的环节
安全追溯：如果发生安全事件，审计日志提供完整的操作证据链

日志管理：

支持按时间范围、设备、用户、操作类型等维度检索日志
支持日志导出（CSV、JSON 格式）
支持设置日志保留策略（如保留 90 天）
关键操作日志可设置为不可删除

一键中断功能

在任何时候，你都可以通过一键中断功能立即停止 AI 智能体在目标设备上的所有操作：

快捷键中断：在 DesireCore 客户端按下指定快捷键（默认 Ctrl+Shift+Esc）
按钮中断：点击任务执行界面上的”紧急停止”按钮
设备端中断：在目标设备上通过 HostAgent 的托盘图标选择”停止所有操作”
远程中断：通过手机端的 DesireCore App 远程停止任意设备上的操作

中断后，智能体会立即停止所有操作，并汇报当前的执行状态和已完成的步骤，方便用户决定后续处理方式。

操作限速防护

为了防止 AI 智能体过快的操作速度导致目标应用出现问题（如触发反爬虫机制、超过 API 调用频率限制等），DesireCore 内置了操作限速机制：

默认限速：鼠标点击和键盘输入之间有合理的间隔时间（模拟人类操作节奏）
自定义限速：可以为不同应用设置不同的操作速度
智能限速：AI 会根据应用的响应速度自动调整操作节奏——如果页面加载慢，就等待更长时间后再操作
频率告警：如果操作频率接近应用的限制阈值，系统会自动降速并告警

第九部分：移动端自动化——Android/iOS/HarmonyOS

随着移动办公的普及，越来越多的工作流程涉及手机端操作。DesireCore 的 Computer Use 功能不仅覆盖桌面平台，还全面支持移动端自动化。

移动端自动化的特殊挑战

与桌面端相比，移动端自动化面临一些独特的挑战：

屏幕尺寸小：移动设备的屏幕空间有限，需要频繁滚动才能看到完整内容
触控交互：手机使用触控而非鼠标，操作方式有所不同（点击、长按、滑动、捏合缩放等）
系统权限严格：特别是 iOS 和 HarmonyOS，对后台操作有较多限制
网络环境多变：移动设备可能在 WiFi 和蜂窝网络之间切换
通知干扰：手机上的各种通知弹窗可能干扰自动化操作

Android 自动化

Android 是移动端自动化最成熟的平台，DesireCore 的 HostAgent 通过 Android 无障碍服务（AccessibilityService）实现全面的 GUI 操作能力：

支持的操作：

屏幕触控：单指点击、长按、滑动（上下左右）、双指捏合
文字输入：通过剪贴板方式输入（绕过输入法兼容问题）
应用管理：打开、切换、关闭应用
通知处理：读取和响应通知
系统操作：调整设置、连接 WiFi 等

典型场景：

在企业 App 中批量审批待办事项
在移动 CRM 中更新客户跟进状态
在即时通讯应用中发送标准化回复
在移动端完成需要定期操作的签到、打卡等任务

注意事项：

建议使用 Android 8.0 及以上版本
需要关闭电池优化以防止 HostAgent 被系统杀掉
建议保持屏幕常亮（可在设置中开启”开发者选项 → 不锁屏”）

iOS 自动化

iOS 系统的封闭性使得自动化操作相比 Android 有更多限制，但 DesireCore 仍然通过多种技术手段实现了可用的自动化方案：

实现方式：

通过 iOS 辅助功能 API 实现基本的界面操作
利用 iOS 快捷指令（Shortcuts）实现系统级操作
对于越狱设备，可以获得更完整的操作能力

支持的操作：

屏幕触控：点击、滑动、长按
应用切换：通过辅助功能快捷方式切换应用
文字输入：通过剪贴板方式输入
部分系统操作：通过快捷指令实现

限制与解决方案：

iOS 不支持后台截图（限制）→ DesireCore 通过录屏接口获取画面（解决方案）
iOS 限制跨应用操作（限制）→ 通过辅助功能和快捷指令组合实现（解决方案）
iOS 的权限弹窗需要手动确认（限制）→ 首次授权后后续操作可自动进行（解决方案）

HarmonyOS 自动化

华为 HarmonyOS 作为新兴的移动操作系统，DesireCore 也提供了原生支持：

技术基础：

基于 HarmonyOS 的无障碍框架（AccessibilityExtensionAbility）
支持 HarmonyOS 4.0 及以上版本
兼容鸿蒙原生应用和 Android 兼容应用

特色功能：

利用 HarmonyOS 的分布式能力，可以在多设备之间无缝流转任务
支持 HarmonyOS 的原子化服务
与华为智慧助手的潜在集成能力

移动端实战案例：App 内重复性任务自动化

场景： 电商运营人员每天需要在商品管理 App 中逐一修改 50 个商品的促销价格。

手动流程： 打开 App → 搜索商品 → 进入编辑页 → 修改价格 → 保存 → 返回列表 → 搜索下一个商品… 重复 50 次，耗时约 1.5 小时。

DesireCore 自动化：

准备好包含商品编号和新价格的数据（可以是 Excel 或文本文件）
在 DesireCore 中创建任务：

“请在手机上的商品管理 App 中，按照以下列表逐一修改商品价格： [商品编号] → [新价格] SKU001 → 199.00 SKU002 → 299.00 … 修改后确认保存成功，如果某个商品找不到则跳过并标记。”

智能体在手机上自动执行：
- 打开商品管理 App
- 在搜索框输入商品编号
- 点击搜索结果进入商品详情
- 点击”编辑”按钮
- 定位到价格字段
- 清空原有价格，输入新价格
- 点击”保存”
- 截图验证保存成功
- 返回列表，处理下一个商品
完成后生成修改报告

耗时： 约 20 分钟（机器操作速度均匀且不会疲劳）

桌面端与移动端协同

DesireCore 最强大的能力之一是支持桌面端和移动端的协同工作流。例如：

在 Windows 电脑上从数据库导出数据
在 macOS 电脑上用专业软件生成报表
将报表通过 Android 手机上的企业微信发送给客户
在 iOS iPad 上用 Apple Pencil 标注审批意见

这种跨平台、跨设备的协同能力，使得 DesireCore 不仅仅是一个单点的自动化工具，而是一个真正的”万能数字助手”。

第十部分：与超级文书配合——文档处理的完整闭环

Computer Use 解决了 GUI 操作自动化的问题，但在很多工作流中，文档处理是不可或缺的一环。DesireCore 的”超级文书”功能专为文档场景设计，与 Computer Use 配合使用，可以构建从数据获取到文档输出的完整闭环。

超级文书是什么？

超级文书将代码审查（Code Review）机制应用于文档写作，核心理念是”AI 帮你写，你来审”。与传统的 AI 写作工具不同，超级文书不是直接生成一篇文档让你”全盘接受或全盘拒绝”，而是像代码审查那样，逐处标记修改、提供选择、附带理由。

核心工作方式：

AI 起草/修改：你提供文档的初稿或需求描述，AI 会生成或修改文档内容。
逐处标记修改：每一处修改都会被清晰地标记出来——新增的内容、删除的内容、修改的内容，一目了然。
三种操作选择：对于每一处修改，你可以：
- 接受（Accept）：认同这处修改，保留 AI 的建议
- 拒绝（Reject）：不认同这处修改，保留原文
- 编辑（Edit）：在 AI 建议的基础上进一步调整
修改理由说明：AI 会为每一处修改附带理由说明，解释为什么要做这样的修改（如”此处语法不通顺”、“这段描述不够准确”、“建议用更专业的术语”等）。
Git 式版本历史：所有的修改和审阅记录都会保存，你可以随时回溯到任何一个历史版本。

Computer Use + 超级文书的协同场景

当 Computer Use 和超级文书结合使用时，可以实现以下强大的工作流：

场景一：自动采集数据 + 智能生成报告

Computer Use 在多个系统中自动采集数据（如从 ERP 导出销售数据、从 HR 系统导出人力数据、从财务系统导出成本数据）
超级文书基于采集到的数据自动生成月度经营分析报告
用户通过审阅界面逐处检查 AI 生成的分析结论和建议，确认或修改
Computer Use 将最终版本的报告通过邮件发送给管理层

整个流程中，人类只需要做”审阅”这一个环节，其余的数据采集、报告生成、邮件发送都由 AI 自动完成。

场景二：合同审查与修改

用户上传合同文档
超级文书 自动审查合同条款，标记潜在风险点和建议修改的条款
用户审阅每一处标记，接受、拒绝或修改 AI 的建议
审阅完成后，Computer Use 自动打开公司的合同管理系统，上传修改后的合同并填写审批表单

场景三：多语言文档翻译与校对

用户提供中文文档
超级文书 生成英文翻译版本，逐段对照标记
用户审阅翻译质量，对不满意的段落进行修改
Computer Use 将翻译后的文档上传到公司的文档管理系统，更新多语言版本

版本历史的实用价值

超级文书的 Git 式版本历史功能不仅仅是”可以回退”那么简单。它为文档协作带来了全新的体验：

变更追溯：每一次修改都有记录，可以清楚地看到”谁在什么时候做了什么修改”。
版本对比：可以对比任意两个版本之间的差异，了解文档的演变过程。
审阅链：完整的审阅记录形成了一条审阅链，满足合规要求（如 ISO 文档控制标准）。
回滚能力：如果发现最新的修改有问题，可以一键回滚到之前的稳定版本。
分支协作：多人可以基于同一份文档的不同版本进行并行修改，最后合并。

超级文书与传统 AI 写作工具的对比

特性	传统 AI 写作工具	DesireCore 超级文书
输出方式	一次性生成完整文档	逐处标记修改
用户控制	全盘接受或全盘拒绝	逐处接受/拒绝/编辑
修改透明度	不透明（不知道改了哪里）	完全透明（每处修改有标记）
修改理由	无	每处修改附带理由说明
版本管理	无或简单的撤销	Git 式完整版本历史
与自动化集成	通常不支持	与 Computer Use 无缝协作

总结：从手动到智能自动化的未来

通过本文的全面介绍，我们可以看到 DesireCore 的 GUI 桌面自动化不是对传统 RPA 的简单替代，而是一种范式级的升级。让我们回顾一下核心要点：

核心技术突破

AI 原生的视觉理解：不再依赖固定的像素坐标或元素选择器，而是通过 AI 视觉能力理解界面语义，自适应界面变化。
自然语言驱动：无需编写脚本或代码，用自然语言描述任务即可自动执行。
闭环验证：每步操作都伴随截图验证，确保执行准确性。
智能异常处理：遇到意外情况时能自主判断和应对，不再脆弱地一报错就停止。
跨平台覆盖：Windows、macOS、Linux、Android、iOS、HarmonyOS 六大平台全面支持。

实际应用价值

从本文的三个实战案例中可以看出，DesireCore 的 GUI 自动化在不同场景下都能带来显著的效率提升：

批量 CRM 数据录入：从 10 小时缩短到 1.8 小时，错误率从 3-5% 降低到 1% 以下
跨应用数据转移：从 30-45 分钟的手动操作变为全自动定时执行
定时 GUI 巡检：从依赖人工值班变为全天候自动监控，响应速度提升到分钟级

安全与可控

DesireCore 没有为了追求自动化而牺牲安全性。应用白名单、人闸门确认、完整审计日志、一键中断和操作限速这五大安全机制，确保 AI 智能体始终在你的控制之下运行。特别是人闸门机制，为敏感操作提供了额外的安全保障，让你在享受自动化便利的同时不必担心失控风险。

完整的工具链

Computer Use 不是孤立存在的。与智能任务编排引擎配合，单步操作可以被组织为复杂的工作流。与超级文书配合，数据采集和文档处理形成完整闭环。两种执行模式——固化模式（SOP/Workflow）和灵活模式（AI 驱动编排）——适应不同程度的自动化需求。

展望未来

GUI 桌面自动化正处于一个激动人心的发展阶段。随着 AI 视觉理解能力和推理能力的持续提升，我们可以期待：

更复杂的任务处理：AI 将能够处理需要多步推理和复杂判断的高级任务，而不仅仅是机械性的重复操作。
更自然的人机协作：人和 AI 之间的协作将更加流畅，AI 能够在需要时主动寻求人类指导，在确信时独立决策。
更广泛的平台支持：除了当前支持的六大平台，未来可能扩展到更多设备类型和操作系统。
更强的学习能力：AI 将能够从用户的操作习惯中学习，自动优化操作策略和流程。
更深的系统集成：与企业内部系统的集成将越来越深入，从 GUI 操作逐步扩展到 API 混合调用、数据库直连等多种方式。

DesireCore 正在引领这场从手动到智能自动化的变革。无论你是需要自动化日常重复操作的个人用户，还是希望提升运营效率的企业团队，DesireCore 的 Computer Use 功能都值得一试。

从今天开始，让 AI 智能体成为你的数字化助手，把时间和精力释放出来，投入到真正需要人类创造力和判断力的工作中去。这不仅是效率的提升，更是工作方式的根本变革。

本文基于 DesireCore 最新版本撰写。如需了解更多信息或开始使用，请访问 DesireCore 官网下载客户端，或查阅产品文档获取详细使用指南。