← 返回博客

GUI 桌面自动化实战:用 DesireCore 打通跨应用工作流

GUI 桌面自动化实战:用 DesireCore 打通跨应用工作流

在数字化转型的浪潮中,企业和个人都面临着一个共同的挑战:大量重复性的手工操作占据了宝贵的工作时间。从逐条录入客户信息到在多个应用之间复制粘贴数据,从每天检查监控面板到批量处理文档报表——这些机械、枯燥却又不可或缺的任务,正在消耗着知识工作者的创造力和精力。

传统的 RPA(机器人流程自动化)工具试图解决这个问题,但它们往往需要复杂的脚本编写、精确的像素坐标定位,且一旦界面发生微小变化就会导致流程崩溃。更重要的是,传统 RPA 缺乏”理解”能力——它只是机械地执行预设的步骤,无法在面对意外情况时做出灵活判断。

DesireCore 提出了一种全新的解决方案:AI 原生的 GUI 桌面自动化。通过 Computer Use 功能,DesireCore 的 AI 智能体能够”像人一样操作电脑和手机的图形界面”,不仅能看懂屏幕上的内容,还能根据上下文做出智能决策。结合智能任务编排引擎,单步操作可以被组织成复杂的跨应用工作流,真正实现端到端的自动化。

本文将从概念解析、安装配置、操作能力、实战案例到安全机制,全面介绍如何利用 DesireCore 打通跨应用工作流,帮助你彻底告别重复性手工操作。


第一部分:Computer Use 是什么——远程桌面的智能版

从远程桌面到智能操控

如果你使用过 TeamViewer、向日葵或 Windows 远程桌面,那么你已经对”远程操控”这个概念并不陌生。传统远程桌面允许你通过网络连接到另一台电脑,然后用鼠标和键盘控制它的图形界面。

Computer Use 五步工作流程

DesireCore 的 Computer Use 功能可以被理解为**“远程桌面的智能版”**。与传统远程桌面不同的是,操控者不再是人类,而是一个具备视觉理解能力的 AI 智能体。这个智能体可以:

  • 看懂屏幕内容:通过截图识别技术,AI 能够理解当前屏幕上显示了什么——文本、按钮、输入框、下拉菜单、表格,甚至图表和图片中的信息。
  • 理解操作上下文:AI 不只是识别单个元素,它能理解整个页面的布局和逻辑关系,知道当前处于哪个应用的哪个界面,正在执行什么任务。
  • 做出智能决策:面对意外弹窗、加载延迟、界面变化等情况,AI 可以根据当前状态灵活调整操作策略,而不是像传统 RPA 那样直接报错停止。
  • 自然语言交互:你不需要编写任何脚本或代码,只需用自然语言描述你想要完成的任务,AI 就能自动规划并执行相应的操作。

Computer Use 的工作流程

DesireCore 的 Computer Use 遵循一个清晰的五步工作流程:

第一步:用户下达任务。 你通过自然语言向 AI 智能体描述需要完成的工作。例如:“帮我把这份 Excel 表格里的客户信息逐条录入到 CRM 系统中。”

第二步:智能体制定操作计划。 AI 分析任务需求,将复杂任务拆解为一系列具体的操作步骤。它会考虑需要打开哪些应用、操作的先后顺序、可能遇到的异常情况及应对方案。

第三步:HostAgent 执行操作。 安装在目标设备上的 HostAgent 插件接收智能体发出的操作指令,在设备的图形界面上执行具体操作——移动鼠标、点击按钮、输入文字、切换窗口等。

第四步:截图回传与验证。 每执行一步操作后,HostAgent 会截取当前屏幕画面并回传给智能体。智能体通过视觉识别确认操作是否成功执行,以及当前界面状态是否符合预期。

第五步:结果汇报。 任务完成后,智能体向用户汇报执行结果,包括成功完成了哪些操作、遇到了哪些问题、以及最终的执行状态。

这个流程的核心优势在于闭环验证。传统 RPA 通常是”盲操作”——执行完预设步骤后并不确认结果是否正确。而 DesireCore 的每一步操作都伴随着视觉验证,确保操作的准确性和可靠性。

为什么不直接调用 API?

有人可能会问:既然可以调用 API 直接操作数据,为什么还需要通过 GUI 界面来操作?答案是:并非所有系统都提供 API。

在现实工作场景中,大量企业内部系统、老旧的遗留应用、第三方 SaaS 服务,要么没有开放 API,要么 API 功能不完整,要么 API 调用需要复杂的审批流程。而 GUI 界面是几乎所有应用都具备的交互方式。通过 Computer Use,DesireCore 可以操作任何有图形界面的应用,不受 API 限制,真正实现了”万能连接器”的角色。

此外,许多操作本身就是 GUI 层面的——例如在特定应用中生成报表然后导出 PDF,或者在网页上填写一个需要动态交互的多步骤表单。这些操作即使有 API,通过 GUI 自动化反而更加直观和可靠。


第二部分:HostAgent 安装配置完全指南

什么是 HostAgent?

HostAgent 是 DesireCore Computer Use 功能的执行引擎,它是一个轻量级的客户端插件,需要安装在你希望被自动化操作的目标设备上。你可以把它理解为 AI 智能体在目标设备上的”双手”——智能体的大脑在云端,但实际的鼠标点击、键盘输入等操作,都是通过 HostAgent 在本地执行的。

HostAgent 的设计遵循以下原则:

  • 轻量级:安装包体积小,运行时资源占用低,不影响设备的正常使用。
  • 安全性:所有通信都经过加密,操作执行遵循最小权限原则。
  • 跨平台:支持 Windows、macOS、Linux、Android、iOS 和 HarmonyOS 六大平台。

三步完成安装配置

无论你使用哪个平台,HostAgent 的安装配置都遵循统一的三步流程:

第一步:下载并安装 HostAgent

访问 DesireCore 官网的下载页面,根据你的目标设备操作系统选择对应的安装包。

Windows 平台:

  • 下载 .exe 安装程序
  • 双击运行安装向导,按照提示完成安装
  • 安装完成后,HostAgent 会在系统托盘中显示图标
  • 建议将 HostAgent 设置为开机自启动,确保随时可用

macOS 平台:

  • 下载 .dmg 安装镜像
  • 打开镜像文件,将 HostAgent 拖入”应用程序”文件夹
  • 首次运行时,macOS 可能提示”无法验证开发者”,需要在”系统设置 → 隐私与安全性”中允许运行
  • HostAgent 会出现在菜单栏中

Linux 平台:

  • 提供 .deb(Debian/Ubuntu)和 .rpm(Fedora/CentOS)两种安装包
  • 使用对应的包管理器安装:sudo dpkg -i hostagent.debsudo rpm -i hostagent.rpm
  • 安装后通过 systemctl start hostagent 启动服务
  • 使用 systemctl enable hostagent 设置开机自启

Android 平台:

  • 从 DesireCore 官网下载 APK 安装包(Google Play 版本也在审核中)
  • 允许”安装未知来源应用”后进行安装
  • 打开应用后会引导完成初始化设置

iOS 平台:

  • 通过 TestFlight 或企业签名方式安装(App Store 版本审核中)
  • 安装后打开应用,按照引导完成初始化

HarmonyOS 平台:

  • 从 DesireCore 官网或华为应用商店下载安装
  • 安装流程与 Android 类似

第二步:在 DesireCore 中添加设备并输入配对码

安装完成后,打开 HostAgent,你会看到一个配对码(一般为 6 位数字或字母组合)。这个配对码是一次性的,用于安全地将你的目标设备与 DesireCore 平台关联。

  1. 登录 DesireCore 客户端或网页端
  2. 进入”设备管理”页面
  3. 点击”添加新设备”
  4. 输入 HostAgent 显示的配对码
  5. 确认设备信息(操作系统、设备名称等)
  6. 点击”完成配对”

配对成功后,你会在设备管理列表中看到这台设备,其状态应显示为”在线”。你可以为每台设备设置一个便于识别的名称,例如”办公电脑-Windows”或”测试手机-Android”。

第三步:根据操作系统授予必要权限

这是最关键的一步。为了让 HostAgent 能够执行 GUI 操作,它需要获得操作系统层面的相关权限。不同平台所需的权限有所不同:

Windows 平台需要的权限:

  • 管理员权限:部分应用(特别是以管理员身份运行的程序)需要 HostAgent 也具有管理员权限才能操作。建议首次使用时以管理员身份运行 HostAgent。
  • 屏幕录制权限:Windows 10/11 通常默认允许屏幕截图,无需额外设置。
  • 无障碍权限:HostAgent 会利用 Windows 的 UI Automation 接口来更精确地识别界面元素,系统通常会自动授权。

macOS 平台需要的权限:

  • 辅助功能权限(Accessibility):这是最核心的权限,允许 HostAgent 控制鼠标和键盘。前往”系统设置 → 隐私与安全性 → 辅助功能”,找到 HostAgent 并开启。
  • 屏幕录制权限(Screen Recording):允许 HostAgent 截取屏幕内容。前往”系统设置 → 隐私与安全性 → 屏幕录制”,找到 HostAgent 并开启。
  • 自动化权限(Automation):如果需要操作特定应用,macOS 可能会弹出授权提示,请选择允许。

Linux 平台需要的权限:

  • X11/Wayland 权限:在 X11 环境下通常自动具备操作权限。Wayland 环境需要额外配置,建议参考 DesireCore 文档中的 Wayland 配置指南。
  • 输入设备权限:确保运行 HostAgent 的用户在 input 用户组中:sudo usermod -aG input $USER

Android 平台需要的权限:

  • 无障碍服务权限:进入”设置 → 无障碍 → HostAgent”并开启。这是 Android 上实现 GUI 自动化的核心权限。
  • 悬浮窗权限:允许 HostAgent 在其他应用上方显示状态指示器。
  • 屏幕截图权限:首次使用时系统会弹出授权提示。
  • 存储权限(如涉及文件操作)

iOS 平台需要的权限:

  • iOS 的权限管理较为严格,HostAgent 通过辅助功能 API 和快捷指令集成来实现自动化操作。
  • 需要在”设置 → 辅助功能”中完成相应配置。

HarmonyOS 平台需要的权限:

  • 与 Android 类似,需要授予无障碍服务、悬浮窗和屏幕截图权限。
  • HarmonyOS 的权限管理界面路径可能略有不同,请参照系统提示操作。

配置验证

完成上述三步后,你可以通过以下方式验证配置是否成功:

  1. 在 DesireCore 中选择已添加的设备
  2. 在对话框中输入一个简单的指令,例如”打开计算器”
  3. 观察目标设备是否成功打开了计算器应用

如果操作成功执行,说明 HostAgent 已经正确安装、配对并获得了必要权限,你可以开始使用 Computer Use 功能了。

多设备管理

DesireCore 支持同时管理多台设备。你可以在设备管理页面看到所有已配对设备的列表,以及它们的在线状态、操作系统信息和最近活动时间。在下达任务时,你可以指定在哪台设备上执行操作,也可以创建跨设备的工作流——例如,先在 Windows 电脑上从 ERP 系统导出数据,然后在 macOS 电脑上用特定软件处理数据,最后在 Android 手机上通过企业 IM 发送结果。


第三部分:操作能力全景——鼠标、键盘、截图、应用控制

DesireCore 的 Computer Use 功能提供了一套完整的 GUI 操作能力集,覆盖了人类在使用图形界面时可能执行的各类操作。下面我们逐一介绍这些能力。

鼠标操作

鼠标是 GUI 交互的基础工具,DesireCore 支持以下鼠标操作:

单击(Click): 最基本的操作,用于点击按钮、选择菜单项、激活输入框等。智能体会先通过视觉识别定位目标元素的位置,然后指示 HostAgent 在该位置执行单击操作。

双击(Double Click): 用于打开文件、选中单词等需要双击的场景。智能体能够判断当前操作是否需要双击而非单击。

右键点击(Right Click): 打开上下文菜单(右键菜单),用于访问复制、粘贴、属性等快捷操作。智能体可以识别右键菜单中的选项并进行后续操作。

拖拽(Drag and Drop): 将元素从一个位置拖动到另一个位置。常用于文件管理、界面布局调整、图表元素移动等场景。智能体会精确计算拖拽的起始点和目标点。

滚动(Scroll): 向上、向下、向左或向右滚动页面或列表。当需要查看的内容超出可视区域时,智能体会自动判断滚动方向和距离。这对于处理长列表、长页面或大型表格尤其重要。

鼠标悬停(Hover): 将鼠标移动到特定位置但不点击,用于触发工具提示(tooltip)、展开子菜单或激活悬停效果。

键盘输入

键盘操作覆盖了从简单的文字输入到复杂的快捷键组合:

文字输入(Type): 在输入框、文本编辑器等位置输入文字内容。支持中文、英文及其他语言的输入。对于中文输入,HostAgent 可以通过剪贴板方式实现,避免输入法兼容问题。

快捷键(Shortcut): 执行单个快捷键操作,如 Tab(切换焦点)、Enter(确认)、Escape(取消)、Delete(删除)等。

组合键(Key Combination): 执行需要同时按下多个键的操作,如 Ctrl+C(复制)、Ctrl+V(粘贴)、Ctrl+S(保存)、Alt+Tab(切换窗口)、Ctrl+Shift+S(另存为)等。智能体能够根据任务需求智能选择合适的组合键。

特殊键操作: 支持功能键(F1-F12)、方向键、Page Up/Down、Home/End 等特殊键。

截图识别

截图识别是 Computer Use 的”眼睛”,也是实现闭环验证的基础:

全屏截图: 捕获整个屏幕的画面,用于获取全局视图和状态概览。

区域截图: 捕获屏幕特定区域的画面,用于聚焦分析某个特定的界面元素或区域。

元素识别: 基于截图内容,AI 能够识别出界面中的各种元素——按钮、输入框、文本标签、下拉菜单、复选框、单选按钮、表格行列、选项卡等。这种识别不依赖于固定的像素坐标,而是基于视觉语义理解,因此即使界面布局发生变化,也能准确定位目标元素。

文字识别(OCR): 从截图中提取文字信息,用于读取界面上显示的数据、错误信息、状态提示等。这使得智能体能够”看懂”屏幕上的内容,做出基于信息的决策。

状态判断: 通过分析截图,判断当前操作是否成功。例如,表单提交后是否显示了成功提示、按钮点击后页面是否发生了预期的变化等。

应用操作

除了在应用内部进行操作,DesireCore 还能管理应用本身:

打开应用: 启动指定的桌面应用程序。智能体可以通过开始菜单、Dock 栏、桌面快捷方式或命令行来打开应用。

切换应用: 在多个已打开的应用之间切换。通过任务栏点击或 Alt+Tab 等方式快速切换到目标应用。

关闭应用: 关闭指定的应用程序,释放系统资源。智能体会确认是否需要保存数据后再关闭。

窗口管理: 调整应用窗口的大小和位置,最小化、最大化或还原窗口。在多显示器环境下还可以将窗口移动到指定的显示器上。

表单填写

表单填写是 GUI 自动化中最常见的需求之一,DesireCore 对此提供了专门的优化:

自动定位: 智能体能够识别表单中的各个字段及其标签,自动将输入光标定位到正确的输入框中。即使表单布局复杂、字段分布不规则,也能准确识别。

智能填充: 根据字段类型自动选择合适的填写方式:

  • 文本框:直接输入文字
  • 下拉菜单:展开选项列表并选择正确选项
  • 复选框/单选按钮:根据需要勾选或取消
  • 日期选择器:通过日期控件选择正确的日期
  • 文件上传:选择指定的文件进行上传

数据校验: 填写后,智能体会检查是否有错误提示或校验警告,如有则自动修正或向用户报告。

文件操作

对于涉及文件系统的操作,DesireCore 同样提供了完整支持:

文件复制: 将文件从一个位置复制到另一个位置,可以通过文件管理器的 GUI 操作或快捷键完成。

文件移动: 将文件移动到指定目录,支持拖拽和剪切粘贴两种方式。

文件重命名: 选中文件后执行重命名操作,输入新的文件名。

批量操作: 对多个文件执行相同的操作,如批量重命名、批量移动到指定文件夹等。

操作能力的组合

以上单项操作能力可以被灵活组合,形成复杂的操作序列。例如,“打开 Chrome 浏览器 → 导航到某个网址 → 填写登录表单 → 点击登录 → 等待页面加载 → 在搜索框中输入关键词 → 滚动查看结果 → 将结果数据复制到 Excel”——这个完整的操作序列涉及了应用操作、键盘输入、鼠标点击、表单填写、滚动和文件操作等多种能力。DesireCore 的智能体能够自动规划并执行这样的复杂操作序列。


第四部分:智能任务编排——从单步操作到复杂工作流

单步的 GUI 操作虽然有用,但真正的生产力提升来自于将多个操作编排成完整的工作流。DesireCore 的智能任务编排引擎正是为此而设计的。

编排引擎的三大核心步骤

意图识别

当你向智能体描述任务时,编排引擎首先进行意图识别。它会分析你的自然语言描述,提取出以下关键信息:

  • 目标:你希望达成什么结果?
  • 输入数据:需要处理哪些数据或文件?
  • 涉及的应用:任务需要在哪些应用中操作?
  • 约束条件:有没有特殊的顺序要求、时间限制或质量标准?

例如,当你说”把这份客户名单从 Excel 导入到 Salesforce,确保每条记录的手机号格式正确”,编排引擎会识别出:目标是数据导入,输入数据是 Excel 文件中的客户名单,涉及 Excel 和 Salesforce 两个应用,约束条件是手机号格式需要校验。

任务拆解

识别意图后,编排引擎将整体任务拆解为一系列细粒度的子任务。每个子任务都是一个可独立执行和验证的操作单元。拆解时会考虑:

  • 依赖关系:哪些子任务必须按顺序执行,哪些可以并行?
  • 数据流转:上一步的输出如何成为下一步的输入?
  • 容错策略:每个子任务失败后应该重试、跳过还是中止整个流程?
  • 检查点:在哪些关键节点需要验证中间结果?

以上面的例子为继续说明,编排引擎可能将其拆解为:

  1. 打开 Excel 文件
  2. 读取第一行客户数据
  3. 校验手机号格式(如不正确则标记并记录)
  4. 打开 Salesforce 的新建客户页面
  5. 填写客户信息表单
  6. 提交表单并确认保存成功
  7. 返回 Excel,移动到下一行
  8. 重复步骤 2-7 直到所有行处理完毕
  9. 生成处理报告(成功 N 条,失败 M 条,失败原因列表)

能力自动匹配

拆解完成后,编排引擎会为每个子任务自动匹配最合适的执行能力。DesireCore 不仅提供 GUI 操作能力,还集成了多种工具和能力,包括:

  • Computer Use(GUI 操作):当任务需要操作图形界面时使用
  • API 调用:当目标应用提供 API 且 API 方式更高效时优先使用
  • 数据处理:对数据进行格式转换、校验、聚合等处理
  • 文件处理:读取、写入、转换各种格式的文件
  • 通知发送:通过邮件、即时通讯等方式发送通知

编排引擎会自动选择最优的能力组合。例如,读取 Excel 数据时优先使用文件处理能力(直接解析文件),而在 Salesforce 中填写表单则使用 Computer Use(因为需要操作 GUI)。如果 Salesforce 配置了 API 接入,系统可能会在”API 调用”和”GUI 操作”之间选择更高效的方案。

两种执行模式

DesireCore 的编排引擎支持两种执行模式,适应不同的自动化场景:

固化模式(SOP/Workflow)

固化模式适用于已经明确且需要反复执行的标准化流程。在这种模式下:

  • 流程预定义:你可以先手动执行一遍操作,系统会记录整个操作序列并固化为标准流程(SOP)。
  • 稳定可靠:每次执行都严格按照预定义的步骤进行,确保结果的一致性。
  • 可调度:固化的工作流可以设置定时触发、事件触发或手动触发。
  • 可优化:通过多次执行的数据反馈,可以持续优化流程的效率和准确性。

固化模式特别适合以下场景:

  • 每天/每周需要重复执行的例行任务
  • 有严格操作规范要求的合规性任务
  • 需要多人遵循相同流程的团队协作任务
  • 关键业务流程(如财务对账、订单处理等)

灵活模式(AI 驱动编排)

灵活模式利用 AI 的智能判断能力,根据实时情况动态规划操作步骤。在这种模式下:

  • 动态规划:智能体根据当前屏幕状态和任务进展实时调整操作策略。
  • 异常处理:遇到意外情况时,AI 可以自主判断如何应对,不需要预先定义所有可能的异常路径。
  • 上下文感知:智能体会根据之前步骤的执行结果来调整后续操作,实现真正的自适应执行。
  • 自然语言驱动:整个过程只需用自然语言描述任务目标,无需预先编排流程。

灵活模式特别适合以下场景:

  • 首次执行的新任务(尚未形成标准流程)
  • 需要根据数据内容做出不同处理的判断性任务
  • 涉及复杂决策的非结构化任务
  • 探索性任务(不确定最优执行路径)

全程状态追踪

无论采用哪种执行模式,DesireCore 都提供全面的状态追踪能力:

实时进度显示: 你可以随时查看当前任务的执行进度,了解已完成多少步骤、正在执行哪一步、预计还需要多长时间。

超时提醒: 如果某个步骤的执行时间超过预期,系统会自动发出提醒,你可以选择继续等待、跳过当前步骤或中止整个流程。

自动重分配: 当某个步骤失败后,系统可以根据预设策略自动重试,或者将任务重新分配到其他设备上执行。

完成汇总: 任务完成后,系统会生成详细的执行报告,包括每个步骤的执行时间、成功/失败状态、处理的数据量等信息。这些报告对于后续的流程优化非常有价值。


第五部分:实战案例一——批量 CRM 数据录入

让我们通过一个具体的实战案例来展示 DesireCore GUI 自动化的完整流程。

场景描述

某公司的销售团队每周都会收集到一批新的潜在客户信息,这些信息存储在一份 Excel 表格中,包含客户姓名、公司名称、职位、手机号、邮箱、来源渠道等字段。销售助理需要将这些信息逐条录入到公司使用的 CRM 系统(以 Salesforce 为例)中。

每周大约有 200-300 条新记录,每条记录手工录入需要 2-3 分钟(打开新建页面、逐个字段填写、选择下拉选项、保存),整个过程需要 8-15 个小时。这不仅极其耗时,而且容易出错——复制粘贴时可能错行、下拉选项可能选错、手机号格式可能不统一。

准备工作

在开始自动化之前,需要做好以下准备:

  1. 确认设备连接:确保安装了 HostAgent 的电脑已与 DesireCore 完成配对且在线。
  2. 准备数据文件:确保 Excel 文件已保存在目标电脑的指定位置,数据格式规范(列标题清晰、无合并单元格)。
  3. 确认 CRM 登录状态:确保 Salesforce 已登录,或者准备好登录凭据。
  4. 字段映射确认:明确 Excel 中的每一列对应 CRM 中的哪个字段。

执行过程

在 DesireCore 的对话界面中,输入任务描述:

“请帮我把桌面上的’新客户名单0402.xlsx’中的客户数据逐条录入到 Salesforce 的’潜在客户’模块中。Excel 表格的列分别是:A-姓名、B-公司、C-职位、D-手机号、E-邮箱、F-来源渠道。手机号需要确保是 11 位数字格式。如果某条记录有问题就跳过并标记。”

智能体会开始执行以下操作序列:

阶段一:数据预处理

  1. 打开桌面上的 Excel 文件
  2. 读取表格数据,统计总行数
  3. 对手机号列进行格式预检查
  4. 向用户汇报:“共检测到 256 条记录,其中 12 条手机号格式异常(非 11 位数字),将在录入时跳过并标记。确认继续?”

阶段二:逐条录入

对于每一条有效记录:

  1. 切换到 Chrome 浏览器中的 Salesforce 页面
  2. 点击”新建潜在客户”按钮
  3. 等待新建表单加载完成
  4. 在”姓名”字段输入客户姓名
  5. 在”公司”字段输入公司名称
  6. 在”职位”字段输入职位信息
  7. 在”手机”字段输入手机号
  8. 在”邮箱”字段输入邮箱地址
  9. 在”来源”下拉菜单中选择对应的来源渠道
  10. 点击”保存”按钮
  11. 截图验证保存是否成功(检查是否出现成功提示或详情页面)
  12. 如果保存失败,记录错误信息并截图
  13. 切换回 Excel,在当前行添加状态标记(“已录入”或”失败+原因”)
  14. 移动到下一行

阶段三:结果汇报

所有记录处理完毕后,智能体生成执行报告:

“批量录入任务已完成。处理情况如下:

  • 总记录数:256 条
  • 成功录入:241 条
  • 格式异常跳过:12 条(手机号非 11 位)
  • 录入失败:3 条(2 条因邮箱重复被 Salesforce 拒绝,1 条因公司名包含特殊字符)
  • 总耗时:1 小时 47 分钟
  • Excel 文件已更新录入状态标记

失败记录详情已汇总在 Excel 的 Sheet2 中,请查阅。“

效率对比

指标手工操作DesireCore 自动化
处理 256 条记录耗时约 10 小时约 1.8 小时
错误率3-5%(疲劳导致)<1%(格式校验+视觉验证)
人工参与度100%(全程手动)5%(下达指令+查看报告)
可重复性依赖操作人员状态一致且稳定

进阶优化:固化为 SOP

如果这个任务每周都需要执行,你可以将上述流程固化为标准工作流:

  1. 在任务完成后,选择”保存为工作流”
  2. 设置触发条件(如”每周一上午 9:00 自动执行”或”当指定文件夹中出现新 Excel 文件时触发”)
  3. 配置参数化选项(如 Excel 文件路径、CRM 模块名称等可以在每次执行时指定)
  4. 设置完成后的通知方式(邮件、企业微信、钉钉等)

此后,整个录入流程就会自动运行,你只需在收到完成通知后查看执行报告即可。


第六部分:实战案例二——跨应用数据转移(后台 → Excel → 邮件)

场景描述

运营团队每天需要从公司的后台管理系统中导出前一天的销售数据,在 Excel 中进行整理和数据透视分析,然后将分析结果通过邮件发送给管理层。这个流程涉及三个不同的应用:Web 后台系统、Excel 和 Outlook/企业邮箱,需要在它们之间进行数据的流转和处理。

跨应用数据转移流程

手动执行这个流程通常需要 30-45 分钟,而且因为是每天必须完成的任务,往往成为运营人员早上到岗后的第一件”苦差事”。

任务描述

在 DesireCore 中输入:

“每天早上 8:30 自动执行以下任务:

  1. 登录公司后台管理系统(地址:admin.company.com),进入’销售数据’模块,导出昨天的销售明细报表为 Excel 文件
  2. 打开导出的 Excel 文件,创建一个数据透视表,按产品类别汇总销售金额和订单数量,并生成柱状图
  3. 将整理好的 Excel 文件作为附件,通过 Outlook 发送邮件给管理层分发组(leadership@company.com),邮件主题为’日报:[日期] 销售数据分析’,正文包含当天的关键数据摘要”

详细执行流程

阶段一:后台数据导出

  1. 打开 Chrome 浏览器
  2. 导航到 admin.company.com
  3. 如果需要登录,输入用户名和密码(首次需要用户提供,后续可使用安全存储的凭据)
  4. 进入”销售数据”模块
  5. 设置日期筛选条件为”昨天”
  6. 点击”导出”按钮
  7. 选择导出格式为 Excel
  8. 等待文件下载完成
  9. 截图确认文件已成功下载到”下载”文件夹

阶段二:Excel 数据整理

  1. 打开下载的 Excel 文件
  2. 检查数据完整性(行数、列标题是否正确)
  3. 选中数据区域
  4. 插入数据透视表到新工作表
  5. 设置行字段为”产品类别”
  6. 设置值字段为”销售金额”(求和)和”订单数量”(计数)
  7. 按销售金额降序排列
  8. 选中数据透视表,插入柱状图
  9. 设置图表标题和格式
  10. 回到数据透视表,提取关键数据:总销售额、总订单数、Top 3 产品类别及其销售额
  11. 保存文件,重命名为”销售日报_[日期].xlsx”

阶段三:邮件发送

  1. 打开 Outlook
  2. 点击”新建邮件”
  3. 在收件人栏输入 leadership@company.com
  4. 输入邮件主题:“日报:2026-04-01 销售数据分析”
  5. 在正文中编写数据摘要:

各位领导好,

以下是 2026 年 4 月 1 日的销售数据摘要:

  • 总销售额:¥1,234,567
  • 总订单数:456 单
  • 同比昨日:+12.3%
  • Top 3 产品类别:
    1. 智能硬件 ¥456,789(占比 37%)
    2. 软件服务 ¥345,678(占比 28%)
    3. 配件耗材 ¥234,567(占比 19%)

详细分析请见附件。

  1. 添加 Excel 文件为附件
  2. 点击”发送”
  3. 截图确认邮件已成功发送

跨应用协调的关键

这个案例的核心难点在于三个应用之间的数据流转。传统 RPA 处理这种跨应用场景时,需要为每个应用分别编写操作脚本,并通过固定的文件路径或剪贴板来传递数据。一旦任何一个环节出现意外(如下载路径变化、Excel 版本不同导致菜单位置变动、Outlook 更新了界面),整个流程就会崩溃。

DesireCore 的 AI 智能体凭借视觉理解能力,能够在每一步操作后实时识别当前界面状态,自动适应界面变化。例如:

  • 如果后台系统的导出按钮位置变了,AI 可以通过文字识别找到新位置
  • 如果 Excel 版本不同导致”插入数据透视表”的菜单路径不同,AI 会自适应定位
  • 如果 Outlook 界面更新了,AI 同样能识别新的”新建邮件”按钮

这种自适应能力是 AI 原生自动化相比传统 RPA 的核心优势。

定时执行与异常处理

将此流程设置为定时任务后,DesireCore 的调度系统会在每天早上 8:30 自动触发执行。如果执行过程中遇到异常,系统会按照以下策略处理:

  • 后台系统无法访问:等待 5 分钟后重试,最多重试 3 次。如果仍然失败,向运营人员发送通知:“后台系统访问异常,今日日报需要手动处理。”
  • 数据导出为空:可能是节假日无销售数据。系统会发送邮件告知:“昨日无销售数据,日报将不发送。”
  • Outlook 未登录:尝试自动登录,如果需要两步验证则通知用户手动处理。

第七部分:实战案例三——定时 GUI 巡检与异常告警

场景描述

IT 运维团队需要定期检查多个监控面板(如 Grafana、Zabbix、公司自建的运维大屏)的状态,确认各项指标正常、无告警信息。这项工作通常由值班人员每隔 1-2 小时手动执行一次:打开各个监控页面、逐一检查关键指标、确认是否有异常告警、如果有则记录并上报。

这种巡检工作虽然单次耗时不长(约 10-15 分钟),但由于需要高频重复执行,累计消耗大量人力。而且在夜间值班时段,人工巡检的可靠性会因疲劳而下降。

任务配置

在 DesireCore 中配置定时巡检任务:

“每隔 1 小时执行一次以下 GUI 巡检任务:

  1. 打开 Chrome,访问 Grafana 监控面板(grafana.company.com/dashboard/main)
    • 检查 CPU 使用率是否超过 80%
    • 检查内存使用率是否超过 85%
    • 检查磁盘使用率是否超过 90%
    • 检查是否有红色告警标记
  2. 切换到 Zabbix 页面(zabbix.company.com)
    • 检查’未确认问题’列表是否为空
    • 如果有未确认问题,记录问题详情
  3. 切换到公司运维大屏(ops-screen.company.com)
    • 检查服务可用性是否全部为绿色
    • 检查响应时间是否全部在阈值以内

如果发现任何异常:

  • 截取异常画面
  • 通过企业微信发送告警到运维群(包含异常描述和截图)
  • 如果是严重异常(如服务不可用),额外电话通知值班负责人”

巡检执行详情

每轮巡检的执行步骤:

  1. Grafana 检查:

    • 打开 Grafana 主监控面板
    • 截取全屏画面
    • 通过 OCR 读取 CPU、内存、磁盘使用率的当前数值
    • 与设定的阈值进行比对
    • 扫描页面是否存在红色/橙色告警图标
    • 记录检查结果
  2. Zabbix 检查:

    • 导航到 Zabbix 问题列表页面
    • 读取”未确认问题”的数量
    • 如果数量不为零,逐一读取问题的名称、严重程度、持续时间和影响范围
    • 记录检查结果
  3. 运维大屏检查:

    • 导航到运维大屏页面
    • 检查各服务状态指示灯的颜色
    • 读取响应时间数值
    • 记录检查结果
  4. 结果处理:

    • 如果所有检查项正常:记录巡检日志,继续等待下一轮
    • 如果发现异常:
      • 生成异常报告(包含截图、异常指标、可能的影响)
      • 通过企业微信 API 或 GUI 操作发送告警消息
      • 根据严重程度决定是否触发电话通知

巡检报告示例

正常情况下的巡检日志:

巡检时间: 2026-04-02 14:00:00 巡检结果: 全部正常

  • Grafana:CPU 45%,内存 62%,磁盘 71% — 全部在阈值内
  • Zabbix:未确认问题 0 条
  • 运维大屏:所有服务绿色,响应时间正常

异常情况下的告警消息:

[告警] 巡检发现异常 — 2026-04-02 15:00:00

在定时巡检中发现以下异常:

  1. Grafana — 服务器 prod-web-03 CPU 使用率 94%(阈值 80%),已持续 23 分钟
  2. Zabbix — 存在 2 条未确认问题:
    • 【高】prod-db-01 磁盘 I/O 延迟异常(15:02 触发)
    • 【中】prod-cache-02 连接数接近上限(14:47 触发)

已附上异常截图,请及时处理。

巡检自动化的价值

方面人工巡检DesireCore 自动化巡检
执行频率1-2 小时/次(人力限制)可低至 5 分钟/次
夜间可靠性受疲劳影响,容易遗漏全天候一致执行
响应速度发现到上报 5-10 分钟发现到告警 <1 分钟
检查粒度依赖人员经验,可能忽略细节按照预定义规则逐项检查
历史追溯依赖手工记录,可能缺失每轮巡检自动存档
人力成本需要专人值班释放人力到更有价值的工作

第八部分:安全机制——白名单、人闸门、审计日志

让 AI 智能体操作你的电脑和手机,安全性自然是首要关切。DesireCore 在设计 Computer Use 功能时,将安全性作为核心考量,建立了多层次的安全防护体系。

五层安全防护机制

应用白名单控制

并非所有应用都适合被自动化操作。DesireCore 提供了应用白名单机制,让你精确控制 AI 智能体可以操作哪些应用:

白名单配置:

  • 在设备管理页面,为每台设备配置允许操作的应用列表
  • 只有在白名单中的应用才会响应智能体的操作指令
  • 不在白名单中的应用即使被智能体请求操作,HostAgent 也会拒绝执行

典型配置示例:

  • 允许操作:Chrome、Excel、Outlook、公司 CRM 系统、ERP 系统
  • 禁止操作:网银应用、密码管理器、系统设置(部分)、杀毒软件

动态管理:

  • 白名单可以随时调整
  • 支持按时间段设置不同的白名单策略(如工作时间允许操作 CRM,非工作时间仅允许巡检类操作)
  • 支持按工作流设置白名单(每个工作流只能操作其必需的应用)

人闸门确认机制

对于敏感操作,DesireCore 引入了”人闸门”(Human Gate)确认机制。这是一个类似于工业生产中安全闸门的概念——在执行关键操作之前,必须获得人类操作者的明确确认。

触发条件: 人闸门不是在每一步操作时都会触发的,那样会失去自动化的意义。它只在以下情况下触发:

  • 资金相关操作:涉及付款、转账、订单确认等金融操作时
  • 数据删除操作:执行删除数据、清空记录等不可逆操作时
  • 权限变更操作:修改用户权限、角色分配等安全敏感操作时
  • 外部通信操作:发送邮件、消息到外部联系人时(可配置)
  • 系统配置变更:修改系统设置、网络配置等可能影响服务稳定性的操作时
  • 自定义规则:你可以自定义哪些操作需要触发人闸门

确认流程:

  1. 智能体执行到需要确认的步骤时暂停
  2. 向用户发送确认请求,包含:
    • 即将执行的操作描述
    • 操作的目标和预期效果
    • 操作涉及的数据或对象
    • 当前屏幕截图
  3. 用户审阅后选择:
    • 确认执行:继续执行该操作
    • 拒绝执行:跳过该操作,根据策略决定后续流程
    • 修改后执行:调整操作参数后再执行
  4. 确认操作会记录在审计日志中

人闸门的灵活性:

  • 可以设置确认超时时间(如 5 分钟内未确认则自动跳过)
  • 可以指定确认人(不一定是发起任务的人,可以是上级或安全审核人员)
  • 可以设置”批量确认”模式(对于同类操作,确认一次后后续同类操作自动执行)

完整操作审计日志

每一次 Computer Use 操作都会被完整记录在审计日志中,确保操作的可追溯性和合规性:

日志记录内容:

  • 时间戳:操作执行的精确时间
  • 操作者:发起任务的用户身份
  • 目标设备:操作执行在哪台设备上
  • 操作类型:鼠标操作、键盘输入、应用操作等
  • 操作详情:具体的操作内容(如”在 Salesforce 的姓名字段输入’张三’”)
  • 截图存档:操作前后的屏幕截图
  • 执行结果:操作是否成功,如果失败则记录失败原因
  • 人闸门记录:如果触发了人闸门,记录确认人、确认时间和确认结果

日志用途:

  • 合规审计:满足行业合规要求(如金融、医疗等受监管行业)
  • 问题排查:当自动化流程出现异常时,通过日志可以精确定位问题发生的步骤和原因
  • 流程优化:通过分析日志中的执行时间和成功率数据,发现可优化的环节
  • 安全追溯:如果发生安全事件,审计日志提供完整的操作证据链

日志管理:

  • 支持按时间范围、设备、用户、操作类型等维度检索日志
  • 支持日志导出(CSV、JSON 格式)
  • 支持设置日志保留策略(如保留 90 天)
  • 关键操作日志可设置为不可删除

一键中断功能

在任何时候,你都可以通过一键中断功能立即停止 AI 智能体在目标设备上的所有操作:

  • 快捷键中断:在 DesireCore 客户端按下指定快捷键(默认 Ctrl+Shift+Esc
  • 按钮中断:点击任务执行界面上的”紧急停止”按钮
  • 设备端中断:在目标设备上通过 HostAgent 的托盘图标选择”停止所有操作”
  • 远程中断:通过手机端的 DesireCore App 远程停止任意设备上的操作

中断后,智能体会立即停止所有操作,并汇报当前的执行状态和已完成的步骤,方便用户决定后续处理方式。

操作限速防护

为了防止 AI 智能体过快的操作速度导致目标应用出现问题(如触发反爬虫机制、超过 API 调用频率限制等),DesireCore 内置了操作限速机制:

  • 默认限速:鼠标点击和键盘输入之间有合理的间隔时间(模拟人类操作节奏)
  • 自定义限速:可以为不同应用设置不同的操作速度
  • 智能限速:AI 会根据应用的响应速度自动调整操作节奏——如果页面加载慢,就等待更长时间后再操作
  • 频率告警:如果操作频率接近应用的限制阈值,系统会自动降速并告警

第九部分:移动端自动化——Android/iOS/HarmonyOS

随着移动办公的普及,越来越多的工作流程涉及手机端操作。DesireCore 的 Computer Use 功能不仅覆盖桌面平台,还全面支持移动端自动化。

移动端自动化的特殊挑战

与桌面端相比,移动端自动化面临一些独特的挑战:

  • 屏幕尺寸小:移动设备的屏幕空间有限,需要频繁滚动才能看到完整内容
  • 触控交互:手机使用触控而非鼠标,操作方式有所不同(点击、长按、滑动、捏合缩放等)
  • 系统权限严格:特别是 iOS 和 HarmonyOS,对后台操作有较多限制
  • 网络环境多变:移动设备可能在 WiFi 和蜂窝网络之间切换
  • 通知干扰:手机上的各种通知弹窗可能干扰自动化操作

Android 自动化

Android 是移动端自动化最成熟的平台,DesireCore 的 HostAgent 通过 Android 无障碍服务(AccessibilityService)实现全面的 GUI 操作能力:

支持的操作:

  • 屏幕触控:单指点击、长按、滑动(上下左右)、双指捏合
  • 文字输入:通过剪贴板方式输入(绕过输入法兼容问题)
  • 应用管理:打开、切换、关闭应用
  • 通知处理:读取和响应通知
  • 系统操作:调整设置、连接 WiFi 等

典型场景:

  • 在企业 App 中批量审批待办事项
  • 在移动 CRM 中更新客户跟进状态
  • 在即时通讯应用中发送标准化回复
  • 在移动端完成需要定期操作的签到、打卡等任务

注意事项:

  • 建议使用 Android 8.0 及以上版本
  • 需要关闭电池优化以防止 HostAgent 被系统杀掉
  • 建议保持屏幕常亮(可在设置中开启”开发者选项 → 不锁屏”)

iOS 自动化

iOS 系统的封闭性使得自动化操作相比 Android 有更多限制,但 DesireCore 仍然通过多种技术手段实现了可用的自动化方案:

实现方式:

  • 通过 iOS 辅助功能 API 实现基本的界面操作
  • 利用 iOS 快捷指令(Shortcuts)实现系统级操作
  • 对于越狱设备,可以获得更完整的操作能力

支持的操作:

  • 屏幕触控:点击、滑动、长按
  • 应用切换:通过辅助功能快捷方式切换应用
  • 文字输入:通过剪贴板方式输入
  • 部分系统操作:通过快捷指令实现

限制与解决方案:

  • iOS 不支持后台截图(限制)→ DesireCore 通过录屏接口获取画面(解决方案)
  • iOS 限制跨应用操作(限制)→ 通过辅助功能和快捷指令组合实现(解决方案)
  • iOS 的权限弹窗需要手动确认(限制)→ 首次授权后后续操作可自动进行(解决方案)

HarmonyOS 自动化

华为 HarmonyOS 作为新兴的移动操作系统,DesireCore 也提供了原生支持:

技术基础:

  • 基于 HarmonyOS 的无障碍框架(AccessibilityExtensionAbility)
  • 支持 HarmonyOS 4.0 及以上版本
  • 兼容鸿蒙原生应用和 Android 兼容应用

特色功能:

  • 利用 HarmonyOS 的分布式能力,可以在多设备之间无缝流转任务
  • 支持 HarmonyOS 的原子化服务
  • 与华为智慧助手的潜在集成能力

移动端实战案例:App 内重复性任务自动化

场景: 电商运营人员每天需要在商品管理 App 中逐一修改 50 个商品的促销价格。

手动流程: 打开 App → 搜索商品 → 进入编辑页 → 修改价格 → 保存 → 返回列表 → 搜索下一个商品… 重复 50 次,耗时约 1.5 小时。

DesireCore 自动化:

  1. 准备好包含商品编号和新价格的数据(可以是 Excel 或文本文件)
  2. 在 DesireCore 中创建任务:

“请在手机上的商品管理 App 中,按照以下列表逐一修改商品价格: [商品编号] → [新价格] SKU001 → 199.00 SKU002 → 299.00 … 修改后确认保存成功,如果某个商品找不到则跳过并标记。”

  1. 智能体在手机上自动执行:
    • 打开商品管理 App
    • 在搜索框输入商品编号
    • 点击搜索结果进入商品详情
    • 点击”编辑”按钮
    • 定位到价格字段
    • 清空原有价格,输入新价格
    • 点击”保存”
    • 截图验证保存成功
    • 返回列表,处理下一个商品
  2. 完成后生成修改报告

耗时: 约 20 分钟(机器操作速度均匀且不会疲劳)

桌面端与移动端协同

DesireCore 最强大的能力之一是支持桌面端和移动端的协同工作流。例如:

  1. 在 Windows 电脑上从数据库导出数据
  2. 在 macOS 电脑上用专业软件生成报表
  3. 将报表通过 Android 手机上的企业微信发送给客户
  4. 在 iOS iPad 上用 Apple Pencil 标注审批意见

这种跨平台、跨设备的协同能力,使得 DesireCore 不仅仅是一个单点的自动化工具,而是一个真正的”万能数字助手”。


第十部分:与超级文书配合——文档处理的完整闭环

Computer Use 解决了 GUI 操作自动化的问题,但在很多工作流中,文档处理是不可或缺的一环。DesireCore 的”超级文书”功能专为文档场景设计,与 Computer Use 配合使用,可以构建从数据获取到文档输出的完整闭环。

超级文书是什么?

超级文书将代码审查(Code Review)机制应用于文档写作,核心理念是”AI 帮你写,你来审”。与传统的 AI 写作工具不同,超级文书不是直接生成一篇文档让你”全盘接受或全盘拒绝”,而是像代码审查那样,逐处标记修改、提供选择、附带理由。

核心工作方式:

  1. AI 起草/修改:你提供文档的初稿或需求描述,AI 会生成或修改文档内容。
  2. 逐处标记修改:每一处修改都会被清晰地标记出来——新增的内容、删除的内容、修改的内容,一目了然。
  3. 三种操作选择:对于每一处修改,你可以:
    • 接受(Accept):认同这处修改,保留 AI 的建议
    • 拒绝(Reject):不认同这处修改,保留原文
    • 编辑(Edit):在 AI 建议的基础上进一步调整
  4. 修改理由说明:AI 会为每一处修改附带理由说明,解释为什么要做这样的修改(如”此处语法不通顺”、“这段描述不够准确”、“建议用更专业的术语”等)。
  5. Git 式版本历史:所有的修改和审阅记录都会保存,你可以随时回溯到任何一个历史版本。

Computer Use + 超级文书的协同场景

当 Computer Use 和超级文书结合使用时,可以实现以下强大的工作流:

场景一:自动采集数据 + 智能生成报告

  1. Computer Use 在多个系统中自动采集数据(如从 ERP 导出销售数据、从 HR 系统导出人力数据、从财务系统导出成本数据)
  2. 超级文书基于采集到的数据自动生成月度经营分析报告
  3. 用户通过审阅界面逐处检查 AI 生成的分析结论和建议,确认或修改
  4. Computer Use 将最终版本的报告通过邮件发送给管理层

整个流程中,人类只需要做”审阅”这一个环节,其余的数据采集、报告生成、邮件发送都由 AI 自动完成。

场景二:合同审查与修改

  1. 用户上传合同文档
  2. 超级文书 自动审查合同条款,标记潜在风险点和建议修改的条款
  3. 用户审阅每一处标记,接受、拒绝或修改 AI 的建议
  4. 审阅完成后,Computer Use 自动打开公司的合同管理系统,上传修改后的合同并填写审批表单

场景三:多语言文档翻译与校对

  1. 用户提供中文文档
  2. 超级文书 生成英文翻译版本,逐段对照标记
  3. 用户审阅翻译质量,对不满意的段落进行修改
  4. Computer Use 将翻译后的文档上传到公司的文档管理系统,更新多语言版本

版本历史的实用价值

超级文书的 Git 式版本历史功能不仅仅是”可以回退”那么简单。它为文档协作带来了全新的体验:

  • 变更追溯:每一次修改都有记录,可以清楚地看到”谁在什么时候做了什么修改”。
  • 版本对比:可以对比任意两个版本之间的差异,了解文档的演变过程。
  • 审阅链:完整的审阅记录形成了一条审阅链,满足合规要求(如 ISO 文档控制标准)。
  • 回滚能力:如果发现最新的修改有问题,可以一键回滚到之前的稳定版本。
  • 分支协作:多人可以基于同一份文档的不同版本进行并行修改,最后合并。

超级文书与传统 AI 写作工具的对比

特性传统 AI 写作工具DesireCore 超级文书
输出方式一次性生成完整文档逐处标记修改
用户控制全盘接受或全盘拒绝逐处接受/拒绝/编辑
修改透明度不透明(不知道改了哪里)完全透明(每处修改有标记)
修改理由每处修改附带理由说明
版本管理无或简单的撤销Git 式完整版本历史
与自动化集成通常不支持与 Computer Use 无缝协作

总结:从手动到智能自动化的未来

通过本文的全面介绍,我们可以看到 DesireCore 的 GUI 桌面自动化不是对传统 RPA 的简单替代,而是一种范式级的升级。让我们回顾一下核心要点:

核心技术突破

  1. AI 原生的视觉理解:不再依赖固定的像素坐标或元素选择器,而是通过 AI 视觉能力理解界面语义,自适应界面变化。
  2. 自然语言驱动:无需编写脚本或代码,用自然语言描述任务即可自动执行。
  3. 闭环验证:每步操作都伴随截图验证,确保执行准确性。
  4. 智能异常处理:遇到意外情况时能自主判断和应对,不再脆弱地一报错就停止。
  5. 跨平台覆盖:Windows、macOS、Linux、Android、iOS、HarmonyOS 六大平台全面支持。

实际应用价值

从本文的三个实战案例中可以看出,DesireCore 的 GUI 自动化在不同场景下都能带来显著的效率提升:

  • 批量 CRM 数据录入:从 10 小时缩短到 1.8 小时,错误率从 3-5% 降低到 1% 以下
  • 跨应用数据转移:从 30-45 分钟的手动操作变为全自动定时执行
  • 定时 GUI 巡检:从依赖人工值班变为全天候自动监控,响应速度提升到分钟级

安全与可控

DesireCore 没有为了追求自动化而牺牲安全性。应用白名单、人闸门确认、完整审计日志、一键中断和操作限速这五大安全机制,确保 AI 智能体始终在你的控制之下运行。特别是人闸门机制,为敏感操作提供了额外的安全保障,让你在享受自动化便利的同时不必担心失控风险。

完整的工具链

Computer Use 不是孤立存在的。与智能任务编排引擎配合,单步操作可以被组织为复杂的工作流。与超级文书配合,数据采集和文档处理形成完整闭环。两种执行模式——固化模式(SOP/Workflow)和灵活模式(AI 驱动编排)——适应不同程度的自动化需求。

展望未来

GUI 桌面自动化正处于一个激动人心的发展阶段。随着 AI 视觉理解能力和推理能力的持续提升,我们可以期待:

  • 更复杂的任务处理:AI 将能够处理需要多步推理和复杂判断的高级任务,而不仅仅是机械性的重复操作。
  • 更自然的人机协作:人和 AI 之间的协作将更加流畅,AI 能够在需要时主动寻求人类指导,在确信时独立决策。
  • 更广泛的平台支持:除了当前支持的六大平台,未来可能扩展到更多设备类型和操作系统。
  • 更强的学习能力:AI 将能够从用户的操作习惯中学习,自动优化操作策略和流程。
  • 更深的系统集成:与企业内部系统的集成将越来越深入,从 GUI 操作逐步扩展到 API 混合调用、数据库直连等多种方式。

DesireCore 正在引领这场从手动到智能自动化的变革。无论你是需要自动化日常重复操作的个人用户,还是希望提升运营效率的企业团队,DesireCore 的 Computer Use 功能都值得一试。

从今天开始,让 AI 智能体成为你的数字化助手,把时间和精力释放出来,投入到真正需要人类创造力和判断力的工作中去。这不仅是效率的提升,更是工作方式的根本变革。


本文基于 DesireCore 最新版本撰写。如需了解更多信息或开始使用,请访问 DesireCore 官网 下载客户端,或查阅 产品文档 获取详细使用指南。