Windows环境Browser-Use平台部署与AI自动化远程访问实现过程

文章目录

    • 前言
    • 1. 安装Ollama
    • 2. Gemma3模型安装与运行
    • 3. 虚拟环境准备
      • 3.1 安装Python
      • 3.2. 安装conda
    • 4. 本地部署Brower Use WebUI
      • 4.1 创建一个新conda环境
      • 4.2 克隆存储库
      • 4.3 安装依赖环境
      • 4.4 安装浏览器自动化工具
      • 4.5 修改配置信息
    • 5. 本地运行测试
    • 6. 安装内网穿透
      • 6.1 配置公网地址
      • 6.2 配置固定公网地址
    • 总结

前言

本方案将基于Windows系统环境构建Browser-Use WebUI系统,通过整合cpolar内网穿透技术实现远程访问功能,并结合本地部署的AI大型模型完成数据解析与任务执行,最终形成定制化智能自动化助手系统。

Browser-Use作为新一代人机交互工具,其创新性在于通过数字孪生技术模拟真实用户操作行为。区别于传统爬虫程序的静态抓取模式,该系统采用动态行为模拟技术,可精准还原用户点击轨迹、页面浏览节奏及表单交互过程,从而有效突破各类反爬虫防护体系。

系统具备以下核心能力:

  1. 动态数据采集优化:基于用户行为建模技术,突破网站安全防护限制,实现关键数据的持续稳定抓取
  2. 智能流程自动化:支持自动化执行注册登录、表单填写、内容提交等复合型交互任务
  3. 界面深度理解能力:不仅可提取文本图像资源,更可识别并操作交互组件(如按钮控件、链接元素、输入框等)

该技术方案在自动化测试场景、商业情报收集、竞品数据跟踪等业务领域具有显著优势。通过将浏览器操作与AI分析能力进行深度融合,为构建智能自动化工作流提供了完整的解决方案。

1. 安装Ollama

在部署Browser-Use之前,我们首先需要先准备好Ollama和你要使用的本地大模型以及虚拟环境配置。

本例中使用的是Windows11系统专业版,通过Ollama运行本地大模型,之前曾经发布过如何在Windows安装Ollama的教程,有需要可以看看这篇文章:Windows本地部署Deepseek-R1大模型并使用Web界面远程交互

简单来说,就是访问Ollama的官网:Download Ollama on Windows

image-20250408144901346

下载对应版本的Ollama安装程序并安装:

image-20250408144936715

2. Gemma3模型安装与运行

本例中我打算使用的本地模型是Gemma3:27b,因为它有多模态能力,可以识别图片,稍后测试一下实际效果。

在Ollama的官网点击Models,就能找到安装命令:

ollama run gemma3:27b

image-20250422155507442

PS:默认会下载模型到C盘,如果想修改下载位置,可以在终端中执行下方命令来指定模型文件的存放目录,这里以d:\ollama为例,大家可以提前自定义位置:

set OLLAMA_MODELS=d:\ollama

如果你之前安装过Ollama,在执行命令后出现如下图提示,那么关闭终端,请先升级ollama到最新版本才能正常下载gemma3模型。

image-20250408153616855

模型下载完成之后,安装成功后会提示success:

image-20250408161835787

3. 虚拟环境准备

3.1 安装Python

本例使用Windows11专业版系统进行演示:

首先需要安装 python 3.12 下载地址:Python Release Python 3.12.0 | Python.org

image-20250318144358086

安装时需要注意,勾选下边两个选项,不然后续有可能报错:

image-20250318144818801

安装结束后,如出现下图提示,点击该选项(更改您的机器配置,以允许程序(包括Python)绕过260字符的“最大路径”限制)同意即可。

image-20250318145149139

确认后,点击close关闭即可完成Python环境安装。

3.2. 安装conda

这里我使用的是本地已有的conda环境,大家也可以通过UV来创建虚拟环境:

conda下载地址:Anaconda Installers and Packages

安装时需要注意的是在这一步,需要勾选第三个选项,自动加载刚才安装的Python3.12环境:

image-20250318150527896

安装完成后,点击Finish即可:

image-20250318150909756

4. 本地部署Brower Use WebUI

接下来开始在Windows系统使用conda本地部署Brower Use WebUI

4.1 创建一个新conda环境

首先在Windows中打开cmd,执行下方命令创建虚拟环境:

conda create -n browseruse python=3.12

输入y确认:

image-20250422163301179

创建成功:

image-20250422163410427

如果提示’conda’ 不是内部或外部命令,也不是可运行的程序,我们需要配置一下环境变量,具体操作可以查看这篇文章:conda环境变量配置

环境创建好之后,执行下方命令激活这个新的conda环境:

conda activate browseruse

image-20250422163642838

如上图所示,这个conda环境就激活成功了。

4.2 克隆存储库

接下来,执行下方命令,将Browser-use WebUI拉取到本地:

git clone https://github.com/browser-use/web-ui.git

进入Browser-use WebUI项目路径:

cd web-ui

4.3 安装依赖环境

执行下方命令安装依赖环境:

pip install -r requirements.txt

image-20250422164626232

现在就安装好了:

image-20250422164716384

4.4 安装浏览器自动化工具

执行下方命令,安装浏览器自动化工具:

playwright install

image-20250422165658668

4.5 修改配置信息

然后执行下方命令,复制一份配置示例文件并改为.env格式文件:

copy .env.example .env

image-20250422170754786

复制后在webui安装的电脑路径中也能看到这两个文件:

image-20250422170903992

打开配置文件后可以修改你想要使用的模型路径,API KEY,使用自己哪个已有的浏览器路径等,本地中使用ollama调用本地大模型,就暂时不用修改了,稍后在web-ui界面中配置即可:

image-20250422172133694

修改完成后,保存退出即可。

5. 本地运行测试

执行下方命令:

python webui.py --ip 127.0.0.1 --port 7788

访问:http://localhost:7788

image-20250422171958209

即可在浏览器中打开browser-use 的 web-ui 界面了:

image-20250422172013738

关闭服务后想再次启动服务,可以打开cmd,执行conda activate browseruse 激活环境,然后cd web-ui进入web-ui路径,执行 python webui.py --ip 127.0.0.1 --port 7788 启动服务即可.

在主界面,上方的设置导航中选择Agent Settings,如果你本地部署的大模型不支持视觉识别,可以把这个使用视觉取消勾选,不然后续让AI执行任务时会报错。

image-20250423120048605

然后点击LLM Settings,对本地大模型进行设置:

image-20250423141304692

LLM Provider在下拉中选择ollama

Model Name需要手动输入你要调用的本地大模型名称,我这里使用的是gemma3:27b

这个模型名称可以在cmd终端中输入ollama list来进行查看:

image-20250423141449351

然后就可以点击顶部导航中的Run Agent来输入指令让AI自动来执行任务了:

image-20250423150254501

点击执行后,底部的结果和报错框中会显示运行时间:

image-20250423150542099

在cmd终端中也能看到刚才我们提的要求,与执行操作的步骤:

image-20250423150835193

执行任务同时AI会打开浏览器,自动进行搜索与后续操作:

image-20250423151104986

任务结束后,能看到AI成功执行了指令,帮我在B站搜索cpolar并打开搜索结果中的第一个视频:

image-20250423152122462

agent_history

美中不足的是使用其自带的浏览器在播放视频时,会提示浏览器不支持html5播放器,想要解决这个问题只需要在上边提到的.env配置文件中修改一下调用你自己电脑上的浏览器就可以了,而且登录视频网站后,在使用AI访问该网站时也无需二次登录了。

除了让它自动使用浏览器访问网站搜索并播放视频,我们也可以让它自动访问指定的网站查询某个账号发布的文章,并统计其账号发布的文章标题,发布时间,阅读量和点击量等信息。大家也可以根据自己的情况来提出要求让这个全自动的AI助力来为你提升工作效率,节省大量时间。

6. 安装内网穿透

现在我们已经成功在本地部署了Browser-Use WebUI并使用AI使用浏览器自动执行任务,但如果想实现不在同一网络环境下,也能随时随地在网页中远程使用本地部署的Browser-Use处理问题,那就需要借助cpolar内网穿透工具来实现公网访问了!接下来介绍一下如何安装cpolar内网穿透,过程同样非常简单:

首先进入cpolar官网:

cpolar官网地址: https://www.cpolar.com

点击免费使用注册一个账号,并下载最新版本的cpolar:

image-20250307152003085

登录成功后,点击下载cpolar到本地并安装(一路默认安装即可)本教程选择下载Windows版本。

image-20240319175308664

cpolar安装成功后,在浏览器上访问http://localhost:9200,使用cpolar账号登录,登录后即可看到配置界面,结下来在WebUI管理界面配置即可。

img

6.1 配置公网地址

接下来配置一下 Browser-Use WebUI 的公网地址:

登录后,点击左侧仪表盘的隧道管理——创建隧道,

  • 隧道名称:buse(可自定义命名,注意不要与已有的隧道名称重复)
  • 协议:选择 http
  • 本地地址:7788
  • 域名类型:选择随机域名
  • 地区:选择China Top

image-20250423153718664

隧道创建成功后,点击左侧的状态——在线隧道列表,查看所生成的公网访问地址,有两种访问方式,一种是http 和https:

image-20250423153756174

使用上面的任意一个公网地址,在平板或其他电脑的浏览器进行登录访问,即可成功看到 Browser-Use WebUI 界面,这样一个公网地址且可以远程访问就创建好了,使用了cpolar的公网域名,无需自己购买云服务器,即可到随时在线访问了!

image-20250423153936173

同样可以使用AI在浏览器中自动执行任务:

image-20250423154736017

小结

为了方便演示,我们在上边的操作过程中使用cpolar生成的HTTP公网地址隧道,其公网地址是随机生成的。这种随机地址的优势在于建立速度快,可以立即使用。然而,它的缺点是网址是随机生成,这个地址在24小时内会发生随机变化,更适合于临时使用。

如果有长期远程访问Browser-use WebUI让AI使用浏览器自动处理问题,或者异地访问与使用其他本地部署的服务的需求,但又不想每天重新配置公网地址,还想让公网地址好看又好记并体验更多功能与更快的带宽,那我推荐大家选择使用固定的二级子域名方式来为WebUI配置一个公网地址。.

6.2 配置固定公网地址

接下来演示如何为其配置固定的HTTP公网地址,该地址不会变化,方便分享给别人长期查看你部署的项目,而无需每天重复修改服务器地址。

配置固定http端口地址需要将cpolar升级到专业版套餐或以上。

登录cpolar官网,点击左侧的预留,选择保留二级子域名,设置一个二级子域名名称,点击保留:

image-20250423155504574

保留成功后复制保留成功的二级子域名的名称:mybuse,大家也可以设置自己喜欢的名称。

image-20250423155536754

返回Cpolar web UI管理界面,点击左侧仪表盘的隧道管理——隧道列表,找到所要配置的隧道:buse,点击右侧的编辑:

image-20250423155631106

修改隧道信息,将保留成功的二级子域名配置到隧道中

  • 域名类型:选择二级子域名
  • Sub Domain:填写保留成功的二级子域名:mybuse

点击更新(注意,点击一次更新即可,不需要重复提交)

image-20250423155716162

更新完成后,打开在线隧道列表,此时可以看到公网地址已经发生变化,地址名称也变成了固定的二级子域名名称的域名:

image-20250423155818127

最后,我们使用上边任意一个固定的公网地址访问,可以看到访问成功,这样一个固定且永久不变的公网地址就设置好了,可以随时随地在公网环境异地在线访问本地部署的Browser-use WebUI来让AI帮你全自动处理问题了!

image-20250423160133841

总结

本项目成功在Windows客户端完成了Browser-Use WebUI系统的本地环境部署,并通过cpolar内网穿透技术实现了跨网络环境的远程浏览器控制功能。经测试验证,该方案通过配置固定子域名实现持续访问,表现出优异的系统稳定性和操作便捷性。

此技术架构显著简化了自动化操作的实施难度,使普通用户也能高效调用AI驱动的网页交互功能。通过将智能分析引擎与浏览器操作进行技术融合,为自动化数据采集和流程优化提供了创新性解决方案。未来版本可重点优化交互响应速度和异常处理机制,如需了解具体实施细节,欢迎在评论区展开深入探讨。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.tpcf.cn/pingmian/86233.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

React + Umi(Umijs/Max) 搭建项目及配置

文章标题 01 环境准备02 快速构建2.1 参数选项2.2 umix 还是 umijs/max2.3 使用 pnpm (推荐)2.4 使用 npm 和 yarn2.5 启动项目2.6 启用 Prettier(可选)2.7 打包部署发布 03 Tailwind CSS 插件(可选)3.1 安…

JDK 17 中 java.lang.System 常用方法及应用场景

概述 java.lang.System 在 JDK 17 中依然是最核心的系统交互类之一。以下是针对 JDK 17 的常用方法详解,包含新特性和最佳实践。 一、标准 I/O 流(更新至 JDK 17) 1. 控制台输出 // 传统输出方式(仍然可用) System…

深入探究Manticoresearch Java API:新增与查询文档实战

引言Java 项目集成 Manticoresearch新增文档操作查询文档操作 SQL 查询API 查询 总结 引言 Manticore Search 是一个使用 C 开发的高性能搜索引擎,创建于 2017 年,其前身是 Sphinx Search。它显著改进了 Sphinx 的功能,修复了数百个错误&am…

Linux远程机器无法连接-------解决方案

笔者这几天碰到linux机器远程ssh 无法连接的情况 背景分析 笔者在linux机器进行测试的时候,偶发突然无法连接机器,如下图所示,vscode的远程连接也无法进行。 telnet也无法登录。 解决方案 笔者的登录场景是这样的,所以怀疑是…

网络模型中,应用层支持什么协议

在网络模型中(无论是 OSI 七层模型 还是 TCP/IP 四层模型),应用层 是最顶层,直接为用户或应用程序提供网络服务接口。它支持的是各种具体的应用程序协议,这些协议定义了特定类型应用程序如何进行通信和数据交换。 以下…

比特币序数理论与铭文的终极指南

引言:比特币网络的意外趋势 去年,比特币网络上出现了一个意外的趋势——这一趋势令许多比特币纯粹主义者感到愤怒和惊讶,但同时也在更广泛的加密货币社区中点燃了对这个行业最古老、最安全区块链的希望和热情。 这个趋势涉及铭文&#xff0…

C/C++ DLL 动态链接库的开发与示例详解

简介 介绍 QT6&#xff0c;DLL 动态链接库的开发&#xff0c;开发示例 详细 DLL 入口函数 DllMain 是每个 dll 的入口函数&#xff0c;可以写&#xff0c;也可以不写&#xff0c;不影响其他库函数运行。如果使用此函数需要包含头文件#include <objbase.h>。 BOOL WI…

在 CentOS 7 上基于 Docker 的 LNMP 部署 Hexo

时间起因是因为之前BLOG没有备份数据都丢失了,今天在和朋友聊天的时候讨论到到底使用Hexo还是用Halo?最后还是想熟悉下这两种博客的架设和部署方式,每次部署都有各种不同的问题,旨在提升自己的学习认知。以此有机会得到更多大佬们的指导~ 因为我是在 CentOS 7 服务器上使用…

《Go小技巧易错点100例》第三十六篇

本期分享&#xff1a; 1.使用gops获取正在运行的Go进程 2.将静态文件编译到Go程序中 3.Go语言通过多重赋值实现变量值交换 使用gops获取正在运行的Go进程 在 Go 语言开发中&#xff0c;进程诊断和性能分析是保障服务稳定性的关键环节。Google 开源的 gops [https://github.…

Idea新UI

轻松上手Idea新UI&#xff1a;开启高效编程新体验 在软件开发领域&#xff0c;IntelliJ IDEA一直以其强大的功能和出色的性能深受开发者喜爱。而其推出的new ui&#xff0c;更是为我们带来了全新的操作体验&#xff0c;进一步提升了开发效率。今天&#xff0c;就来详细讲讲如何…

QML\QtQuick\QtWidgets适合的场景及其优缺点

在Qt框架中&#xff0c;QML、QtQuick和QtWidgets是三种不同的UI开发技术&#xff0c;各有其适用场景和优缺点。以下是它们的对比分析&#xff1a; 1. QtWidgets 适用场景&#xff1a; 传统的桌面应用程序&#xff08;Windows/macOS/Linux&#xff09;。 需要复杂控件&#xf…

Spring Boot 2.x 项目搭建 (二)

因为Spring Boot 2.x 项目搭建 &#xff08;一&#xff09;访问 start.spring.io 或通过IDE&#xff08;如IntelliJ IDEA&#xff09;的Spring Initializr向导创建项目时&#xff0c;只能使用jdk17以上的版本&#xff0c;这里我需要兼容老项目需要JDK1.8&#xff0c;所以进行一…

Python 前端框架/工具合集

前言 Python 本身并不是为前端开发而设计的语言&#xff0c;但确实有一些 Python 框架可以“变相”地用于前端开发&#xff0c;比如生成 HTML、控制前端页面逻辑&#xff0c;甚至可以直接运行在浏览器中。 目标 本文将对常见的使用python实现的前端框架&#xff0c;先做一个…

Swagger 在 Spring Boot 中的详细使用指南

Swagger 是一个强大的 API 文档生成工具&#xff0c;在 Spring Boot 项目中主要通过 springdoc-openapi 库实现。下面我将详细讲解 Swagger 的配置、注解使用和高级功能。 一、基础配置 1. 添加依赖 在 pom.xml 中添加&#xff1a; xml 复制 下载 运行 <dependency&…

群晖如何开启及使用ssh:小白用户上手指南-家庭云计算专家

最近很多用户希望提供群晖下onlyoffice的安装服务,但是很多都是萌新小白,不知道怎么启用ssh和使用ssh客户端.这里提供简单的方法,统一答复: 重要的事情说3遍:一定不要自己发挥,全部按说明的来;一定要在内网环境用内网ip访问;不要用域名和端口号,谢谢各位萌新了!!! 一、ssh启用…

Ubuntu查看与切换显示管理器(已测试ubuntu20,ubuntu24)

一级标题 显示管理器是用户使用图形化的登录界面。 当用户成功输入用户名和密码后&#xff0c;即可开始使用图形化界面会话。gdm3和 lightdm 都是显示管理器。 它们提供了图形化登录并处理用户身份验证。 查看正在使用的显示管理器&#xff1a; cat /etc/X11/default-displa…

ROS 2 中 Astra Pro 相机与 YOLOv5 检测功能编译启动全记录

先记录大概主要流程&#xff0c;后期有时间了再完善细节以及附上截图 一、编译 Astra Pro 相机功能包 1. 清理并编译相机包 cd ~/Astra_ws rm -rf build/astra_camera install/astra_camera # 清理旧编译 colcon build --packages-select astra_camera --parallel-workers …

当实体类名和数据库表列名不一致时不能封装数据的解决办法

1. <resultMap> 是什么&#xff1f; 作用&#xff1a;<resultMap> 用来定义数据库表字段和Java实体类属性之间的对应关系。 为什么需要&#xff1f; 数据库字段通常用下划线命名&#xff08;如 brand_name&#xff09;&#xff0c;而Java类属性用驼峰命名&#…

window系统上labelImg的安装与使用

一、window上安装Anaconda 下载&#xff1a;https://repo.anaconda.com/archive/选择版本&#xff0c;此次选择的是Anaconda3-2025.06-0-Windows-x86_64.exe双击安装在 Windows 搜索栏中输入 Anaconda Prompt 并打开。 二、安装pyton3.8 wondow环境 在 Windows 搜索栏中输入…

SSE 流与普通 HTTP 响应的区别

1. 连接特性 特性普通 HTTP 响应SSE 流连接持续时间一次性&#xff0c;请求-响应后立即关闭持久连接&#xff0c;保持打开状态通信方向单向 (客户端→服务器→客户端)单向 (服务器→客户端)数据格式完整响应体流式文本数据 (text/event-stream) 2. 数据传输方式 普通 HTTP 响…