브라우저 유즈 (Browser Use) 설치 가이드: 에이전틱 AI (Agentic AI)로 웹 자동화 하기

브라우저 유즈 (Browser Use) 설치 가이드: 이름 그대로 브라우저를 내 마음대로 부리는 기술입니다.

지난번에 우리가 에이전틱 AI (Agentic AI)의 개념에 대해 심도 있게 이야기를 나눴죠? 그 글을 쓰면서 저도 “아, 이론만 설명할 게 아니라 당장 내 컴퓨터에서 돌려보는 법을 적어봐야겠다!” 싶었습니다.

오픈클로 (OpenClaw)로 내 PC 전체를 제어하는 맛을 보셨다면, 이제는 오직 ‘웹 브라우저’ 하나에만 극도로 최적화된 무기를 장착할 차례입니다.

현재 깃허브 (GitHub)에서 가장 뜨거운 별을 받고 있는 오픈소스 프로젝트, 브라우저 유즈 (Browser Use) 입니다.

이 녀석은 화면을 캡처해서 이미지를 읽는 비효율적인 방식(Vision)을 버리고, 웹사이트의 뼈대인 DOM (Document Object Model) 코드를 직접 파싱(Parsing)해서 읽어냅니다.

한마디로, AI가 사람처럼 화면을 ‘보는’ 게 아니라 웹사이트의 ‘설계도’를 직접 해킹하듯 읽어내어 버튼을 클릭한다는 뜻입니다.

오늘은 이 똑똑한 녀석을 내 컴퓨터에 설치하고, 실제로 웹사이트를 자동 조종하는 실전 코드를 알아보겠습니다.

파이썬 (Python) 초보자도 복사해서 붙여넣기만 하면 됩니다.

오픈클로 설치가이드 표지

1. 브라우저 유즈 (Browser Use) 설치하기: 3분 컷

복잡한 세팅은 질색이시죠? 터미널 (Terminal)을 열고 딱 두 줄만 입력하면 끝납니다.

이 라이브러리는 내부적으로 플레이라이트 (Playwright)라는 강력한 웹 테스팅 도구를 엔진으로 사용합니다.

브라우저 유즈는 어떻게 설치하는 것일까

■ 패키지 설치 명령어

Bash

pip install browser-use
playwright install

첫 번째 줄은 브라우저 유즈 라이브러리를 설치하는 것이고, 두 번째 줄은 AI가 조종할 크로미움 (Chromium) 브라우저 엔진을 내 컴퓨터에 다운로드하는 필수 과정입니다.

■ 환경 변수 (.env) 세팅

이 녀석도 뇌(LLM)가 필요하겠죠? 폴더에 .env 파일을 만들고 OpenAI의 API 키를 넣어줍니다. (클로드나 다른 모델도 지원하지만, 랭체인(LangChain) 기반이라 GPT-4o가 기본 세팅으로 가장 무난합니다.)

OPENAI_API_KEY=sk-proj-여러분키값...

2. 실전 코드: 항공권 최저가 자동 검색기 만들기

항공권 최저가 검색기 예시 이미지

파이썬 에디터(VS Code 등)를 열고 app.py 파일을 만들어 아래 코드를 그대로 복사해 넣으세요.

Python

import asyncio
from browser_use import Agent
from langchain_openai import ChatOpenAI

async def main():
    # 1. AI 뇌 장착 (GPT-4o)
    llm = ChatOpenAI(model="gpt-4o")

    # 2. 에이전트(비서)에게 임무 부여
    agent = Agent(
        task="네이버 항공권에 들어가서 이번 주 금요일 출발, 일요일 도착하는 인천 발 도쿄 행 최저가 직항 항공권을 검색하고, 가격과 항공사를 나에게 알려줘.",
        llm=llm
    )
    
    # 3. 임무 실행!
    result = await agent.run()
    print(result)

if __name__ == "__main__":
    asyncio.run(main())

그리고 터미널에 python app.py를 입력하고 엔터를 치는 순간!

여러분의 모니터에 빈 브라우저 창이 하나 스윽 켜지더니, 귀신이 들린 것처럼 혼자서 타자를 치고, 날짜를 고르고, 검색 버튼을 누르는 소름 돋는 광경을 목격하시게 될 겁니다.

이게 바로 에이전틱 AI (Agentic AI)의 진수입니다.

3. 웹 자동화 기술 스펙 비교 (vs 오픈클로)

비교 기준오픈클로 (OpenClaw)브라우저 유즈 (Browser Use)
주특기PC 전체 제어 (파일, 터미널 등)웹 브라우저 전용 (크롤링, 웹 UI 조작)
인식 방식스크린샷 (비전 AI) 좌표 기반HTML/DOM 트리 파싱 기반
처리 속도이미지를 분석하므로 다소 느림텍스트 코드만 읽으므로 매우 빠름
오류 발생률해상도 바뀌면 엉뚱한 곳 클릭버튼의 고유 ID를 찾아 클릭 (정확함)
적합한 작업바탕화면 정리, 엑셀/워드 문서 작업쇼핑몰 자동 구매, 경쟁사 웹 데이터 수집

웹 브라우저 안에서 일어나는 일이라면, 현재로서는 브라우저 유즈 (Browser Use)가 압도적으로 빠르고 정확합니다. 토큰(API) 비용도 훨씬 적게 들고요!

4. 실전 트러블슈팅: 봇 (Bot) 탐지에 걸렸을 때

너무 빠른 속도로 클릭하면 웹사이트 보안 시스템(클라우드플레어 등)이 “너 로봇이지!” 하면서 캡차(CAPTCHA) 화면을 띄워버립니다.

봇 탐지에 걸려 당황하는 모습

이때는 코드를 약간 수정해서 헤드리스 (Headless) 모드를 끄고, AI가 클릭하는 사이에 강제 딜레이(Wait)를 주어 사람처럼 보이게 만들어야 합니다.

이 부분은 꽤 깊은 내용이라, 다음 포스팅에서 ‘안티 봇(Anti-Bot) 우회 기술’ 편으로 따로 다뤄보겠습니다.


더 이상 마우스를 쥐지 마세요

오늘 코드를 실행해 보시고 화면이 혼자 움직이는 걸 보셨을 때 어떤 기분이 드셨나요?

에이전틱 AI (Agentic AI)는 거창한 미래 기술이 아닙니다. 지금 당장 내 책상 위에서, 내 귀찮은 반복 업무를 대신해주고 있는 현실입니다.

오늘 배운 10줄 남짓한 코드가 여러분의 퇴근 시간을 1시간 앞당겨 줄 겁니다. 주말에 가족들과 여행 갈 최저가 항공권도 이 녀석이 밤새 뒤져서 찾아줄 테니까요.

어떠신가요? 이번 코드를 실행해 보시다가 혹시 에러가 나거나 막히는 부분이 있다면, 댓글로 편하게 질문 남겨주세요.


댓글 남기기