为 karakeep 爬虫配置 cookie 以绕过反爬虫机制

发表于 2025-10-16 分类于 Mist ，知识管理本文字数： 956 阅读时长 ≈ 3 分钟

刷微博时看到有人介绍了自己的学习工作流，提到了一个名为 karakeep 的书签收藏软件。自己用 Docker 部署后发现确实好用，但是撞上反爬虫机制严重的网站就什么都爬不到了。查找后发现 karakeep 支持给爬虫设置 cookie，这样就能以正常用户身份去爬取数据。再经过一番努力后终于配置成功。这里附上教程，以供他人参考。

绕过反爬机制的方法

karakeep 撞上反爬虫机制严重的网站就是这样的效果（以百度贴吧为例）。

karakeep tieba

但 karakeep（旧名 Hoarder）作为一个发布已久的软件，肯定会想到这点。

我在文档里找了下。果不其然，在 Configuration | Karakeep Docs 的Crawler Configs 一节，官方给出了 BROWSER_COOKIE_PATH 参数，描述说：

BROWSER_COOKIE_PATH specifies the path to a JSON file containing cookies to be loaded into the browser context for crawling.

The JSON file must be an array of cookie objects, each with:

name: The cookie name (required).

value: The cookie value (required).

Optional fields: domain, path, expires, httpOnly, secure, sameSite (values: “Strict”, “Lax”, or “None”).

Example JSON file:
1
2
3
4
5
6
7
8
9
10
11
12
 [
  {
    "name": "session",
    "value": "xxx",
    "domain": ".example.com",
    "path": "/",
    "expires": 1735689600,
    "httpOnly": true,
    "secure": true,
    "sameSite": "Lax"
  }
]

只要配好这个文件，爬虫就能装成正常用户去访问了。现在知道要做什么了，开整！

首先我们要创建一个 json 作为 cookie 配置文件。我选择在跟 .env 同级的目录下创建了 browse-cookie-path.json。目录结构长这样：

karakeep-app/
├── docker-compose.yml
├── .env
└── browser-cookie-path.json

作为一个刚接触 Docker 两周的新手，最开始我以为建好后直接设置为文件路径即可。但 Docker 疯狂报 no such file or directory, open './browser-cookie-path.json' 时，我才被 Claude 老师告知：由于我的 karakeep 部署在 Docker 上，而容器无法直接访问宿主机内的文件，所以要将文件挂载到 volume 上。

修改 docker-compose.yml，挂上 cookie 文件：

services:
  web:
    volumes:
      - data:/data
      # 添加这一行，挂载 cookie 文件。注意文件路径
      - ./browser-cookie-path.json:/data/browser-cookie-path.json:ro