这个项目用于把飞书多维表格中的小红书链接自动处理成结果表记录:读取待处理链接,抓取评论区内容,判断是否命中指定关键词,然后把结果批量写回飞书。

仓库

项目定位

这个项目解决的是一个很具体的运营自动化问题:飞书表格里不断新增小红书链接,人工需要打开链接、看评论、判断是否命中关键词,再把结果写回结果表。项目把这个流程变成定时任务和手动同步都可以触发的后台服务。

主要能力

  • 飞书多维表格读取和写回。
  • 小红书 Cookie 管理与有效性校验。
  • 定时任务和手动同步。
  • 失败重试和连续失败标记。
  • 控制面板配置 Cookie 和同步状态。
  • Docker 部署与持久化状态数据库。
  • Cookie 失效提醒,通过飞书消息通知指定接收人。
  • 结果表去重:已经处理过的 URL 不重复写入。
  • 未命中关键词的链接也会写入结果表,避免下次重复抓取。

技术与部署

  • Python / FastAPI 负责后台服务和控制面板。
  • Spider_XHS 相关能力负责小红书内容与评论获取。
  • 飞书开放平台 API 负责多维表格读取、结果写入和消息提醒。
  • data/state.db 保存 Cookie、同步状态和最近运行结果。
  • Docker Compose 挂载 ./data 到容器 /app/data,重启后状态不丢失。
  • 镜像构建已配置国内镜像源,包括 DaoCloud、阿里云 apt、清华 PyPI、腾讯云 npm。

项目价值

它把“人工打开链接、检查评论、复制结果”的重复流程变成了可追踪的自动化任务。对我来说,这也是一次把浏览器数据采集、飞书 API、后台任务和部署监控串起来的实践。

当前状态

项目已经具备本地运行、Docker 部署、Cookie 管理、飞书表格读写、定时任务和失败重试。后续可以继续补运行报表、任务审计日志、关键词规则配置和更多平台内容源。