这个项目基于小红书内容采集能力,扩展出面向考情信息整理的批处理流程。它把分散在平台内容里的考试经验、题型反馈、评论线索和图片信息整理成可以检索、分析和导出的结构化材料。
仓库
项目定位
这个项目更像一个“考情采集工作台”:输入是一批小红书帖子链接,输出是带有标题、正文、评论、图片 OCR 和模型分析结果的 Excel。它适合处理重复、分散、人工整理成本高的信息搜集任务。
主要能力
- 批量读取 URL 列表。
- 抓取帖子标题、正文、评论和图片。
- 调用 SiliconFlow OCR 与分析模型处理图片和文本。
- 帖子级并发、OCR 并发和模型请求重试。
- 导出结构化 Excel,并保留中间 JSON 与下载图片。
- 提供 Web 页面,支持手动粘贴 URL、执行任务并下载结果。
- 提供管理员配置页,维护
SILICONFLOW_API_KEY和小红书 Cookie。 - 支持 Docker / ECS 单机部署,运行时数据持久化到宿主机目录。
技术与部署
- Python 爬取与批处理脚本。
- Node.js 依赖用于小红书接口签名和页面能力。
- Flask / Waitress 提供轻量 Web 页面。
- SiliconFlow OCR 与分析模型用于图片和文本理解。
- 生产部署推荐单机 Docker Compose,并由外层网关反代。
- 运行时目录约定为
/opt/kaoqing/runtime/,保存.env、Cookie、导出 Excel、JSON 和图片。
适用场景
- 考试经验帖、题型反馈、评论区线索的批量整理。
- 把人工浏览、截图、复制、汇总的流程变成可重复执行的任务。
- 给后续的数据分析、内容整理或业务判断提供结构化输入。
当前状态
项目已经具备批处理脚本、Web 页面、管理员配置页和 Docker 部署方案。后续更适合继续补的是任务队列、处理进度展示、失败任务重跑和导出字段模板化。