Studio - AI 图像视频生成工作室_系统开发案例-程序员客栈

技术信息

语言技术
Mongo、JavaScript、React、Node.js、HTTPS系统类型
Web行业分类
人工智能、云计算参考价格
10000

作品详情

行业场景

1、立项原因：为创作者/运营/设计等非技术用户提供一个“统一入口”的 AI 生产工具，解决多模型分散、配置复杂、生成结果难以管理的问题；同时提供可复用的鉴权与存储能力，便于快速二次开发与开源共享。

2、行业场景：面向 AIGC 内容生产与音视频生成场景，支持图像生成、图生/文生视频生成，并沉淀生成历史与素材资产；适用于内容平台、营销素材制作、产品原型与视觉探索等工作流。

功能介绍

1、功能模块：
（1）用户系统：邮箱注册/登录、JWT 会话、退出登录、用户信息查询；可选企业 SSO 登录。
（2）图像生成：接入 Gemini 模型，支持文生图/图生图，支持比例与尺寸等参数。
（3）视频生成：接入 Sora2（含 Pro）与 Seedance 1.5 Pro，支持文生/图生视频、参数控制、异步任务轮询查询进度。
（4）素材与历史：生成结果写入 Vercel Blob（图片/视频），生成记录写入 MongoDB，按模型维度展示历史记录，支持删除与复用。
（5）前端交互：响应式 UI、深浅色主题、批量改图、提示词与参考图管理、生成结果预览网格。

2、主要功能描述：用户登录后可选择模型（图片或视频），输入提示词并上传参考图，提交生成任务；系统自动处理图片（压缩/内联/上传），调用上游模型接口完成生成，并将结果持久化到存储与数据库，最终在界面中以卡片形式展示与管理。

项目实现

1、“我”负责的任务：
（1）整体架构设计与落地：前后端一体化（Next.js App Router + Serverless API）结构规划。
（2）多模型接入：封装 Gemini 图像生成、Sora2/Seedance 视频生成的请求、参数校验、错误处理与任务轮询。
（3）数据与存储：MongoDB 数据模型与索引、生成记录的写入/查询；Vercel Blob 的图片/视频上传与引用管理。
（4）认证与安全：JWT 签发与校验、Cookie 管理、API 鉴权；敏感配置统一使用环境变量，适配 Vercel 部署。
（5）前端交互：模型选择、参数面板、预览网格、批量生成、主题切换、移动端适配与状态提示。

2、技术栈/架构/亮点难点：
（1）技术栈：React + Node.js（Next.js）+ MongoDB + Vercel Blob；前端 TailwindCSS；鉴权 JWT；全站 HTTPS（部署平台保障）。
（2）架构亮点：同仓库内聚合 UI 与 API，部署到 Vercel 后天然 Serverless 化；按模型划分 API 路由与数据查询，便于扩展新增模型。
（3）实现难点与处理：
- 大体积图片与请求体限制：对参考图做压缩/内联策略，控制请求体大小，避免触达函数限制。
- 视频任务异步与状态一致性：通过轮询查询任务状态，成功后再将视频回传上传到 Blob 并写入数据库，保证历史可追溯。