OmniSVG 是一个基于视觉-语言模型(VLM)的端到端多模态 SVG(可缩放矢量图形)生成框架,由 OpenVGLab 团队开发。该项目能够从文本描述或参考图像生成高质量的 SVG 矢量图形,覆盖从简单图标到复杂插画乃至动漫角色的广泛范围。

核心功能特点
1. 双模式 SVG 生成
OmniSVG 支持两种生成模式:
| 模式 | 输入 | 输出 | 应用场景 |
|---|---|---|---|
| Text-to-SVG | 文本描述 | SVG 矢量图形 | 根据文字描述生成图标、插画、Logo 等 |
| Image-to-SVG | 参考图片 | SVG 矢量图形 | 将位图(PNG/JPG 等)转换为可缩放矢量图 |
2. 多尺寸模型选择
提供三种不同规模的预训练模型,用户可根据硬件条件灵活选择:
| 模型 | 参数量 | 显存需求 | 特点 |
|---|---|---|---|
| OmniSVG1.1_8B | 8B | >16GB | 最高质量,适合复杂插画和精细细节 |
| OmniSVG1.1_4B | 4B | >8GB | 速度与质量平衡,适合大多数场景 |
3. 多候选生成机制
- 每次生成可产生 4~8 个候选 SVG 结果
- 由于生成存在随机性,多候选机制确保用户总能从中挑选最佳结果
- 每个候选 SVG 会显示路径数量(path count),方便评估复杂度
4. 丰富的参数调节能力
提供细粒度的生成参数控制:
- Temperature:控制生成随机性,低值更准确,高值更多样
- Top-P / Top-K:控制采样范围
- Repetition Penalty(重复惩罚):防止生成重复模式
- Max Token Length:控制 SVG 的复杂度(256~2048 tokens)
- Number of Candidates:生成候选数量
5. 智能图像预处理
- 自动检测并替换非白色背景
- 支持 RGBA 透明通道图片
- 自动调整图像尺寸至标准输入大小
- 边缘采样检测背景颜色
6. 自动任务类型检测
系统能根据文本描述自动判断生成类型:
- 图标模式:检测到 icon/logo/symbol/arrow/triangle 等关键词
- 插画模式:检测到 illustration/scene/person/animal/house 等关键词或较长描述
不同模式自动应用不同的默认生成参数。
软件使用介绍
首先将网盘内的软件压缩包下载到本地电脑并解压,双击启动软件.bat,稍后会自动打开webui操作界面
界面整体布局
应用采用现代化 UI 设计,包含以下主要区域:
提示指南区
界面内置了详尽的 Prompt 使用指南,包含:
- 提示框(CRITICAL):核心建议
- 生成 4-8 个候选并挑选最佳
- 使用几何描述(triangular roof, circular head 等)
- 为每个元素指定颜色
- 描述位置和方向
- 保持描述简洁
- 蓝色提示框:模型选择指南
- 8B 模型:高质量,需 ~16GB+ 显存
- 4B 模型:更快,需 ~8GB+ 显存
- 分类提示卡片:
- Icons & Simple Shapes(图标与简单形状)
- Animals(动物)
- Buildings & Objects(建筑与物体)
- 快速故障排除:针对不同问题的参数调整建议
功能标签页
标签页一:Image-to-SVG(图片转 SVG)
输入区域(左侧面板):
- 图片上传:支持拖拽上传、文件选择、剪贴板粘贴(Ctrl+V)
- 模型选择:下拉菜单选择 8B 或 4B 模型
- 候选数量:滑块 1~8 个
- 背景替换:复选框,启用后自动检测并替换非白色背景
- 最大 Token 长度:滑块 256~2048
- 高级参数(可折叠):
- Temperature:0.1~1.0
- Top-P:0.5~1.0
- Top-K:10~100
- Repetition Penalty:1.0~1.3
- 模型状态:显示当前加载的模型信息
- 示例图片:如果 examples 目录存在,显示示例图片供快速测试
输出区域(右侧面板):
- 预处理后的输入图像:显示经过背景处理后的图像
- 生成的 SVG 候选画廊:以网格形式展示所有候选 SVG 的预览图,鼠标悬停有放大效果,每个候选显示路径数量
- SVG 代码:以代码编辑器形式展示所有候选的 SVG 源码
标签页二:Text-to-SVG(文本转 SVG)
输入区域(左侧面板):
- 文本输入框:输入 SVG 描述,支持多行
- 模型选择:同图片模式
- 候选数量:默认 6 个
- 最大 Token 长度:滑块 256~2048
- 高级参数(可折叠):同图片模式,但默认值针对文本生成优化
- 模型状态:显示当前加载的模型信息
- 30 个示例提示词:覆盖以下类别:
- 简单图标(三角形、心形、星形、箭头等)
- 人物(站立、女孩、挥手、坐姿、跑步)
- 头像与肖像(圆形头像、女性头像、侧影、卡通、职业照)
- 风景与场景(山脉、海滩、森林、城市天际线、沙漠、乡村)
- 动物(猫、鸟、狗、狐狸)
- 物品与杂项(房子、咖啡杯、书)
输出区域(右侧面板):
- 生成的 SVG 候选画廊:网格展示所有候选 SVG
- SVG 代码:代码编辑器展示 SVG 源码
技术实现细节
模型管理:
- 支持按需加载模型,首次生成时加载
- 切换模型时自动释放旧模型并清理 GPU 缓存
图像处理管线:
- 输入图像 → RGBA 透明背景处理 → 白色背景合成
- 边缘采样检测背景颜色 → 可选背景替换
- 调整至标准尺寸(默认 448×448)
SVG 生成管线:
- 文本/图像 → Qwen2.5-VL 处理器编码
- SketchDecoder 生成 SVG token 序列
- SVGTokenizer 解码 token 为 SVG 路径
- CairoSVG 渲染 SVG 为 PNG 预览
- 有效性验证(长度、空图像检测等)
Prompt 编写最佳实践
推荐结构
[主体] + [带颜色的形状描述] + [位置/方向] + [风格]
示例
"A fox logo: triangular orange head, pointed ears, white chest marking,
facing right. Minimalist flat style, centered."
关键技巧
- 使用几何描述:triangular roof, circular head, rectangular body
- 明确每个元素的颜色:red roof, blue shirt, black outline
- 描述位置和方向:centrally positioned, pointing upward, facing right
- 保持简洁:用短句 + 逗号连接,避免复杂句式
- 生成多个候选:4-8 个,从中挑选最佳
SVG可缩放矢量图生成软件OmniSVG下载链接:
https://pan.quark.cn/s/6812c466fab1
相关推荐
微软最新图片转3D网格模型软件TRELLIS.2 windows版整合包下载,AI一键建模工具
多图编辑人物一致性图片合成处理工具Qwen-Image-Edit-2509整合包下载,人物换装换姿势动作软件
一句话编辑图片工具OmniGen2整合包下载,输入文本快速P图
高精度2D图片转3D网格模型软件Stable3DGen整合包下载
虚拟试衣产品设计多图合成软件UNO一键启动整合包,人物转动漫工具
线稿自动上色软件MangaNinjia整合包,AI黑白动漫线稿一键上色
免费虚拟试衣软件FitDiT整合包下载,AI一键换装工具
腾讯混元3D大模型2.1版图片文本转3D网格模型软件Hunyuan3D-2.1整合包
最近更新

Claude居然自称“本人”
今天在和Claude聊网文写作的时候,Claude回复中居然自称本人,这让我有点震惊。 我经常会和AI聊工具功能对比等话题,ChatGPT、Gemini、Claude这些以前我记得从来没有自称过本人的,好像都是本模型,本工具等等,反正从来没...

图像无损放大神器:Topaz Gigapixel AI软件下载及使用指南
在数字内容创作成风头的今天,我们经常会遇到低分辨率素材模糊、AI 生成图片尺寸太小、或者老照片充满噪点的情况。传统的图像放大方式(如双三次插值)只是单纯地拉伸像素,容易让画面变得模糊、虚化。 如果你正在寻找一种能“凭空”补齐细节、让低画质瞬...

AI视频提示词反推工具,参考视频即梦提示词一键生成
本工具是一款面向 AI 视频生成创作者的本地离线辅助软件。用户导入任意视频文件,工具会自动完成场景检测、关键帧提取、多模态模型分析、提示词拼装等全流程,最终输出一份可直接复制粘贴到即梦 AI 等视频生成平台的完整提示词。 适用场景 功能特点...
免费在线HTML转markdown工具
经常看一些在线文档,想复制给AI参考的话不方便直接复制,转换成markdown再给AI阅读会更简单明了,也方便自己查阅,这里给大家推荐两个在线的免费HTML转markdown网站。 1、https://d1tools.com/tools/c...

闲鱼自动回复机器人XianyuAutoAgent下载,24小时在线智能客服机器人系统
XianyuAutoAgent是一款面向闲鱼平台的智能化自动回复机器人,利用大语言模型自动识别买家意图并生成专业回复,实现 7×24 小时智能客服。 主要功能 1. 智能自动回复 2. 可视化 Web UI 3. 人工接管模式 4. 安全防...

AI漫剧制作即梦seedance2.0教程及提示词2026年5月最新版分享
AI视频依旧持续火爆,各种类型的AI视频层出不穷,视频效果也是越来越好,甚至快接近影视级,目前最主要的AI视频生成工具还是即梦,即梦 Seedance 2.0生成视频一秒钟都到2块多钱了😂,不过也没办法,还是得用,目前还没能有替代即梦see...

AI实时语音聊天对话系统,外语口语陪练/虚拟好友实时语音交流
AI 实时语音对话系统 是一款集语音识别(ASR)、大语言模型(LLM)对话、语音合成(TTS)于一体的实时语音交互软件。用户通过麦克风说话,系统自动识别语音内容并转为文字,交由 AI 角色进行智能回复,最终将回复内容合成为语音实时播放,实...

ComfyUI 三参考图生图工作流,虚拟试衣、换脸、图片内容整合
本工作流核心能力是将三张不同角度、内容的参考图,通过 AI 理解融合,生成一张新的图像,新图像内容根据描述词指令生成。工作流集成了阿里巴巴的 Qwen2.5-VL 多模态大模型(图像编辑版本)与 SeedVR2 超分辨率放大模型,实现了「理...
comfyui CUDA128+torch 2.8.0+python3.12最新纯净版一键启动整合包
comfyui官方发布的最新版便携包是基于torch 2.11+CU130 +Python 3.13版本制作的,Python版本和torch版本都太新了,windows电脑上安装某些节点的时候会有冲突报错,有时候就算能安装上也会比较麻烦,感...
LTX2.3+comfyui音频驱动视频生成工作流
这是一个基于 ComfyUI 的 LTX 2.3 音视频同步生成工作流,核心功能是上传一段音频 + 参考图片(可多张图),自动生成与音频内容对应的视频,适合制作人物说话、唱歌等口型同步视频。工作流使用8位量化版ltx2.3模型,显存需求降低...


















