OmniSVG：统一的可缩放矢量图形生成软件-诺瓦小站

OmniSVG 是一个基于视觉-语言模型（VLM）的端到端多模态 SVG（可缩放矢量图形）生成框架，由 OpenVGLab 团队开发。该项目能够从文本描述或参考图像生成高质量的 SVG 矢量图形，覆盖从简单图标到复杂插画乃至动漫角色的广泛范围。

核心功能特点

1. 双模式 SVG 生成

OmniSVG 支持两种生成模式：

模式	输入	输出	应用场景
Text-to-SVG	文本描述	SVG 矢量图形	根据文字描述生成图标、插画、Logo 等
Image-to-SVG	参考图片	SVG 矢量图形	将位图（PNG/JPG 等）转换为可缩放矢量图

2. 多尺寸模型选择

提供三种不同规模的预训练模型，用户可根据硬件条件灵活选择：

模型	参数量	显存需求	特点
OmniSVG1.1_8B	8B	>16GB	最高质量，适合复杂插画和精细细节
OmniSVG1.1_4B	4B	>8GB	速度与质量平衡，适合大多数场景

3. 多候选生成机制

每次生成可产生 4~8 个候选 SVG 结果
由于生成存在随机性，多候选机制确保用户总能从中挑选最佳结果
每个候选 SVG 会显示路径数量（path count），方便评估复杂度

4. 丰富的参数调节能力

提供细粒度的生成参数控制：

Temperature：控制生成随机性，低值更准确，高值更多样
Top-P / Top-K：控制采样范围
Repetition Penalty（重复惩罚）：防止生成重复模式
Max Token Length：控制 SVG 的复杂度（256~2048 tokens）
Number of Candidates：生成候选数量

5. 智能图像预处理

自动检测并替换非白色背景
支持 RGBA 透明通道图片
自动调整图像尺寸至标准输入大小
边缘采样检测背景颜色

6. 自动任务类型检测

系统能根据文本描述自动判断生成类型：

图标模式：检测到 icon/logo/symbol/arrow/triangle 等关键词
插画模式：检测到 illustration/scene/person/animal/house 等关键词或较长描述

不同模式自动应用不同的默认生成参数。

软件使用介绍

首先将网盘内的软件压缩包下载到本地电脑并解压，双击启动软件.bat，稍后会自动打开webui操作界面

界面整体布局

应用采用现代化 UI 设计，包含以下主要区域：

提示指南区

界面内置了详尽的 Prompt 使用指南，包含：

提示框（CRITICAL）：核心建议
- 生成 4-8 个候选并挑选最佳
- 使用几何描述（triangular roof, circular head 等）
- 为每个元素指定颜色
- 描述位置和方向
- 保持描述简洁
蓝色提示框：模型选择指南
- 8B 模型：高质量，需 ~16GB+ 显存
- 4B 模型：更快，需 ~8GB+ 显存
分类提示卡片：
- Icons & Simple Shapes（图标与简单形状）
- Animals（动物）
- Buildings & Objects（建筑与物体）
快速故障排除：针对不同问题的参数调整建议

功能标签页

标签页一：Image-to-SVG（图片转 SVG）

输入区域（左侧面板）：

图片上传：支持拖拽上传、文件选择、剪贴板粘贴（Ctrl+V）
模型选择：下拉菜单选择 8B 或 4B 模型
候选数量：滑块 1~8 个
背景替换：复选框，启用后自动检测并替换非白色背景
最大 Token 长度：滑块 256~2048
高级参数（可折叠）：
- Temperature：0.1~1.0
- Top-P：0.5~1.0
- Top-K：10~100
- Repetition Penalty：1.0~1.3
模型状态：显示当前加载的模型信息
示例图片：如果 examples 目录存在，显示示例图片供快速测试

输出区域（右侧面板）：

预处理后的输入图像：显示经过背景处理后的图像
生成的 SVG 候选画廊：以网格形式展示所有候选 SVG 的预览图，鼠标悬停有放大效果，每个候选显示路径数量
SVG 代码：以代码编辑器形式展示所有候选的 SVG 源码

标签页二：Text-to-SVG（文本转 SVG）

输入区域（左侧面板）：

文本输入框：输入 SVG 描述，支持多行
模型选择：同图片模式
候选数量：默认 6 个
最大 Token 长度：滑块 256~2048
高级参数（可折叠）：同图片模式，但默认值针对文本生成优化
模型状态：显示当前加载的模型信息
30 个示例提示词：覆盖以下类别：
- 简单图标（三角形、心形、星形、箭头等）
- 人物（站立、女孩、挥手、坐姿、跑步）
- 头像与肖像（圆形头像、女性头像、侧影、卡通、职业照）
- 风景与场景（山脉、海滩、森林、城市天际线、沙漠、乡村）
- 动物（猫、鸟、狗、狐狸）
- 物品与杂项（房子、咖啡杯、书）

输出区域（右侧面板）：

生成的 SVG 候选画廊：网格展示所有候选 SVG
SVG 代码：代码编辑器展示 SVG 源码

技术实现细节

模型管理：

支持按需加载模型，首次生成时加载
切换模型时自动释放旧模型并清理 GPU 缓存

图像处理管线：

输入图像 → RGBA 透明背景处理 → 白色背景合成
边缘采样检测背景颜色 → 可选背景替换
调整至标准尺寸（默认 448×448）

SVG 生成管线：

文本/图像 → Qwen2.5-VL 处理器编码
SketchDecoder 生成 SVG token 序列
SVGTokenizer 解码 token 为 SVG 路径
CairoSVG 渲染 SVG 为 PNG 预览
有效性验证（长度、空图像检测等）

Prompt 编写最佳实践

示例

"A fox logo: triangular orange head, pointed ears, white chest marking, 
 facing right. Minimalist flat style, centered."

关键技巧

使用几何描述：triangular roof, circular head, rectangular body
明确每个元素的颜色：red roof, blue shirt, black outline
描述位置和方向：centrally positioned, pointing upward, facing right
保持简洁：用短句 + 逗号连接，避免复杂句式
生成多个候选：4-8 个，从中挑选最佳

SVG可缩放矢量图生成软件OmniSVG下载链接：

https://pan.quark.cn/s/6812c466fab1

AI软件用不了？2元爽玩4090：立即体验>>

热门大语言模型API免费体验：立即获取>>

软件催更及1对1人工答疑支持： https://nuowa.net/1806

Claude 再放大招，Sonnet 5 来了

一觉醒来Anthropic又放大招了，Claude Sonnet 5来了。不得不说国外大语言模型更新的是真快的，各家LLM版本更新迭代频率都很高，Claude 刚发布Opus 4.8 不久，这又发布了Sonnet 5.Anthropic ...

赞(0)2026-07-01趣站

AutoVidDub支持分角色配音的全自动视频翻译配音加字幕工具

支持分角色配音的全自动流水线，一键将外语视频转为带母语配音和双语字幕的目标语言视频。一、软件简介 AutoVidDub 是一套运行在本地 GPU 上的全自动视频翻译配音工具。你只需提供一个视频文件，它就能自动完成以下全部工序：二、核心功...

赞(0)2026-06-28专属软件

极速轻便声音克隆语音合成软件MOSS-TTS-Nano整合包，CPU可流畅运行

一、项目概述 MOSS-TTS-Nano 是由 MOSI.AI 与 OpenMOSS 团队联合开发的开源多语言小模型语音合成系统。模型参数量仅 0.1B，专为实时语音生成场景设计，无需 GPU 即可在 CPU 上直接运行，适合本地演示、W...

赞(0)2026-06-27AI音频

最强分说话人语音识别工具，支持批量音视频识别转字幕，字幕翻译内容总结

本软件是一款基于 Qwen3-ASR-1.7B 大模型的本地音视频语音识别工具，配备说话人分离功能，可在个人电脑上实现：整个流程通过简洁的 Gradio Web 界面操作，点击按钮即可完成识别与导出。主要功能特点 1. 单文件识别与批...

赞(1)2026-06-21AI音频

最强PR中文视频自动语音识别生成字幕插件，语音识别准确率高支持多国语言

上次和大家分享了PR非常好用的自动剪辑口播视频静音片段插件，如果想要自动生成视频字幕的话，用PR自带的语音识别转字幕工具，效果非常差，语音识别准确率非常低，识别的文本差太多手动修改起来极其麻烦，反而更加浪费时间了。为了提高工作效率，降低人工...

赞(0)2026-06-15专属软件

祝贺凡人修仙传2026年新年番开播同时在线人数超64万

今天6月13日凡人修仙传新年番开播，同时在线人数破64万（非最高在线人数，只是我看到的在线人数），作为凡人5年老粉，必须发个帖祝贺一下。我比较喜欢看动漫，各种类型看了很多，具体不清楚多少，像斗罗斗破之类看了一大半终究是没能看下去，还是雾山...

赞(1)2026-06-13趣站

Premiere Pro静音片段自动剪辑插件——Silence Remover使用教程及下载

对于做口播、Vlog、播客剪辑的朋友来说，最耗时的工作之一就是手动找出视频中的”哑巴”片段——说话间隙、停顿、思考时的”嗯啊”——并逐一删除。今天给大家介绍一款来自 Phantom Edito...

赞(0)2026-06-11实用软件

蛙蛙写作-能替你"打工"的AI写作平台，附邀请码：UZekHC

我不是一个容易被工具说服的人。用过 ChatGPT、试过各种”AI写作神器”，大多数要么写出来全是机翻腔，要么根本不懂网文的爆款逻辑。直到我开始用蛙蛙写作，才发现原来一个工具真的可以懂你想写什么。 🐸 蛙蛙写作是什...

赞(0)2026-06-09趣站

PDFMathTranslate + MinerU 批量PDF全文双语翻译转Markdown工具

本工具是一款基于 PDFMathTranslate 与 MinerU 整合的桌面端 PDF 翻译工具，通过简洁的 Web 界面实现一键式 PDF 全文双语翻译，并可选择将翻译结果导出为 Markdown 格式，方便导入知识库或进行二次编辑。...

赞(1)2026-06-09专属软件

Claude居然自称“本人”

今天在和Claude聊网文写作的时候，Claude回复中居然自称本人，这让我有点震惊。我经常会和AI聊工具功能对比等话题，ChatGPT、Gemini、Claude这些以前我记得从来没有自称过本人的，好像都是本模型，本工具等等，反正从来没...

赞(1)2026-06-05趣站

OmniSVG：统一的可缩放矢量图形生成软件