红网时刻新闻5月21日讯(记者 赵翼鹏)输入特定指令,在手机上生成精美的原创图片,需要多久?“数秒之内就能实现。”湖南汇视威智能科技有限公司(下称“汇视威”)创始人、董事长顾善植自信回答。
今天上午,汇视威在长沙发布视觉基座大模型“橘洲”V1端侧版本(下称“橘洲”),这款纯国产、适配智能手机端的视觉生成大模型可在输入文字指令后实现秒级出图。
发布会现场。
从“具身智能”首现政府工作报告,到人形机器人在春晚惊艳出圈,再到以DeepSeek为代表的大语言模型的风靡,人工智能赋能之“风”已然吹向千行百业,下一个风口在哪里?汇视威决定落子“纯移动端侧的视觉生成”。
“橘洲”由汇视威自主研发,依托中科曙光提供的算力支持完成近4000万张图片训练后,成为全国首个在国产算力上完成整体训练和推理过程,并实现移动端部署的视觉基座大模型。
作为视觉人工智能的基础设施,视觉大模型由于参数多、模型大、算力需求强等特点,其推理过程需在服务器端实现,因此有着推理成本高、数据隐私缺少保障、带宽和时延要求严苛等弊端。
围绕视觉大模型的痛点堵点,“橘洲”采取跨模型结构极限蒸馏技术,图片解码模型参数量是云端解码模型参数量的1/50;设计高效的文生图预训练方法,将训练时间压缩到20小时;使用加速推理训练方法,出图从28步压缩至4步,能在离线模式下做到秒级生成高分辨率图片。
发布会现场,与会人员对“橘洲”的性能进行了测试。
“我想的提示词是‘轻舟已过万重山’。”一位嘉宾向“橘洲”提问。
一句涉及中国传统古诗词的图片生成提示词让全场观众屏住了呼吸,它涉及诗词含义理解分析再到图片生成的复杂流程,然而仅仅数秒后,“橘洲”在“断网”的情况下,便将一幅山水景致跃然屏幕之上,获得满堂喝彩。(注:发布会视频为供演示,因而分步骤演示生成顺序,实际操作中可实现数秒内生成图片。)
国产,是本次发布会上被反复提及的另一字眼。据了解,“橘洲”自主研发使用的近70P算力均为国产公司提供,2023年,汇视威与国内核心信息基础设施领军企业中科曙光签署战略合作协议,汇视威成为湖南首家使用中科曙光的国产算力来构建商用大模型训练平台的企业。
“V1端侧版发布后,‘橘洲’还将持续更新后续版本,逐步实现从文生图、文生视频、视频理解等基座功能。我们的目标就是用大模型赋能千行百业。”顾善植表示。
在长沙成立仅3年的汇视威,公司研发团队平均年龄不到30岁,最年轻的算力工程师年仅21岁。这家公司虽然尤为“年轻”,但却在人工智能赋能的赛道上持续深耕,积累了丰富经验,目前已实现对智慧园区、智慧社区、智慧工厂等十二大行业板块的布局,完成了数十项关键技术的突破。
对于未来,“95”后的顾善植团队怀抱着更大的愿景:“我们的目标,就是要用大模型赋能千行百业,中国AI的未来,必须握在自己手里。”
来源:红网
作者:赵翼鹏
编辑:吴戍疆
本站原创文章,转载请附上原文链接。
本文链接:https://hnxjxq.rednet.cn/content/646949/65/14976866.html