3 月 14 日,中国家电展 AWE 2024 在上海盛大开幕。
今年的 AWE,AI 意料之中成为各大厂商关注的焦点。如果说去年生成式 AI 还需要经历技术和产品的成长与成熟,那么今年,“应用”就是 AI 最关键的主题词,也是所有企业“All in AI”的绝对目标。
本届 AWE 上,不少厂商都拿出了与 AI 相关的产品和解决方案,其中海思推出的全新“5+2”智能终端解决方案无疑是最受关注的明星之一。
所谓“5+2”,就包括鸿鹄媒体、朱雀显示、越影视觉、凌霄网络、巴龙无线 5 大产品解决方案,以及星闪、A²MCU 2 大生态解决方案。它的推出对于海思来说有着独特意义,正如海思在现场所介绍的:
5+2 是面向智能终端的产品生态解决方案。海思从单芯片向解决方案转型,将为客户和合作伙伴带来差异化竞争力,激发产品创新,优化系统级成本,并大幅提升产品研发上市的效率。
IT之家在现场也体验了“5+2”智能终端解决方案能够带来的创新体验,这里面,越影视觉解决方案尤其吸引了小编注意:
比如搭载越影视觉解决方案的会议超分摄像机,通过 AI 大幅提高视频会议画面的分辨率,画面中原来有些模糊的小姐姐经过超分后变得毫发毕现:
还有搭载海思越影视觉方案的直播摄像机,用它来直播可以呈现色彩还原超高的画面,亮暗细节过渡很平滑,还能快速对焦,体验上甚至超越了单反方案:
还有现场演示的运动 DV 超级夜景降噪,夜间拍摄视频的画面效果也是相当震撼,在 AI 降噪的加持下,整个纯净度、通透性和细节、色彩表现都让人很难想象这是 DV 相机拍的。
相信看了上面的演示,大家也会很好奇:
AI 视觉的应用见过不少,但这个海思越影视觉解决方案的体验确实有点突出了,它到底是如何做到的?背后又有什么技术奥秘?
越影视觉解决方案,集海思二十多年功力于一身
首先,在智慧视觉领域,海思可以说是当之无愧的“老司机”了。他们在 2004 年成立,2006 年就推出了全球首颗 H.264 数字直播机芯片。
然后在 2014 年,海思又推出了全球首颗 H.265 IPC 芯片,同年海思 IPC 市占率达到全球第一。此后,他们便一直以引领者的身份推动智慧视觉行业的迭代升级。
“基本十几年的时间一直在引领行业,一直引领安平的智慧视觉,下一步怎么跳,这是我们思考的问题。”海思现场介绍道:“AI 在视觉领域是绝对的最先爆发的地方。”
而这次全新的海思越影视觉解决方案,就是海思对这个判断的回应,同时它也是过去二十多年在智慧视觉领域所有创新成果和技术积累的结晶。
简单来说,越影视觉解决方案的核心是视觉 SOC,同时还包含视觉感知 CIS、Wi-Fi / 星闪联接模块、TOF/IMU/ 雷达组成的多维感知模块,它们共同构成越影视觉解决方案。
具体看作为核心的视觉 SOC,它预集成了 OpenHarmony 操作系统,同时还内置海思新一代 NPU 以及全新的 AI ISP。
关注海思的小伙伴应该记得,海思对 AI 的关注很早就开始了,早在 2018 年,他们就发布了全球首颗高清 8K AI 智能 IPC 芯片,在交通、安平等领域引爆了一波智能化革命。
2021 年,海思又在业界率先推出了一款越影 AI ISP 方案,将传统画质优化经验与 AI 技术深度融合,用 AI 神经网络实现了黑光图像处理的升级。
而这次越影视觉解决方案中,海思更是紧跟技术发展趋势,将 AI 端侧大模型引入到解决方案中,带来更智慧化的高品质视觉体验。足见海思越影视觉是将 AI 当做一个长期投入的重点战略路线,并在持续深耕演进。
这种长期投入的回报就是:越影视觉解决方案无论在机器视觉还是专业影像等应用场景,都能带来颠覆性的识别和处理效果。
比如在黑光场景的图像处理上,通过集成新一代 AI ISP 的视觉 SoC 搭配 CIS,越影视觉成功将画面信噪比提升 4 倍,哪怕是 1.01Lux 黑光下也能做到全彩画面,同时超级宽动态技术的加持让画面动态范围能提升 12dB,很好地解决了行业 IPC、行车记录仪、无人机、运动相机的黑光痛点。
再比如在越影视觉 SoC 以及 IMU 感知模块加持下,可以为运动 DV 相机带来移动场景下的降噪效果,还能呈现超级夜景的画质,更强大的是,之前热门电视剧《繁花》惊艳全网的画面背后,也是由采用越影视觉 SoC 的摄影机拍摄的,可见越影视觉解决方案面对绝对高端专业的影像场景也能 Hold 住。
不仅如此,更让小编感到惊艳的是,在 AI 大模型与海思新一代 NPU 平台芯片深度结合后,越影视觉解决方案在智慧化能力上显著提升。现场演示中我们看到直播相机基于 Transformer 技术视觉大模型实现的万物分割功能,对于壁橱中的每一个物体都能精准识别出来,仿佛能看懂画面中的内容一样。
海思方面表示,端侧视觉大模型的加入,让越影视觉解决方案能够实现 76 fps/T 的高性能,识别精度提高了 10%,功耗则能降低 15%,效果非常显著。
除了直播相机的跟踪识别,AI 大模型落地还能应用在无人机上,结合 IMU 以及 Wi-Fi,通过大模型跟拍可以更精准更稳定,更能实现厘米级视觉导航,带来极简的操控和极致的安全。而在智能汽车上,AI 大模型则可以让车载视觉识别更精准、决策更高效,开放域检测识别万物,构建精准、高效的智驾系统。
现场我们也看到越影视觉解决方案 AI 大模型与无人机结合后带来的极致平稳、清晰的拍摄画面:
总之,AI 大模型的助力让越影视觉解决方案就像装备了人的大脑和双眼一样,真正做到了万物感知。
说到这,肯定又有朋友好奇了:AI 大模型到底是如何推动它实现这样领先的智慧化视觉体验的?
万物感知背后的秘诀
上面这个问题的答案,关键其实还是要回到 AI 端侧视觉大模型的使用上,但又不止于此。
事实上,越影视觉解决方案能做到万物识别的智慧化体验,秘诀就在于 Transformer 大模型在海思 IPC 芯片上的应用创新。
说到 Transformer,了解生成式 AI 大语言模型的朋友应该经常会听到,其在自然语言处理方面的强大能力,可以说正是 ChatGPT 等生成式 AI 模型能够掀起科技浪潮背后的关键。而当这种模型被应用在视觉领域,同样展现出了强大的优势。
在 Transformer 之前,传统用于图像识别的主要模型是 CNN(卷积神经网络),这种模型架构设计的特点让它在处理具体问题,比如图像识别、物体检测时会有出色表现,但同时,也正是因为它是针对特定的场景、目标或任务进行设计和优化的,因此限制了它的泛化能力。
换句话说,当环境变化或任务需求变化,比如今天识别目标是宠物,明天需要识别人物时,CNN 模型就无法直接适用,需要进行调整和重新设计,繁复而低效。
而 Transformer 大模型就不会这样,由于其具有高度灵活性和强大的自适应能力,在多种不同的任务(如语言理解、图像处理、甚至音频分析)上都能表现出色,其应用范围更广泛。
其二,CNN 模型的开发和维护成本通常也较高,部分原因是场景的碎片化导致需要针对每个具体应用开发特定的模型。
并且,高质量的数据获取和标注是 CNN 成功的关键,特别是在视觉任务中,这些过程往往耗时耗力且成本高昂。随着应用环境的变化,模型可能需要定期更新和维护,以保持其性能,这就又进一步增加了成本。
而 Transformer 大模型,尤其是通过预训练和微调策略,则可以更容易地适应新的任务和数据,减少了对大量特定任务标注数据的需求,从而可能降低开发和维护的总成本。
其三,CNN 在处理视频和图像数据方面非常强大,但这也导致了它们主要被限定在以视频和图像为主的输入类型上。这限制了 CNN 在处理其他类型数据(如文本或序列数据)时的效能和适应性。
更重要的是,CNN 本身不擅长处理交互式任务,如对话系统或实时反馈场景,这是因为它们缺乏处理序列数据中的长距离依赖的能力,通俗来说就是联系上下文的能力比较差。
而这些,恰恰又是 Transformer 的优势,它拥有独特的自注意力机制,能够捕捉输入序列中各个位置之间的依赖关系,这种机制使得 Transformer 在处理序列数据时能够更好地建模长距离依赖关系。
总结来说,Transformer 大模型的强大之处小编可以总结为以下几点:
泛化性好,能适应多场景、多目标、多任务。
可以实现小样本快速部署,边使用边获取数据,持续微调提精。
能够很好地进行视频、语音、文字多模态交互,人机互动更自然有效。
当然,仅仅凭借 Transformer 模型本身的这些能力还不够,实际应用时,比如将 Transformer 与芯片硬件结合时,还要在此基础上进行很多优化和创新。而为了将 AI 大模型更好的融入到越影视觉解决方案中,海思也做了不少创新工作。
比如硬化了 Transformer 大模型算子,为 Transformer 在端侧芯片上运行提供了硬件加速。
同时越影视觉解决方案预置了 Transformer 预训练基础大模型,方便客户使用少量数据样本即可应用到千行百业。
再比如,海思还提供了大模型工具,能支持模型在线微调,让摄像机在使用过程中持续获取数据进行调优,越用越聪明。
总之,Transformer 模型本身的优势,加上海思在应用过程中所做的一系列技术创新和优化,最终让越影视觉解决方案能够实现让人惊艳的万物感知的智慧化能力。
智慧视觉,更高效、更智能、更安全的时代来了
随着数字社会、智慧城市建设进程的加快,智慧视觉在社会各行各业的应用必然越来越广泛,越来越深入,而且会从过去的“看见世界”、“看清世界”朝着未来“看懂世界”进化。
比如在隧道或者地库入口,在恶劣的天气影响的交通路口,在黑暗的矿井、在机器和工人来回穿梭的工厂等等,场景越来越复杂,参数库也会逐渐庞大,调试越发困难,开发周期逐步拉长,企业使用传统的视觉解决方案,往往被逐渐变大的成本、低下的识别效率所拖累,甚至很多碎片化的场景根本无法识别。
在此背景下,只有与 AI 技术深度融合才能符合新时代的需求,并且 AI 技术本身不断进化的同时,相应的解决方案也要随之进化。例如如今生成式 AI 大模型,就能凭借强大的多模态能力,突破以往 AI 的极限,像人类一样更好地感知这个世界。
越影视觉解决方案对 AI 端侧大模型的引入,意义就在于此。
IT之家了解到,在本次展会之前,越影视觉解决方案的相关产品其实已经在应用了,而客户们也都给出了十分可喜的反馈。
比如,根据客户的统计数据,对于碎片化的场景,在过去 5 年内,仅实现了 20 个需求,拒绝了 93 个需求,针对每个需求采集 100 万个数据,实现了 98% 的准确率与 98% 的召回率。
而基于开放域大模型,在过去 1 个月,客户就实现了 20 个需求,每个需求仅需通过 10 张数据进行微调,即实现了 90% 的准确率和 95% 的召回率。
并且,算法开发的工作量降低了 90% 以上,意味着成本的大幅降低。
同时,也已经有客户在使用大模型技术去解决那些传统技术难以解决的泛化性场景,比如城管类的占道经营、垃圾满溢、井盖丢失检测等,都收获了很好的效果。
除了成本、识别的效率、精度以及可应用的场景,越影视觉解决方案还能够为企业及个人客户带来更安全的智慧视觉体验。
比如在视频编解码安全方面,越影视觉解决方案支持 SVAC 3.0 编码,大幅降低开发复杂度,片上加密,内置了国密二级安全模块。
还有就是越影视觉解决方案预集成 OpenHarmony 操作系统,即它是首个鸿蒙原生芯片,内置安全 OS,匹配大中小微视觉应用,而且它搭配丰富的鸿蒙自主生态应用,原生具备更好的安全性和可控性。
值得一提的是,OpenHarmony 操作系统还具有易使用、易运维、易开发的特点,搭配越影视觉解决方案芯片,可解决鸿蒙智能视觉终端量产前的性能优化、可靠性 DFX 增强,并且增强了易联易用和分布式音视频特性,举例来说,像是鸿蒙摄像头等产品,一个月即可完成开发和认证,规模量产,非常方便高效。
由此可见,越影视觉解决方案推出后,随着它被越来越多的产业合作伙伴、OEM 客户、企业以及个人消费者使用,相信会极大地推动整个智慧视觉行业迈向更高效、更智能、更安全的时代。
结语
眼下,数字化和网联化之势仍然澎湃,智能化与低碳化浪潮已然来临,在万物智慧互联的时代,AI + 视觉无疑是最具商业化价值的赛道之一,安平、医疗、智能汽车、金融、工农业、互联网、零售等各行各业,智慧视觉都会有非常关键的应用。
而想要把握这样的时代脉搏,只有靠长期主义的技术积累和与时俱进的创新能力,才能打造出出色的产品,并为整个行业生态赋能。而越影视觉解决方案的推出,显然是海思面对 AI 乃至整个千行百业发展的新时代给出的有力回答。
万物互联的智能化时代正加速到来,相信海思能够持续将这样的创新之力转化为引领产业高质量发展的动力,为我们构建一个智慧化驱动的美好未来。