中国首款嵌入式神经网络处理器诞生
在北京市海淀区一座十余层高大厦的一间展厅内,一台电脑屏幕上显示着大厦入口来往车辆的信息。“如果有违规情况,摄像头就能够在第一时间识别出来,并将相关车辆信息实时报告给监督者。”张韵东介绍说。
赋予摄像头这一识别及判断能力的载体仅是一块长宽约两厘米的正方形银色芯片。6月20日,张韵东所在的中星微 “数字多媒体芯片技术”国家重点实验室举行新闻发布会称,其发明的中国首款嵌入式神经网络处理器(NPU)芯片诞生,并已于今年3月6日实现量产。
这款被命名为“星光智能一号”的芯片,蕴含了当前计算机领域最前沿的生物人脑神经网络仿生学创新技术,且对严重依赖国外进口产品的中国集成电路产业来说,也是实现“弯道超车”的一次踊跃尝试。它标志着我国在神经网络处理器领域的研究和开发上取得了重大突破;使我国视频监控行业发展由模拟时代、数字时代跨入智能时代,在全球确立领先地位。
“原来的视频处理芯片只是相当于一只‘眼睛’。要把采集到的海量音视频数据传到后台进行识别,再把结果通知给人,没办法做到实时分析。”担任该国家重点实验室执行主任的张韵东比喻说。而“星光智能一号”可以让“眼睛”具备人脑的功能,将后台的智能判断提到了前端,可实时地识别更高级的智慧信息,如身份证号码、车牌号、一个人是谁。
为了了解其对人脸的识别能力,一名男记者现场邀请长相跟他相像的一名工作人员一起“刷脸”。果然,在读取身份证之后,摄像头在不到1秒钟的时间内就判断出工作人员才是本人。
“星光智能一号”之所以能“看懂”这些信息,该实验学术委员会主任杨晓东介绍说,是因为它集成了NPU处理器内核以及国家标准音视频编解码器(SVAC Codec),是全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片。该实验室自主研发的嵌入式NPU,彻底颠覆了采用传统冯诺依曼架构的CPU(中央处理器),赋予其“大脑”一样的分析功能。
当前,人工智能的好戏刚刚揭幕。“卷积神经网络(CNN)算法已成为智能机器视觉领域的研究热点。”该实验室嵌入式人工智能项目组组长昝劲文在接受《中国科学报》采访时说,该算法通过仿生人脑的神经网络,可降低网络模型的复杂程度,在处理海量输入数据、大规模乘累加运算、稀疏权值矩阵等方面具有优势。
然而,传统CPU运行CNN算法效率不高。中星微NPU采用“数据驱动并行计算”架构,使算机的能耗比“至少提高了两三个数量级”,特别擅长处理视频、图像类的海量多媒体数据,使得人工智能在嵌入式机器视觉应用中可以大显身手。
“冯诺依曼架构的编程方式是在一条线上写代码,一条条指令顺序执行;我们是在二维的平面上编写程序,使数据并行传输,过程比以前单线的编程更加复杂。”该实验室神经网络处理器项目组组长周林均告诉《中国科学报》记者。
据介绍,中星微每个NPU处理器有4个内核,每个内核有两个数据流处理器,每个数据流处理器有8个长位宽或16个短位宽的SIMD(单指令多数据)运算单元。“这样每个NPU处理器就包含了128个并行处理单元,相当于高速公路上有128个车道并行,让海量数据通过。”张韵东比喻说。这使得每个NPU处理器具有每秒38G Ops(标准化数字标牌接口规范)的长位宽处理能力或76G Ops的短位宽处理能力。
“弯道超车”在于创新
据张韵东透露,“星光智能一号”现已销售数十万件,成功在视频监控领域实现产业化,并可广泛应用于智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域。
此次,中星微率先在全球实现对该芯片的量产应用,可谓是中国企业实现对国外集成电路产业“弯道超车”的一次成功尝试。
在信息时代,集成电路产业已成为全球各国必争的战略制高点。但当前中国该产业形势却相当严峻。工信部数据显示,我国十余年来集成电路进口额长期处于各类商品之首,每年达2000亿元左右。
这种依赖性随时可将中国通信产业置于难以预料的风险之中。例如今年3月7日,中兴通讯因被美国商务部实施出口限制措施而停牌。因该公司对美国零部件和软件供应商的依赖,严重损害了其手机终端和电信设备业务,造成的损失额估计达1000亿元以上。
当前,人工智能已成为下一代信息产业浪潮最重要的推手和颠覆性的技术,微软、高通、谷歌以及美国宇航局支持的KnuEdge等公司纷纷推出的自己的NPU。对此,张韵东和同事认为,中国集成电路产业要想实现赶超,答案就在于自主创新。“我们比人家落后太多,现在新的技术不断涌现,我们要把握整个行业格局变化重新洗牌的机会。”张韵东说。
坚持自主创新原则,重点投入核心技术研发与标准的制定,这是中星微多年来形成的科研模式。成立于1999年的中星微,在2001年开发出第一块具有中国自主知识产权的图像处理芯片“星光一号”,结束了中国无“芯”的历史;在2010年与公安部第一研究所牵头制定了SVAC国家标准,是全球第一个针对视频监控的音视频编解码标准。这两项成果使其两次获得国家科技进步一等奖。
“数字多媒体芯片技术”国家重点实验室成立于2010年,围绕数字多媒体芯片的应用基础和关键技术开展研究。此次中星微推出的神经网络处理器和嵌入式视频监控芯片,正是对“创新驱动发展”的实践。据悉该芯片现已申请16项专利。“今天,我们敢说我们的芯片诞生了,是进行了3年多的开发,每一颗芯片都经过严格的测试。”张韵东说。
后摩尔时代的探索
“正如业界所言,‘随着逐步逼近香农定理、摩尔定律的极限,面对大流量、低延时的理论还未创造出来’。大家感到前途茫茫,找不到方向。”张韵东说。而NPU正是一块“引玉之砖”。
根据摩尔定律,集成电路上可容纳的元器件数目,约每隔两年便会增加一倍,性能也将提升一倍。这一发展曲线在超过半个世纪里一直与预测的一样“完美”。然而从2010年开始,这一增长节奏逐渐放缓。
“现在,半导体工艺已经逼近量子尺度,摩尔定律的尽头近在眼前。而传统CPU受限于散热问题,其时钟频率更早趋于上限。”张韵东说。“理论上,极限时钟频率是1000G,但传统CPU受限于散热,达不到10G。否则,芯片过烫、温度过高就没办法正常工作。”
如此一来,人们设想的嵌入式高级机器人还能否实现呢?对此,张韵东表示,后摩尔定律时代有几条不同的路径,一种观点是继续推进摩尔定律,即继续在新型材料、工艺制程和器件结构上努力,将摩尔定律再推进一步,在单位面积上可以实现更高的集成度;另一种观点是超越摩尔定律,即通过系统集成单颗芯片或是多芯片堆叠的方式,实现更多的功能。
张韵东表示,中星微的观点是走“智能摩尔”的路线,即不否认相关技术的物理制约,推进信息层面的技术创新。“这一方面还远远没有达到极限,如何进一步借鉴人类智慧机理,如何把原始数据提升到有用的信息,在信息层面还有很多技术有待创新。”
此次,“星光智能一号”就聚集了北京、广东、天津、山西、江苏等地的研发力量,采用了先进的过亿门级集成电路设计技术及超亚微米芯片制造工艺,实现投片量产。未来,该实验室将采用更加接近生物人脑的工作机理方式,推出更低功耗、更高运算新能的下一代神经网络处理器。“人脑的奥秘现在还远远没有被了解。”张韵东说,“研究新型的计算架构,提升信息处理的性能功耗比,这可能是下一次信息革命的关键点。”