一场关于“看见”与“听见”的实验,在本月的三星Solve for Tomorrow 2025决赛现场悄然点燃。19岁的班加罗尔学生Tushar Shaw凭借自行研发的Perceivia智能眼镜抢得全国冠军,随后获得IIT 德里1亿元孵化基金。更惊人的是,这副眼镜的“大脑”并非自研芯片,而是Google刚发布的Gemini 2.0 Flash——一款能够在本地实时解析图像、语音并生成自然语言描述的多模态模型。
这一次,AI不再是手机里的云端服务,而是直接嵌入轻量化的佩戴设备。Perceivia通过摄像头捕获前方场景,Gemini Flash在内置低功耗NPU上完成目标检测、面部识别与环境描述,随后把结果转化为语音提示或细微震动,实现对障碍物、路标乃至路人情绪的即时感知。对视障用户而言,原本完全依赖触摸与记忆的出行方式,瞬间被一层“声觉地图”覆盖。
Gemini Flash的本地化运行是关键。Shaw在采访中指出:“我不想把用户的视觉数据全部上传到云端,这会带来隐私风险,也会导致延迟。” 通过模型压缩与边缘优化,Perceivia在单次推理时耗电仅约30 mW,续航可达8 小时,足以支撑日常通勤和室内导航。
“我们把AI能力前置到硬件侧,在不牺牲隐私的前提下提供实时反馈,这是一种新的可穿戴交互范式。”——Perceivia技术负责人(经济时报,2025‑11‑12)
项目的技术实现离不开社区参与。Shaw在Scalers的学习期间组织了多场盲人志愿者测试,收集了约12 万张带标签的视障环境图像,随后喂入Gemini模型进行微调。实验数据显示,模型在常见路口障碍物的识别准确率达到92%,在嘈杂环境下的语音指令识别率保持在85%以上。
从产业视角看,Perceivia开启了AI多模态模型与可穿戴硬件深度耦合的第一扇窗。供应链方面,镜腿的微型阵列传感器、低功耗NPU和柔性电池的组合正逐步形成规模化生产路径。资本层面,除了Samsung的1亿元孵化基金外,已有数家专注于助残技术的PE基金表达了跟投兴趣,预示2026‑2028年间,AI助残硬件的融资规模可能突破30亿元人民币。
然而,商业化仍面临“不确定因素”。国内外的隐私合规要求各异,尤其在欧洲GDPR框架下,面部识别功能需额外的用户授权;在印度市场,低成本是普及的关键,却要求进一步压缩硬件成本到2000 元以下。Shaw已计划与几家本地视障组织合作,开展“共享数据、共建模型”的闭环,兼顾合规与技术迭代。

从更宏观的趋势来看,AI眼镜正从“AR增强显示”转向“感官替代”。Gemini Flash的出现让开发者可以快速将强大的视觉语言理解能力搬到端侧,降低了硬件门槛;而监管层对辅助技术的扶持政策(如印度《残障权利法》修订草案)进一步提升了市场需求。随着视觉障碍人口在全球范围内预计在2030年突破2.5亿,AI驱动的听觉映射设备有望在公共交通、教育和医疗等场景实现规模化部署。
展望未来,Perceivia的下一个里程碑是实现全场景室内定位与路径规划。目前团队正尝试结合激光雷达(LiDAR)与Gemini的空间感知能力,将三维地图生成嵌入眼镜,使盲人能够在商场、医院等复杂空间中实现“无盲区”导航。若成功,这将彻底颠覆传统盲杖的使用模式,开启“无障碍”时代的第一步。
结论:Tushar Shaw的实验不只是一次学生作品的获奖展示,更是一场技术生态的协同秀——Google的多模态模型、硬件供应链的快速迭代、资本与政策的双轮驱动共同铸就了AI助残硬件的落地可能。对行业而言,抓住模型本地化、隐私合规与成本压缩这三大关键,才能在即将到来的“感官替代”浪潮中抢占先机。
参考来源
