当GPT-4扫了一眼他的冰箱……
ChatGPT已经火了一阵子,更进一步的GPT-4也在刷新着人们对人工智能生产力的认知和期待。就我们已知的信息,GPT兄弟们的能力所及是分析处理、学习和搜索海量文本信息、语音信息,然后根据人们的需求给出反馈内容,相当于一个长了耳朵和嘴巴的超级大脑。既然有了耳朵、有了嘴巴,那么离拥有眼睛、和其他“身体部件”也就不远了。
最近,一位热衷于探索AI的外国程序员小哥,给GPT-4装上了“眼睛”,打造出了一个能听、能说、能看、能解决具体问题的AI生活助手。
这位程序员小哥叫麦凯·瑞克利(Mckay Wrigley),4月底日,他在推特上发布了这条让GPT-4“睁开眼睛”的视频。他是这样操作的:给视觉模型添加了一些数据,给GPT-4赋予了摄像头访问权限,然后问它一些关于场景的问题,让它识别物体。神奇的是,GPT-4只是扫了一眼麦凯·瑞克利的冰箱,就对他家的食材库存了如指掌,并很快为他搜到了一款能综合利用家中食材的低碳水菜谱。
麦凯对最近流行的生酮饮食(keto diet)很好奇,GPT-4首先为他解释了这玩意儿到底是啥:“生酮饮食是一种低碳水化合物、高脂肪的饮食。它可以降低血糖和胰岛素水平,并使身体的新陈代谢从碳水化合物转向脂肪和酮类。”
麦凯接着问:“如果我给你看一些食物,你能告诉我哪些属于生酮食物吗?”
GPT-4答曰:“当然。”之后,麦凯打开冰箱,用很快的速度拍摄了冰箱冷藏室的架子和抽屉里的各种食材,其中大多是用保鲜袋包着的,这增加了识别难度,隔着这么多保鲜塑料袋,普通人都需要辨别一阵子才能知道到底都有哪些东西。
从视频中可见,麦凯展示冰箱的时间很短,随后就关上了冰箱。过了几秒钟,GPT-4说:“看起来,你家里有牛排、菠菜、黄油、牛油果和柠檬。这些都是很棒的生酮食物。”
麦凯接着对GPT-4提要求:“我想让你在网上搜索一个使用这些食材的菜谱,这样我就可以做晚餐了。”
很快,GPT-4回答:“我搜到一个叫《15分钟快手柠檬大蒜黄油牛排配菠菜》的菜谱,用到了你有的食材。” 并在屏幕上给出了菜谱的网页链接。
GPT-4的这波操作真是有种“抬眼一看,洞悉一切”的神奇效果。
不得不说,人工智能的应用真是潜力无穷,而识图辨物这一重要技能无疑将是众多AI应用领域所不可或缺的。
AI如何识图辨物呢?要明白这其中的原理,就要了解计算机视觉的原理。幸好,小编的手边有这本《视觉感知——深度学习如何知图辨物》,这是未来基因(北京)人工智能研究院首席专家龚超博士、西北工业大学计算机学院助理教授王冀博士,以及未来基因(北京)人工智能研究院高级研究员袁元,三人合著的一本人工智能入门书。这是由化学工业出版社推出的一套“人工智能超入门丛书”,此套书一共六本,除了这本《视觉感知》外,还有《数据科学》、《情感分析》、《数据素养》、《知识工程》和《搜索算法》,前三本已经上市,后面三本将于今年9月出版。
《视觉感知》是一本易读性非常强的计算机视觉普及书,这本书循序渐进,由浅入深,系统性地讲解了计算机视觉的起源、发展和应用,以图文并茂的形式生动阐释了计算机识别图像的多种模式和迭代升级路径,从深度学习到OpenCV,并结合实际项目案例,提供Python代码,增进读者的理解和实际应用。
让我们一起来读书中的一段:
…………………………
视不同,理相通
研究发现,人工智能辨识物体,与人的视觉处理有一定的共通之处,因此,有必要对人的视觉处理进行简单的介绍。
投射到眼睛的光被视网膜上的光感受器转化为神经信号,并通过视神经和中继核投射到神经元聚集的视觉皮层中。视觉皮层的神经细胞具有两个工作原理:第一是感受野(receptive field),它只对呈现在其特定视觉范围内的刺激作出反应,而对呈现在该范围之外的刺激没有反应。第二个工作原理是刺激选择性(stimulus selectivity),视觉野的神经细胞只有在接受野内出现具有特定属性的刺激时才会活动,对该属性以外的刺激不作出反应。
例如,V1区域的神经细胞对光的开关有反应,而V2区域的神经细胞对光亮度的轮廓有反应;V1到V4中相对低阶的区域对颜色、线段、运动等视觉的基本特点进行处理,而靠近下颞叶的高阶区域则处理更复杂的个别对象,如脸和物体,这是基本特征的组合。
从初级视觉皮层到下颞叶区域,视觉加工区域从低向高发展,神经元的反应特征逐步复杂,从而说明视觉系统对信息是分层进行处理的。因此,人类视觉的原理是:先取原始信号(瞳孔取像素),然后做初步处理(大脑皮层部分细胞找到边缘和方向),再做抽象(大脑判断面前物体的形状),然后进行进一步的抽象。
人工智能视觉分析的过程也遵从了这个原理,从像素到边缘,再到轮廓,直到对象;从初级到高级,从局部到全局特征。
内容来源:21世纪英文报、《视觉感知——深度学习如何知图辨物》内容整理:孙亚萍