首页 > 新闻中心
    2019/1/26
  • AI智能视觉的应用
  • AI智能视觉是机器学习的领域之一,核心概念已被集成到我们每天使用的主要产品中。 1)无人驾驶汽车 并非只有科技公司在图像应用中利用机器学习。计算机视觉使无人驾驶汽车能够感知周围环境。摄像头从汽车周围的不同角度捕获视频,并将其提供给计算机视觉软件,然后该软件会实时处理图像,以查找道路的末端,读取交通标志,检测其他汽车,物体和行人。然后,自动驾驶汽车可以在街道和高速公路上驾驶,避免撞到障碍物,并(希望)安全地将其乘客送至目的地。 2)面部识别 计算机视觉在面部识别应用程序中也起着重要作用,该技术使计算机能够将人们的面部图像与他们的身份进行匹配。计算机视觉算法检测图像中的面部特征并将其与面部轮廓数据库进行比较。消费类设备使用面部识别来验证其所有者的身份。社交媒体应用程序使用面部识别来检测和标记用户。执法机构还依靠面部识别技术来识别视频源中的罪犯。 3)增强现实和混合现实 计算机视觉在增强和混合现实中也起着重要作用,该技术使智能手机,平板电脑和智能眼镜等计算设备能够将虚拟对象叠加并嵌入到现实世界的图像中。利用计算机视觉,AR设备可以检测现实世界中的物体,从而确定设备显示屏上放置虚拟物体的位置。例如,计算机视觉算法可以帮助AR应用程序检测诸如桌面,墙壁和地板之类的平面,这是确定深度和尺寸并将虚拟对象放置在物理世界中的重要组成部分。 4)医疗健康 计算机视觉也是健康技术进步的重要组成部分。计算机视觉算法可以帮助自动化任务,例如检测皮肤图像中的癌痣或在X射线和MRI扫描中发现症状。
    2019/1/15
  • 计算机视觉的一些专业术语
  • 计算机视觉的一些专业术语。例如: Object Classification 物体分类 :这张照片中物体的大致类别是什么? Object Identification 物体辨别 :照片中给定物体的类型是什么? Object Verification 物体验证 :照片中是否有物体? Object Detection 物体检测 :照片中的物体在哪里? Object Landmark Detection 物体位置检测 :照片中物体的关键点是什么? Object Segmentation 对象分割 :图像中的对象属于哪些像素? Object Recognition 物体识别 :这张照片中有哪些物体,它们在哪里? 除了公正的认识之外,其他分析方法还包括: 视频运动分析使用计算机视觉来估计视频中对象或摄像机本身的速度。 在图像分割中,算法将图像划分为多组视图。 场景重建可创建通过图像或视频输入的场景的3D模型。 在图像还原中,使用基于机器学习的滤镜从照片中消除了诸如模糊之类的噪点。 任何其他通过软件了解像素的应用程序都可以安全地标记为计算机视觉。
    2019/1/6
  • AI图像识别:人类看的是形状,算法看的是纹路
  • 当你看着一张猫的照片,轻松就能知道猫有没有条纹,不管照片是黑白照,有斑点,还是磨损或者褪色了,都能轻松识别。不论宠物蜷缩在枕头背后;或者跳到工作台上,拍照时留下一片朦胧,你都能轻松识别。如果用机器视觉系统(用深度神经网络驱动)识别,准确率甚至比人还要高,但是当图片稍微新奇一点,或者有噪点、条纹,机器视觉系统就会犯傻了。 为什么会这样呢? 德国研究团队给出一个原因,这个原因出乎意料:人类会关注图中对象的形状,深度学习计算机系统所用的算法不一样,它会研究对象的纹理。 德国的发现告诉我们人类与机器“思考”问题时有着明显区别,也许还能揭示人类视觉进化的秘密。 深度学习算法是怎样“工作”的呢? 首先人类向算法展示大量图片,有的图片有猫,有的没有。算法从图片中找到“特定模式”,然后用模式来做出判断,看看面对之前从未见过的图片应该贴怎样的标签。 神经网络架构是根据人类视觉系统开发的,网络各层连接在一起,从图片中提取抽象特点。神经网络系统通过一系列联系得出正确答案,不过整个处理过程十分神秘,人类往往只能在事实形成之后再解释这个神秘的过程。 美国俄勒冈州立大学计算机科学家Thomas Dietterich说:“我们正在努力,想搞清到底是什么让深度学习计算机视觉算法走向成功,又是什么让它变得脆弱。” 怎样做?研究人员修改图片,欺骗神经网络,看看会发生什么事。研究人员发现,即使只是小小的修改,系统也会给出完全错误的答案,当修改幅度很大时,系统甚至无法给图片贴标签。还有一些研究人员追溯网络,查看单个神经元会对图像做出怎样的反应,理解系统学到了什么。 德国图宾根大学(University of Tübingen)科学家Geirhos领导的团队采用独特方法进行研究。去年,团队发表报告称,他们用特殊噪点干扰图像,给图像降级,然后用图像训练神经网络,研究发现,如果将新图像交给系统处理,这些图像被人扭曲过(相同的扭曲),在识别扭曲图像时,系统的表现比人好。不过如果图像扭曲的方式稍有不同,神经网络就无能为力了,即使在人眼看来图像的扭曲方式并无不同,算法也会犯错。
    2018/12/26
  • 前沿科技解读丨人工智能的“眼睛”——视觉定位技术
  • 视觉定位技术在人工智能中具有广泛应用。例如,在汽车或机器人上安装摄像头,通过计算机对摄像头拍到的图像进行运算分析,进而得出汽车或机器人的当前位置并绘制出行进轨迹,谷歌的自动驾驶汽车就使用了视觉定位作为其定位方法之一。 视觉定位技术的前世今生 20世纪美苏太空争霸时,美国和苏联均向月球发射了探测器,由于遥控存在延迟,所以着陆后的探测工作需要遥控与自动控制相结合,这样定位探测器自身定位工作就显得尤为重要。月球上无法使用GPS信号,探测器行进过程中只能通过安装在轮子上的里程计进行自身的定位,但由于月球表面沙石环境使得探测器难以平稳前进,在行进过程中探测器普遍存在颠簸、打滑的现象,造成里程计定位出现误差。随着火星探测项目的开展,对机器人自身定位精度的要求提升到了新高度。火星距离地球最近时也有5500万千米,地球发送的信号传递过去单程就需要3分钟的时间,而要等到从火星返回来的信号还要再过3分钟,这就要求机器人在大部分时间是自动执行任务,而当时却缺乏在火星环境中可以精确定位的方法。 为了解决这一问题,人们开始着手研究机器视觉定位方法,2004年登录火星的“勇气号”和“机遇号”火星探测车上,均采用了视觉定位方法,探测车顶端的两个摄像头分别对同一时刻拍摄到的两幅图像进行特征点(如石头的棱角等)的提取并配对,进而获得每个特征点相对摄像头的三维位置信息,当探测车移动时,这些特征点相对于摄像头的位置发生变化,根据这些变化就可以完成火星车自身的定位。2011年美国国家航空航天局发射“好奇号”火星探测车,视觉定位导航系统做了进一步完善,同时为了增加视觉定位所需的特征信息,“好奇号”还对车轮进行改进,使其行驶过的路面上可以留下明显的纹理痕迹。 我国于2013年12月发射了“嫦娥3号”月球车,“嫦娥3号”上安装了三对立体相机,其中包括一对全景相机和一对导航相机安装在月球车前方的横杆上,这两对相机的主要任务是获取远、近距离的图像并完成导航。一对壁障相机安装在车头,用来判断车前方障碍物的位置并完成壁障,对地形、地貌的探测主要也是由该对相机完成的。
    2018/12/17
  • 现有视觉定位技术哪家强?
  • 目前常用的定位方法有GPS定位、陀螺仪定位、里程计定位、视觉定位,对于上述定位方法不能简单的说孰优孰劣,只能说各自有各自的特点及应用场景。 GPS在目前的汽车定位上被广泛使用,其定位不存在累计误差,适用于长期、远程定位,但其精度不足且无法在室内使用;陀螺仪主要是获取物体当前的姿态,而其定位功能是通过对加速度的二次积分实现的,容易产生累计误差,同时会受周围磁场的干扰;里程计定位实现简单,绝大部分家用轿车上统计行驶里程的功能就是通过里程计实现的,但当出现打滑、颠簸时,会严重影响定位精度;视觉定位精度较高,不仅可以得到自身的位置,还可以得到姿态信息,同时还能利用特征点的不变性来修正累计误差。 当然,视觉定位有着自身的缺点,首先制约视觉定位发展的是计算量,由于摄像头拍到的图片是二维点阵信息,如一幅HD分辨率的图像包含了近100万个像素点信息,而视觉定位算法在过程中需要进行多次迭代,使用i7cpu运算,在保证精度的前提下,一般的视觉定位算法处理速度可以达到每秒3~4帧,好一些的算法可以达到每秒7~8帧。如果摄像头的运动速度过快,前后两帧图像拍到的内容重合度较少可能会导致定位失败。同样,视觉定位还会受一定外界环境的影响,如当外界光照发生剧烈变化,会造成图像特征点匹配失败,进而影响定位结果。在现实中当遇到对定位有较高要求的场景时,通常使用的都是多种定位方式结合的方法。
    2018/11/28
  • 人工智能的“火眼金睛”
  • 视觉定位主要分为单目定位(单摄像头)与双目定位(双摄像头)。无论单目定位还是双目定位,在使用前均需对摄像机进行标定,即通过拍摄标准棋盘图像,计算修正矩阵,消除由于镜头引起的成像误差,而双目定位除了需要对摄像头本身进行标定外,还需要对两个摄像头的相对位置关系进行标定。单目定位运算量较小,但由于只能获取二维信息,通常需要在环境中加入特定的人工图标或辅以其他测量设备来完成定位,单目视觉定位主要通过对比前后两帧图像的变化来判断自身的移动情况,目前部分扫地机器人及无人机采用的都是单目定位技术。扫地机器人通过安装在顶部的摄像机拍到的天花板画面判断自身的位置,而无人机则是通过安装在底部的摄像机拍摄地面画面实现悬停及自动回归。 双目视觉定位精度比单目定位要高,其定位方式是首先对同一时刻两个摄像机拍到的图像进行分析,找出相同的特征点,所谓特征点是指颜色发生突变的点,之所以要找到发生突变的点是为了后续方便匹配。由于两个摄像机位置不一样,所以同一时间同一物体(特征点)出现的图像中的位置会有所不同,依靠颜色信息将其匹配,进而利用三角几何原理可以得出每一个特征点相对于摄像机的三维坐标。当摄像机位置或姿态发生变化时,前后两个时刻特征点相对于摄像机的三维坐标发生变化,正式利用这些变化,通过解方程得到摄像机当前的位置与姿态。双目定位方法在工业、探测机器人上使用的较为广泛。 视觉定位在定位的同时,还可以用来感知外界环境。双目视觉可以计算出外界各点相对摄像机的三维坐标,依靠这一信息即可构建观测到环境的三维模型。利用这一技术,面对陌生环境,只需使用搭载双目摄像机的车或机器人在环境中行驶一圈,即可得到整个环境的三维模型。如某化学工厂发生爆炸后,部分建筑坍塌,有毒原料泄露,此时救灾工作将变的困难异常,此时可使用搭载双目摄像机的探测车在工厂内行驶一圈,即可得到坍塌后的工厂三维模型,结合车上的其他探测气,可以获得整个工厂有毒气体浓度分布等的信息,将相关信息叠加在三维模型上之后,便可对整个工厂的情况了如执掌,这将使得后续的救援,重建工作可以高效安全的进行。 在机器人技术方面,视觉定位不仅可以使机器人实时定位自己的位置,也是帮助机器人完成日常工作的重要手段之一。当一个人想要伸手去拿面前的苹果时,我们的大脑在看到这个苹果的同时会判断出苹果与我们的距离,我们也就知道了手伸到多远可以拿到苹果。对于机器人也是如此,当我们命令机器人取一样东西,机器人需要利用图像识别技术去找到这样东西,之后利用两个摄像机定位该物体的坐标,然后通过电机控制机械手臂抓取该物体,最终利用自身定位信息返回我们身边。 在自动驾驶方面,双目摄像机在完成定位的同时,还可以感知其他路面及车辆信息,结合三维重建与图像识别技术,无人驾驶车可以自动识别出周围的行人、车辆甚至是交通指示线,计算机利用这些信息再结合汽车自身状态便可以确定行驶路线及速度并不断调整,保证与其他车辆、行人的安全距离,规避道路上的障碍物,以及按照交通规定行驶。
    2018/11/20
  • AI视觉运算成主流,人体姿态识别已成熟商业化
  • 当下科技圈最火热的概念当属AI人工智能,无论是行业巨头还是初创公司,均瞄准了这一领域,大有席卷全行业的趋势。作为消费生活最普及的产品,智能产业在经历爆发式增长后,目前已陷入同质化加剧的窘境,有业内人士也指出目前最大的突破方向就在于人工智能。 目前看联发科在AI上面的进度在集成电路行业走的最快,在日前的India MWC2018(印度移动大会),联发科技同机器视觉人工智能公司旷视科技通过Helio P70联合展示了P70动态Demo。通过搭载有Helio P70智能AI平台的设备,对设备镜头前高速运动的人物进行了精准的捕捉,极短的时间内就识别出人体的14个部位。大家可别小瞧了这人体姿态视觉识别功能。 人体姿态识别是AI技术未来的方向之一。 整体来看,行业已经在面临人工智能大潮冲击,但如何加快互联网行业AI化的进程,实现下一次用户体验的革命?入局AI在当下尤其需要认真思考如何在有效应用中,持续释放技术红利以达到最优效果。