开云

    咨询热线:021-80392549

    开云 QQ在线 开云 企业微信
    开云
    开云 资(zī)讯 > 人工智能 > 正文

    认知体系作为AI的一个重要分(fèn)支,它的分(fèn)类有哪些(xiē)?

    2020/03/30590

    认知体系作为(wéi)人工智能的(de)一个(gè)重(chóng)要分支,它的研究和应(yīng)用经过了近(jìn)40年(nián)的发展,已(yǐ)取得了(le)可见的(de)成果。

    关于(yú)认知体系的(de)分类,目前相(xiàng)对主流(liú)的三大范(fàn)式是:符号(也称为认知)、涌现(也称为联结)和(hé)混(hún)合。到底哪一个正确地(dì)反映了人(rén)类的认知过程,仍然是一(yī)个悬而未(wèi)决的问题(tí),在过去的30年(nián)里一直在(zài)争(zhēng)论(lùn).

    符(fú)号范式(shì)通常使用预定(dìng)义(yì)指令集(jí)等(děng)符号来表(biǎo)示概(gài)念。指令通常以if-then的规则形式执行,例如ACT-R, Soar等产生式体(tǐ)系。这是一种自然而直观的表示方式,因此符号操作仍然是一种公认的(de)表示方式之一(yī)。虽(suī)然符号范(fàn)式擅长(zhǎng)计划(规(guī)划)和推理,但不具有处(chù)理环境(jìng)变化和感知所需要的灵活性和(hé)鲁棒性(xìng)。

    涌现(xiàn)范式通常建立大规模并行模(mó)型来解决(jué)适(shì)应性和学习问题,例如神经(jīng)网络模型,其数据来自输入节点(diǎn)。然而,由(yóu)于信息或知识不再(zài)是一组可解释的符号实体,而(ér)往往(wǎng)分布在整个网络中,这导致(zhì)模型(xíng)不再透明。在涌现模式中(zhōng),传统意义上的逻辑推理似乎成(chéng)为不可能(néng)。

    自然地,每(měi)种(zhǒng)范式(shì)都有优缺点。一方面,任何符号体系结构创建初始知识(shí)库(kù)需(xū)要大量工作,可一旦完(wán)成,体系结构就(jiù)完全(quán)功能(néng)性。另一方(fāng)面,涌现体系结构更易于设计,但它(tā)们必须经过大(dà)量训练(liàn)才(cái)能产生有用的行为(wéi);此外(wài),他们(men)的现(xiàn)有(yǒu)知识可能随着(zhe)新(xīn)行(háng)为的学习而恶化。

    由于符号和涌现范(fàn)式都不(bú)能解决认知的所(suǒ)有问题(tí),混合范式试图结合符号和涌(yǒng)现的元素,这样(yàng)的混合体(tǐ)系在我们选择的架构中是最常见的(de)。一(yī)般来说,混合方式(shì)没有限(xiàn)制,而且已经探索了许(xǔ)多(duō)可能性。除了(le)考虑表示,还(hái)考虑系统(tǒng)是(shì)单模块还是多模块、异构还(hái)是同质,或考虑(lǜ)混合的粒度(粗(cū)粒(lì)度还是细粒度)、符号(hào)和子(zǐ)符号组件(jiàn)之间的(de)耦合性。此外,并不是所有(yǒu)的混合架构都(dōu)明确地解决了所(suǒ)谓的符号和次符号元素以及将它们组合起来的问题。只有少数几(jǐ)个体系结构,例如ACTR、CLARION、DUAL、CogPrime、CAPS、SiMA、GMU-BICA和(hé)Sigma,认为这种(zhǒng)集成(chéng)是(shì)必要的。我们将重点放在表示和处理(lǐ)上。

    图1显示了分类分组的组织结构。在顶层分成了:符号(hào)的、涌现的和混(hún)合的(de)。关(guān)于这些术(shù)语的界定(dìng)也是模糊的,即使(shǐ)对(duì)于最(zuì)著名的架构(gòu)(例如Soar和ACT-R)也不能达成(chéng)一致(zhì)。尽管两(liǎng)者都将符(fú)号(hào)和次符号元素(sù)结合起来,ACT-R的作(zuò)者明(míng)确(què)地表达(dá)为混合模(mó)式,而Soar没有。各位学者的观点也不一致,Soar和ACT-R在[14,15]中都被称为符号主(zhǔ)义(yì)者(zhě),而[16]将它们列为混合体(tǐ)。

    开云

    图1

    为了(le)避(bì)免(miǎn)分组的不一致(zhì)性,我们假设(shè)显式符号是(shì)符(fú)号表示的原子,可以组合成有意义的表(biǎo)达式。这些符号用于推理或句法(fǎ)分析(xī)。子符号表示通常(cháng)与神(shén)经元的隐喻联系(xì)在一(yī)起(qǐ),这种表示(shì)的(de)一个典(diǎn)型是神经网络。在神经网络中,知识被编(biān)码为分布(bù)在神经元之间的数值模式,与单(dān)元相关联的权重影响处理,并通过学(xué)习获得。

    对于我们的分类,我们假设任(rèn)何(hé)非(fēi)显式(shì)符(fú)号和(hé)处理(句法操(cāo)作(zuò)除外)都是子符号(例如数(shù)值数据、像素、概率,传播激活(huó)、强化学习等)。结合了两种表示中的任意组合都被当作混合模式。给定这些定(dìng)义,将标签分配给所有架构并将它们可视化为(wéi)图1。

    我们区分了两类涌现类别:实现类生物神经元的神经(jīng)元(yuán)模型和更(gèng)接近人工神经网络的连(lián)接(逻(luó)辑(jí))模式(shì)。在混合模式中,我们将符(fú)号子处理(lǐ)(其中符号模式与执行(háng)子符号计算模块相结(jié)合)作为混合模式的一个子类,符号子处理组(zǔ)中的架构至少包(bāo)括一个(gè)用于感知处理的子符号模块(kuài),而(ér)其余的知识和(hé)处理是符(fú)号的,例如3T, ATLANTIS, RCS, DIARC, CARACaS and CoSy。虽然存在其他(tā)类型的功能组合(例(lì)如协同处理(lǐ)、元(yuán)处理(lǐ)和链(liàn)处理),但是难(nán)以归(guī)类。因此,其他(tā)的都(dōu)归类为完全集成的混合模式(shì)。完全集(jí)成的体系(xì)结构使用多种方法(fǎ)来组合不(bú)同的表(biǎo)示。ACT-R、Soar、CAPS、Copycat/metacat、CHREST、CHARISMA、CELTS、CoJACK、CLARION、REM、NARS和(hé)Xapagy将(jiāng)符号概念和具有次(cì)符(fú)号元素(如激活(huó)值(zhí)、扩(kuò)散激(jī)活、随机选择过程、强化学(xué)习等)的规(guī)则结(jié)合起来(lái)。

    综上所述(shù),混合架构是数(shù)量最多的(de)一组,并显示出增长趋势。混合(hé)架构根据符号和次(cì)符号组(zǔ)件的比例和扮演的角色,在涌现(xiàn)范(fàn)式和符号范式之间形成(chéng)一(yī)个连续统。例如,CogPrime和Sigma在概(gài)念上更(gèng)接近于(yú)涌现系统,因为它们与神经网(wǎng)络有许多共同的属性。而REM、CHREST和RALPH以及(jí)3T和ATLANTIS,在(zài)很(hěn)大程度上属于符号范式;因为这(zhè)些(xiē)架构(gòu)主(zhǔ)要是符(fú)号化的,虽然可以利用概率推理和(hé)学习机制。

    4 感知(perception)

    虽然早期的认知结构(gòu)主要侧重于(yú)高层次(cì)的推理,但同样重要的是感知和行(háng)为。

    感(gǎn)知可以定义为将原始(shǐ)输(shū)入数据转换为系统内部(bù)表示以执行认知任务的过程。根据输入数据的来源和性质(zhì)可以区分多种感知模(mó)式。例如,最常见的五(wǔ)种(zhǒng)是视(shì)觉、听觉、嗅觉、触(chù)觉和味觉;其他(tā)的感(gǎn)觉(jiào)包括本体感(gǎn)觉、热感、痛觉、时(shí)间感等。

    当然(rán),认知结构也实现了其中的一些与人类感官(guān)无(wú)关的(de)符号输入(rù)(使用键(jiàn)盘或图形用户界面(GUI))和(hé)各种传感器(激光雷达、激光、红外(wài)等)。根据其认知功能,智(zhì)能系统可以将各种数量和类型的(de)数(shù)据作为(wéi)感知(zhī)输入。

    因此,本(běn)节将研究使用各种数(shù)据(jù)输入,从这些数据(jù)源中提(tí)取信息(xī)以及如何应用这些信(xìn)息的认知体系。图4中的将调研结果(guǒ)进行了可视化。

    开云

    图2:视觉(jiào)(V)、听觉(jiào)(A)、触觉(T)、嗅(xiù)觉(S)、本(běn)体感(gǎn)觉(P)、数据输入(D)、其他传感器(O)和多模态(M)

    从图2的(de)可视化中可以观察到如下情况。例如,视觉(jiào)是最常用的实现方(fāng)式,然而,超过一半的(de)体系使用模拟进(jìn)行视觉输入,而不是摄(shè)像机。触觉和本体感觉等方式(shì)主要用于物理(lǐ)体现的设计。有(yǒu)些感知未被充分探索(suǒ),例如嗅觉只在三(sān)种体系中出现(GLAIR、DAC和PRS0)。总(zǒng)的来说,符号(hào)范式在设计上具(jù)有有限的感知能力,并且倾(qīng)向于使用直接的输(shū)入数据作为(wéi)唯(wéi)一的(de)信息来源(参(cān)见(jiàn)图的左侧)。另一方面,混合范式(shì)和涌现(xiàn)范式(主(zhǔ)要位于右半部分图中的)使用模拟和物理传感器实现更广泛的(de)感知模式。然(rán)而,不管其来(lái)源如何,传(chuán)入(rù)的感(gǎn)知数(shù)据通常不能以原(yuán)始(shǐ)形式(shì)使用(除了(le)符号输入之(zhī)外),往往需要进(jìn)一(yī)步处理。下面将讨论在认体系中如(rú)何进行有效且充分的感知处理。

    4.1视觉(jiào)(vision)

    长(zhǎng)期以来,视觉(jiào)是主要的感知模态,虽然(rán)最近的研究建议更(gèng)平衡(héng)的感知体(tǐ)验观[17],但(dàn)认知(zhī)结构(gòu)的研究(jiū)仍(réng)然以视觉为中心,相对(duì)也是研究最多的感(gǎn)知(zhī)模态(tài)。尽管在机器(qì)人(rén)技术(shù)中,各种(zhǒng)非视觉传感器(如声(shēng)纳、超(chāo)声波距离传(chuán)感(gǎn)器)和(hé)本体感觉传感器(qì)(如陀螺仪、圆(yuán)规)被用(yòng)于解决诸如导航、避(bì)障(zhàng)和(hé)搜索等视觉任务,但视觉输入占所有可(kě)能输(shū)入模式的一半以上。根据(jù)Marr[18]的说法,视觉处理通常包(bāo)括(kuò)了(le)三个不同的阶段:早期、中(zhōng)期和晚期。早期视觉技术(shù)是数据驱(qū)动的,涉及到对视(shì)觉场景(jǐng)的并行处理,提取简单的元素,如颜色、亮(liàng)度、形状、运动等。中期视觉技术将元素分(fèn)组到区(qū)域中,然后在后期(qī)进行进一(yī)步处理(lǐ),以识别对象(xiàng),并使用可用(yòng)的知识赋予它们意义(yì)。尽管Marr没有提到,但(dàn)视(shì)觉注意(yì)机制、情感和奖励也会影响视觉处理的各(gè)个阶段[19]。因(yīn)此,感知和认(rèn)知在各个处理阶(jiē)段都是紧密关(guān)联(lián)的。

    在认知体(tǐ)系中,基于(yú)图像理解(jiě)的视觉处理是分阶段进行的【20】。这些阶段包括:1)强(qiáng)度-位置-时间值的检测和分组(zǔ)(产生边缘、区(qū)域、流向量);2)边缘、区域等(děng)的(de)进(jìn)一步分组(产(chǎn)生表面、体积(jī),边界(jiè)、深度信息;3)对象识别及其(qí)运动识别(bié);4)为(wéi)实体建立以(yǐ)对象为中心的表示;5)基于任务(wù)为对象分配标签(qiān);6)时(shí)空推(tuī)断实体之间的关(guān)系。在这(zhè)里(lǐ),只有阶段1代表Marr三阶段理论的(de)早期阶段(duàn),所有后续(xù)阶段(duàn)都需要一个附(fù)加的任务或(huò)世界知识。已经(jīng)在第2阶段,特征的分组可以由被观(guān)察的特定对象的视点(diǎn)信息和知识来促进。最(zuì)后(hòu),后期阶段(duàn)对从早期和中间处理结果中抽象出来的高级表示进行(háng)推(tuī)理和操作(zuò)。

    值(zhí)得注意的是,在许多图像理解的研(yán)究中通过执行了隐式深度学(xué)习方(fāng)法而实现的。在最近几年(nián)中,我们已(yǐ)经看(kàn)到了深度学习在图像处理和自然语言(yán)处理很多卓(zhuó)越表现,然而令人惊讶的是很少认知架构使(shǐ)用它。在(zài)CogPrime、LIDA、SPA和BECCA中可以找到深度学习(xí)在简单(dān)视(shì)觉任务中的一些应(yīng)用。

    图5显示真实视觉和模(mó)拟视觉(jiào)执行处理的各个阶(jiē)段。真实视(shì)觉系统只接(jiē)收像素级的输入,而没有附加(jiā)信息(xī)(如(rú)摄(shè)像机参数、物体(tǐ)的(de)位置和特征等)。图像(xiàng)本身由相(xiàng)机生成,但体系结构(gòu)不需要连接(jiē)到物理相机。模拟视(shì)觉系统通常忽略早期(qī)和中期(qī)处(chù)理阶段,并(bìng)以(yǐ)适合视觉处理后期(qī)阶段的形式接收输入(例如形状和(hé)颜色的符号描述、对象标签、坐标等)。技术(shù)上,任(rèn)何不支持真实视觉(jiào)或其他感知模式的体系结构,都可(kě)以通过接口进(jìn)行扩(kuò)展,该接口将其连(lián)接到传感器或将(jiāng)原始数据预处理为更(gèng)合适的格式(如Soar、ACT-R)。但图(tú)5仅仅显示执行了什么样图像解释阶段,而没有反映(yìng)出这样处理(lǐ)的复杂性。

    开云

    图5:这些阶段(duàn)从早期到后(hòu)期依次为:1)特征,2)原(yuán)型对象,3)对(duì)象,4)对象模型(xíng),5)对(duì)象标签,6)空间关(guān)系

    不同深浅的蓝色用(yòng)来表示属于早期、中期和晚期视(shì)觉(jiào)的(de)过程。这个具有真(zhēn)实和模(mó)拟视觉的(de)架构(gòu)分别显(xiǎn)示在(zài)左栏和右栏(lán)中。每列中(zhōng)的顺序按字母顺(shùn)序(xù)排列(liè)。

    4.2基于传感器的视(shì)觉(Vision using physical sensors)

    大多数体(tǐ)系(xì)处理视觉各个阶段都是物理嵌入的,包括机器(qì)人控(kòng)制、生(shēng)物启发和仿生结构。早期视觉(步骤1)通常涉及边缘检测(cè)和视差估计。然后这些特(tè)征分组(步骤2)为具有类(lèi)似(sì)特(tè)征(颜色、深度等)的东西,这(zhè)些东西被解(jiě)析为具有质心坐(zuò)标的候选对象(步骤3)。使用离线方式学习对象(xiàng)模型(步(bù)骤4),并可用于对候选对(duì)象进行分类(步骤5)。

    基于生物启发的体系(xì)也(yě)使用计(jì)算机(jī)视觉算法,并遵循类似(sì)的处理阶段。例如,用于目标检(jiǎn)测的(de)神经网络(RCS、DIARC、Kismet),用(yòng)于对象识别的SIFT特征(DIARC),用于手部(bù)检测和跟踪的SURF特征(zhēng)、AdaBoost学习和高斯(sī)混合(hé)(iCub),用(yòng)于识别(bié)人体并确定年龄性别的(de)Kinect和结合支持向量机的LBP特征(zhēng)(RoboCog和CORTEX)。

    在有些体系结构中(zhōng),视觉与记忆、控(kòng)制系(xì)统的联系更加紧密,视觉处理中的(de)一些步骤(zhòu)与人类视觉系统有明(míng)显的相关性。其中一个(gè)例子是显著性【saliency?】,它根据视觉(jiào)刺激的特征(zhēng)或与任务的相关(guān)性,对视觉刺激的优先级(jí)进行建模(mó)。因此(cǐ),显著(zhe)性(xìng)被用来寻找场景(jǐng)中感兴趣的区域(Kismet、ARCADIA、DIARC、iCub、STAR)。自我球,一(yī)种在一(yī)些机器人结构中发现的结构,模(mó)拟(nǐ)了海马体(tǐ)在感觉信息和动作整(zhěng)合中的功能(néng),尽管在生物学上不(bú)是(shì)合理的(de)。本质上,自我球(qiú)在(zài)机器人周围形成一个虚(xū)拟穹顶(dǐng),突出的物体和事件(jiàn)被映射到上面。这(zhè)个概念的各种(zhǒng)实现包括在RCS、ISAC、iCub和MACSi中。

    图2体系中的第三个亚组追求生(shēng)物学上合理的视觉(jiào)。其中一个最(zuì)详细的例子(zǐ)是基于大脑腹侧通路(lù)解剖的Leabra视觉系(xì)统(LVis)。它模拟了初级视觉皮(pí)层(V1)、纹状体(tǐ)外区(qū)(V2、V4)和(hé)下颞叶皮(pí)层(IT)。这些区(qū)域中的计(jì)算(suàn)大致对应(yīng)于(yú)早期和中期处理步骤。LVis具有人类视觉系统的(de)其他特(tè)征,例如在(zài)更高层次上的神经(jīng)元的更大(dà)的感受(shòu)野、层之间(jiān)的相互联系以及限制跨(kuà)层(céng)活动水平的反复抑制(zhì)动力学(xué)。Darwin VIII(BBD)、SPA(Spaun)和ART的(de)视觉系统也模(mó)仿了灵长类动物的腹侧视觉通路。

    SASE架构并没(méi)有紧密地复(fù)制人(rén)类的视(shì)觉系(xì)统(tǒng)。相反,它使用具有局部连接的层次神经(jīng)网(wǎng)络(luò),每个神经元从前一(yī)层的限(xiàn)制区域获得输入。一层内的感(gǎn)受野大(dà)小相同,并且在(zài)较高的(de)水平上(shàng)增加。该系统在一个室内导航场景中的帆式机(jī)器人上(shàng)进行了测试。MDB、BECCA和DAC中实现了类(lèi)似的视觉方(fāng)法。值得指(zhǐ)出(chū)的是,尽管(guǎn)涌现范式(shì)没有显式地将标签(qiān)分配给(gěi)对(duì)象,但是它们能够形成场(chǎng)景中对象之间(jiān)空间关系的某种隐式表示(比如向量表示),并(bìng)将这些表示用于视觉(jiào)导航等任务(BBD、BECCA、DAC、MDB、SASE)

    4.3模拟视觉(Simulated vision)

    从图2可以明显看出,大多数模拟只支持视觉处(chù)理的后(hòu)期阶段。最简(jiǎn)单的模(mó)拟是由物体填充的二维网(wǎng)格,例如ERE和PR使用的NASA TileWorld、GLAIR agents使用的Wumpus World、Ariadne agents使用的二维迷宫和CLARION social agents设(shè)计的部落模拟。网格环(huán)境中的代(dài)理通常只能(néng)看到有限的周围环境,每个方向只能(néng)看到几个(gè)单元格。Blocks world是另一个经典领域,其一(yī)般任务是构(gòu)建各种形状和(hé)颜色的块堆(duī)栈(zhàn)(ACT-R、ICARUS、MIDCA。

    尽(jìn)管它们(men)的复杂性和目(mù)的不同,不(bú)同的模拟通常提供关于(yú)环境(jìng)的相(xiàng)同(tóng)类(lèi)型的(de)数据:对象(xiàng)、它们(men)的(de)属性(xìng)(颜色、形状(zhuàng)、标签等)、代理本(běn)身(shēn)的(de)位置和属性、对(duì)象和(hé)环境因素之间的空间关系(例如天气(qì)和风向)。这(zhè)种模拟主要(yào)用作可(kě)视化工具,与直接输入的数据(jù)相差不大,因(yīn)为几(jǐ)乎不(bú)需要(yào)任何(hé)感官处理。更高级的模拟将场(chǎng)景表示为具有角点颜色和三维坐(zuò)标(biāo)的多边形,这些角(jiǎo)点必须进(jìn)一步处理以识(shí)别对象(Novamente)。否则,3D模拟的(de)视觉真实性主要是(shì)为了美学和(hé)感官,因(yīn)为信息是直接以符号形式提供的(例(lì)如CoJACK,Pogamut)。

    如(rú)前所述,图2并(bìng)不反(fǎn)映个体体系(xì)的环境或能力的(de)复杂性(xìng)差(chà)异。然而,在体现认知结构的环境之间(jiān)的(de)大小(xiǎo)和(hé)真实性。例如,ATLANTIS控制(zhì)的行星漫游者在户外岩石(shí)地(dì)形中进行(háng)越野导航。销售机器人Gualzru(CORTEX)在一个满是人的大房间(jiān)里移动,iCub(MACsi)从桌(zhuō)子(zǐ)上识别并捡起各种(zhǒng)玩具。另一方面,简单(dān)即没有障碍(ài)的环境(jìng)也被用(yòng)于认知结构研究(BECCA,MDB)。此外,颜色编码对象是(shì)简化视觉处理(lǐ)的常用方法。例如,ADAPT跟踪(zōng)一个红色在(zài)桌子上(shàng)滚(gǔn)动(dòng)的球和(hé)DAC将自己(jǐ)朝向标记有(yǒu)不同颜色的目标。此(cǐ)外,大多体系的应用只能识别少数不同的(de)对象类别。只有Leabra能(néng)够区分几十个对象类别。随着OpenCV、Cloud Point Library或(huò)Kinect API等可用软件工具(jù)包的普及,可视(shì)化(huà)处理的质(zhì)量大大提高。但在试(shì)图建立通用(yòng)的生物学意(yì)义上(shàng)的视觉系统模型,并没有(yǒu)取得太多(duō)进(jìn)展。目前,应用仅(jǐn)限(xiàn)于(yú)受控环境。

    4.4听(tīng)觉(Audition)

    听觉是认知体系中一(yī)种常见的(de)模态,因为语音命令常常是用(yòng)于指导(dǎo)智能系统或与之通信。由(yóu)于(yú)听(tīng)觉模态是纯功能(néng)性的,许多体系(xì)结构(gòu)使用可用的语(yǔ)音到文本软件而不是(shì)开发听(tīng)觉模型。为数不多的进行(háng)了听觉感知建模的体系包括了ACT-R、SPA和EPIC。例如,ARTWORD和ARTSTREAM被用来研究音位整合和音源隔离(lí)(鸡尾酒会问题(tí))。基于ACT-R发展(zhǎn)了一个(gè)音乐(lè)解释模型。

    使用(yòng)专用软件进行语音处理和(hé)通信有助于实(shí)现复杂(zá)性和现实主义。例如(rú),在机器人(rén)应(yīng)用中,它(tā)允许销售机(jī)器人编写脚本在(zài)拥挤的房间里与人互动(CORTEX)或对话英(yīng)语(yǔ)的子集(CoSy)。一个更高级的应用包括使用语音识(shí)别来完成这个任务通过电话(huà)向公共图书馆订购书籍(FORR)。使用现(xiàn)成语(yǔ)音的(de)其他系统处理软件包括PolyScheme和(hé)ISAC。在选择的体系中(zhōng),大部分工作(zuò)都是针对自然语言处理,即语言和语音所承载的语义信息,很(hěn)少有人注意(yì)到据(jù)情感内容(róng)(如响度、语速和语调(diào))。在(zài)这个方(fāng)向上(shàng)的一些尝试都是社会机器(qì)人。例如,社交机器人(rén)Kismet不明白人们在说什么,但(dàn)它可以(yǐ)根据演讲(jiǎng)的韵律轮廓(kuò)来(lái)确定赞同、禁止或安慰。这个Ymir体系结构还(hái)具有韵律分析器和基于语法的语音识别器,可以理解100个单(dān)词的有限(xiàn)词汇。甚至声音(yīn)本身(shēn)也可以(yǐ)作为线索,例如,BBD机器人可以(yǐ)将自己(jǐ)定向(xiàng)到一(yī)个响(xiǎng)亮的(de)声音源(yuán)。

    4.5符号输(shū)入(Symbolic input)

    符(fú)号输入结合(hé)了几种不同(tóng)于物理传感和(hé)仿真模拟的输入(rù),包括了(le)文本命(mìng)令、数据以及通过GUI的输入。文本(běn)是用(yòng)于(yú)执行规划和逻辑推理(lǐ)任(rèn)务的典型输入形式(例如:NARS , OSCAR , MAX , Homer )。文本命令通常是根据体系结构中使用的基(jī)元谓(wèi)词编写的,因此不需要(yào)额外的(de)解析。

    4.6 多模态感(gǎn)知

    在前面各节中,单独考虑了各种的感知(zhī)模式。然(rán)而,在现实(shí)中人脑从不同的感官(guān)接收到源源不断的信息流,并将其整(zhěng)合成一个关联(lián)的世界表(biǎo)征。认知结构也是如此,因为近(jìn)一半的认知结构有两(liǎng)种及以(yǐ)上不同(tóng)的感知(zhī)模式(shì)(图(tú)1)。并非所有这些模式可能(néng)出(chū)现(xiàn)在一(yī)个单一的体系中,大(dà)多数体系同时使用两种不(bú)同的模式,例如视觉和听觉、视(shì)觉和符号输入或(huò)视(shì)觉和距离传感器。除了(le)少数例(lì)外(wài),这些体系结构基本上(shàng)执行了认知科学中的特征集成或机器(qì)人学中(zhōng)的传感器数据(jù)融合。显然,可以使(shǐ)用(yòng)不同的传(chuán)感器,而不必(bì)显式地组(zǔ)合它们的(de)输出。

    多感(gǎn)知通过互补和冗余提高感知(zhī)的稳健性,但在实践中,使用(yòng)许多不同的传感器会带来许多挑战,例如不完整或(huò)虚假(jiǎ)或冲(chōng)突的数据、具有(yǒu)不同属性的数据(例如维度或值范围(wéi))、对(duì)数据对齐和(hé)关联的需要等。机器人研(yán)究领域对(duì)这些实际问题进行了深入的研究,但是还没有提出通用的(de)解决方案。每个(gè)解决方案(àn)都(dōu)必须为(wéi)特定(dìng)的应用程序定制(zhì),这是大多(duō)数认(rèn)知(zhī)架构采用的一种普遍(biàn)做法。不幸的是,文献中很少有技术信息来(lái)确定所使用的确切技术,并将它们与(yǔ)已建立的(de)分(fèn)类法联系(xì)起来。

    总的(de)来说,传感器集成的特定(dìng)实现依赖于用于推理(lǐ)和任(rèn)务的知(zhī)识表示。在(zài)典型(xíng)的具有(yǒu)符号(hào)推(tuī)理的(de)体系(xì)结构中,来自不同(tóng)传感器的数据被独立地处(chù)理,并映射到以代理为中心的3D地图上,该(gāi)地图(tú)可用于导航(CaRACAS , CoSy)。在社会机器人的应用(yòng)中,世界的表现形式可以是一个(gè)围绕着(zhe)主体的自我球体,它包含以自(zì)我为中心(xīn)的坐(zuò)标(biāo)和(hé)视觉检(jiǎn)测对象的属性,这些都与通过三(sān)角测量确(què)定的声音位置相关联(lián)(ISAC,MACsi)。

    RCS,一个具有层次结构的模型,在每个层次上都有一(yī)个具有相(xiàng)应(yīng)世界表示(shì)的感(gǎn)知处理模块(例如:像(xiàng)素图、3D模型、状态(tài)表等)。有(yǒu)些体系隐式地执行数据(jù)关联和对齐,即传感(gǎn)器数据和特征提取(例如,来自(zì)摄像机的物(wù)体坐(zuò)标和来(lái)自激光的障碍物(wù)距离)是独立进行的。然后将(jiāng)提取(qǔ)的信息(xī)直(zhí)接(jiē)添加到工作内存。任何模(mó)棱(léng)两可和不(bú)一致都可以通过(guò)高阶推理过程(chéng)来解决。这是分布式体系结构中(zhōng)的一种常见方法(fǎ),其中独(dú)立模块同时为实现一个共同(tóng)目标而(ér)工(gōng)作(例如CERACRANIUM、Polyscheme、RoboCog、Ymir和LIDA)。

    在许多受生物启(qǐ)发的体系中,不同传感(gǎn)器的读数之间的关联被学习(xí)。例如,DAC使用Hebbian学习来建立数据对齐,以便(biàn)将不(bú)同感(gǎn)知(zhī)模式的(de)神(shén)经表示映射到一(yī)个共同的框架,模拟大脑上丘的功能。ART通(tōng)过神经(jīng)融合(ARTMAP网(wǎng)络)将视觉和(hé)超声波感官信息集成到移动机器人导(dǎo)航中。同(tóng)样,MDB使用(yòng)神经网络从传感器输入学习世(shì)界模型,并使(shǐ)用遗(yí)传算法调整网(wǎng)络(luò)参数。

    目前为(wéi)止提到的所有方法都有一些相(xiàng)似的传感集成,因(yīn)为都使用空间和时间的(de)接近或学习来消除多模态数据的歧义。但总的来说,只有很少的体系在感(gǎn)知层面上追求生物逼真度。唯一的一个在生物学上看似合理的感知(zhī)集(jí)成模(mó)型(xíng)是用基于大(dà)脑的设备(bèi)(BBD)体系(xì),被称为Darwin XI的具体(tǐ)神经模型(xíng)是(shì)用来研究多(duō)感觉信息(来自触摸传感器、激光、相机和磁罗盘)的整合和在迷宫(gōng)导航(háng)中的海马体(tǐ)[163]。Darwin XI的神经网络由大约80000个神经元和120万个突触组成,并(bìng)模拟(nǐ)50个(gè)神经区域。在损(sǔn)伤(shāng)研究中,通过去除一(yī)个或多个(gè)感觉输入并重新映射感觉神经(jīng)元单元,证(zhèng)明(míng)了系统的(de)鲁棒性。

    一般来说,很多认知体系(xì)在很大程度上忽略了跨模态交互作用。这些体系(xì),包括面向生物和面向认知(zhī)的,在处理(lǐ)不(bú)同(tóng)的感知模式时通常(cháng)采用模块(kuài)化的方法。同时,在过去几十年中进行(háng)的许多(duō)心理和神(shén)经成像实验表明,不同的感知相(xiàng)互影响。例如,视觉改变听觉处理,反(fǎn)之亦然。然而,据我们(men)所(suǒ)知,一些仿生体(tǐ)系(xì),如(rú)上文提到(dào)的BBD,可(kě)能代(dài)表跨模态效应,这个问(wèn)题还有待调研。

    关键(jiàn)词:




    AI人工智能网声明:

    凡(fán)资讯来源注明为(wéi)其他媒体来源(yuán)的信息,均为(wéi)转载自其他(tā)媒(méi)体,并不代表本网站赞(zàn)同其观点,也不代表本网(wǎng)站对其真实性(xìng)负责。您若对该文(wén)章(zhāng)内容有任(rèn)何疑问或质疑(yí),请立即与网站(www.zhuzhou.jiaxing.zz.pingliang.ww38.viennacitytours.com)联系,本(běn)网站将迅速给您回应并做(zuò)处理。


    联系电话:021-31666777   新闻(wén)、技术文章投稿QQ:3267146135   投稿邮箱:syy@gongboshi.com

    工博士人工智能网
    开云
    扫(sǎo)描二维码(mǎ)关注微信
    扫码反馈

    扫一扫(sǎo),反(fǎn)馈当(dāng)前页(yè)面

    咨询反馈
    扫码关注

    微信公众号

    返回顶部

    开云

    开云

    相关信息

    "开云 开云咨询为企业提供一站式企业咨询服务。

    更新时间:2025-07-14 16:32 来源:m.zhuzhou.jiaxing.zz.pingliang.ww38.viennacitytours.com