人工智能技术发展至今经历了数次革命,大数据、机器学习和深度学习的飞速发展催生了数据驱动的人工智能新范式,推动了包括图像识别、自然语言处理和语音识别等领域的显著进步。然而,数据驱动的人工智能依赖昂贵且耗时的标注数据,同时缺乏可解释性。相对地,知识驱动的人工智能试图通过对领域知识的表示和推理,实现计算机对复杂问题的理解,但面临适应新情境和泛化能力的挑战。数据和知识双驱动的人工智能融合了两者的优势,致力于实现智能化、可解释的系统,同时考虑人类安全和伦理道德。本章将深入介绍这三种人工智能范式的理论、技术和应用,提供全面视角,探索未来的潜力和挑战。

01、引言

自21 世纪初以来,到如今以 ChatGPT 为代表的大模型掀起了新一轮的浪潮,人工智能领域经历了数次革命,这些变革背后的核心是大数据、机器学习和深度学习技术的飞速发展,催生了数据驱动的人工智能的新范式。这一范式的核心是利用海量数据和复杂算法让计算机自主学习、识别模式并作出预测,在图像识别、自然语言处理和语音识别等领域取得了令人瞩目的成果。然而,数据驱动的人工智能也暴露出了一些明显的局限性。例如,它依赖大量标注数据,而这些数据的获取成本高昂且耗时;此外,深度学习模型往往缺乏可解释性,这在一些关键领域,如医疗、金融和法律等,可能导致潜在的风险。相对地,知识驱动的人工智能则试图通过对领域知识的表示和推理,实现计算机对复杂问题的理解和解决。知识驱动的人工智能关注于将人类的知识形式化地表达在计算机系统中,从而使得这些系统能够像人类一样进行推理和解决问题。然而,知识驱动的人工智能在面对不断变化的现实世界时,也存在难以适应新情境和缺乏泛化能力的挑战(张钹等, 2020 )。与此同时,随着人工智能技术在智能手机、自动驾驶汽车、医疗诊断以及金融交易领域的普及,越来越多的关注点开始聚焦于保护人类安全、伦理道德等方面( Yangetal. , 2021 )。数据和知识双驱动人工智能融合了大数据技术和知识表示方法,旨在实现更加智能化和可解释的人工智能系统(吴飞,2022 )。在这个范式中,核心是将数据和知识的优势相互结合,以提高人工智能系统的泛化能力、可解释性和适应性。更重要的是,数据和知识双驱动人工智能关注于在技术发展中充分考虑人类安全和伦理道德因素,能够在数据隐私、算法公平与透明、可解释性和可靠性、人机协作、可持续发展,以及法律法规与道德规范等方面取得平衡(许为等, 2021 )。在本章的后续章节中,将详细介绍数据驱动的人工智能、知识驱动的人工智能,以及数据和知识双驱动人工智能的最新研究理论、技术及应用。希望能为读者提供一个全面的视角,了解数据和知识双驱动人工智能的潜力和挑战,同时激发读者对人工智能未来发展的思考和探讨。

02数据驱动的人工智能

数据驱动的人工智能是一种依赖大量数据进行训练和优化的方法,主要是通过从数据中学习模式和规律,从而进行预测、分类、推荐等任务。数据驱动的人工智能与传统的基于规则的方法不同,侧重于利用数据本身来提高预测、分类、推荐等任务中机器学习算法的性能,从而使计算机系统能够自主学习、识别模式并做出决策。在数据驱动的人工智能早期阶段(1950 — 1980 年),人们尝试通过连接主义的方法来模拟人类智能,即基于神经网络模型的计算范式模拟生物神经网络的结构和功能,从而实现智能行为,代表性的工作为 Rosenblatt ( 1958 )提出的感知机(perceptron )模型,其通过设计模拟人类感知能力的神经网络来实现接近人类学习过程(迭代、试错)的学习算法。连接主义和感知机取得了一定程度的成功,为后续的神经网络模型奠定了基础。然而,由于感知机模型的局限性(如无法处理异或问题)以及受限计算资源,再加上缺乏有效的学习算法和足够的训练数据,在实际应用中的表现并不理想(Smolenskyetal., 2022a ; Smolenskyetal. , 2022b )。随着计算能力的提高和统计学习理论的发展,机器学习已成为主流的 AI 方法。在 1980 — 2000年,基于数据的学习方法,如支持向量机( Hearstetal. , 1998 )、决策树和集成学习等开始取得显著的成功,人们借此来自动发现有用的规律和模式。而随着时间进入 2000 年,基于神经网络的机器学习方法———深度学习———开始崭露头角。深度学习通过多层的神经网络结构有效地表示复杂数据模式,尤其在语音识别( Hintonetal. , 2012 )和图像分类(Krizhevskyetal., 2017 )等任务上取得了卓越的成果,展现出了卓越的数据表征能力和泛化性能。随着计算资源的增长和大数据的普及,深度学习也逐渐在自然语言处理等多个领域取得了突破性的进展。近几年,大规模语言模型彻底改变了自然语言处理领域的面貌,它们通过从海量文本数据中的学习,能够生成连贯、自然且具有逻辑性的文本。

2.1 关键技术

数据驱动的人工智能核心是从大量数据中学习知识和规律的原理,涉及多种机器学习方法、神经网络结构以及最新的大规模语言模型,下面对重要概念和代表性的技术做简要介绍。

2.1.1. 传统机器学习

有监督学习是指从带有标签的训练数据中学习预测模型的方法。在这种情况下,训练数据包含输入特征和对应的目标输出(标签)。典型的有监督学习任务包括分类(输出是离散的)和回归(输出是连续的)。常见的有监督学习算法包括线性回归、支持向量机、决策树和神经网络等。半监督学习是指利用大量未标记数据和少量标记数据来学习预测模型的方法,其利用未标记数据的结构信息来提高学习效果。半监督学习可以进一步细分为纯半监督学习和直推学习(transductivelearning )。纯半监督学习的基本前提是训练数据中的未标注样本,并非预测目标数据,而直推学习则认为在学习过程中涉及的未标注样本正是需要预测的数据,其目标是在这些未标注样本上实现最佳的泛化性能。换言之,纯半监督学习遵循“开放世界”的假设,旨在训练出一个能适应训练过程中未曾观测到的数据的模型;而直推学习则遵循“封闭世界”的假设,仅专注于对学习过程中观察到的未标注数据进行预测(周志华,2016 )。半监督学习通常用于标记数据成本较高的场景。常见的半监督学习算法包括标签传播、生成式对抗网络( GAN )(Creswelletal., 2018 )和自编码器等。无监督学习旨在从未标记数据中学习预测模型的方法。这类学习算法直接从原始数据中学习,试图发现数据中的潜在规则而不依赖人工标签或反馈等指导信息。相较于监督学习旨在建立输入与输出之间的映射关系,无监督学习的目标是发现数据中潜藏的有价值信息,如有效特征、类别、结构以及概率分布等(邱锡鹏,2020 )。典型的无监督学习任务包括聚类和降维。常见的无监督学习算法包括 K-means ( Hartigan& Wong , 1979 )、主成分分析( PCA )( Woldetal. , 1987 )和深度生成模型等。强化学习是一种学习决策策略的方法,致力于研究智能体(agent )如何在与环境的交互过程中学习到最优策略,从而使得累积奖励最大化。在强化学习中,智能体通过与环境互动来学习最佳行为策略。在每个时间步,智能体选择一个动作,环境根据该动作给出新的状态和奖励。强化学习与有监督学习的主要区别在于,它不依赖于预先给定的标签,而是通过试错学习来寻找最优策略。强化学习的主要模型和算法有三类:值函数方法( Mnihetal. , 2013 )、策略搜索方法(Konda& Tsitsiklis , 1999 )以及模型法(Silveretal., 2017 )。迁移学习是一种利用已有知识来提高新任务学习效果的方法(Pan& Yang , 2009 )。在迁移学习中,模型首先在源任务上进行训练,然后将部分或全部知识应用于目标任务。迁移学习可以减少目标任务所需的标记数据量和训练时间。典型的迁移学习方法包括预训练和微调、知识蒸馏和多任务学习等(Zhuangetal., 2020 )。集成学习是一种将多个学习器组合以提高预测性能的方法(Sagi& Rokach , 2018 )。这种方法基于多样性和投票原则,试图通过整合多个模型的预测结果来降低过拟合和提高泛化能力。常见的集成学习方法包括 Bagging 、 Boosting 和 Stacking 等。

2.1.2 深度神经网络

深度神经网络是一类多层次的神经网络模型,可以对数据进行非线性表示和复杂特征提取。近年来,深度神经网络在各种机器学习任务中取得了显著的成功。本节将介绍深度神经网络的几个重要类别,包括多层感知器( MLP )、循环神经网络(RNN )、卷积神经网络( CNN )以及自注意力机制和基于 RLHF 的 LLM 模型。多层感知器( multilayerperceptron ,MLP )是一种基本的前馈神经网络,由输入层、隐藏层和输出层组成。MLP 的每一层都由多个神经元组成,相邻层之间的神经元通过权重连接,如图 5.1 所示。MLP 通过逐层计算和激活函数实现非线性表示,并使用反向传播 BP 算法( Rumelhartetal., 1985 )来更新权重。尽管 MLP 在处理简单问题上表现良好,但其扩展性和深度受限,因此在处理复杂任务和大规模数据时,性能可能不尽人意。

■ 图 5.1 多层感知器示意

循环神经网络(recurrentneuralnetwork , RNN )是一种适用于处理序列数据的神经网络模型。循环神经网络具有内部循环连接,使得网络能够在处理当前输入时考虑之前的输入信息,如图 5.2 所示,简单循环网络在时刻 t 的更新公式为:

■ 图 5.2 循环神经网络示意

其中,xt 表示 t 时刻的网络输入, ht 表示 t 时刻的隐藏状态。尽管 RNN 具有处理时间序列和自然语言等任务的能力,但是在学习长期依赖时面临梯度消失或梯度爆炸问题。为此,长短时记忆网络(longshort-termmemory , LSTM )( Hochreiter& Schmidhuber,1997 )和门控循环单元( gatedrecurrentunit , GRU )(Choetal., 2014 )这两种改进版本的 RNN 相继提出。具体来说,LSTM 引入三个门(门控单元)———输入门、输出门和遗忘门,其可以让 LSTM 在不同时间步骤对输入信息进行选择性记忆或遗忘,从而提高了模型的表达能力。输入门控制着新的输入信息的输入,遗忘门控制着过去信息的遗忘,输出门控制着当前状态信息的输出。GRU 模型与 LSTM 模型相似,都引入了门控机制来控制当前状态信息和记忆信息的更新。GRU 有两个门控单元———重置门和更新门。重置门可以决定如何将前一时刻的隐藏状态和当前输入相结合,更新门可以决定如何将当前输入和前一时刻的隐藏状态相结合。GRU 中还引入了一个候选隐藏状态,用于更新当前的隐藏状态,从而实现了记忆功能。GRU 的参数数量少于 LSTM ,因为它将输入门和遗忘门合并成一个更新门,同时减少了细胞状态的数量。相比于LSTM , GRU 的计算速度更快,但在处理某些任务时可能会稍逊一筹。卷积神经网络是一种具有局部感受野、权值共享和池化操作的神经网络,尤其适用于处理图像数据。卷积神经网络能够自动学习空间层次结构的特征表示,从而在计算机视觉任务中取得了显著的成功。卷积神经网络的基本组成包括卷积层、激活函数、池化层和全连接层,如图 5.3 所示。通过堆叠这些层,卷积神经网络能够捕捉图像中的局部特征和全局信息。

■ 图 5.3 卷积神经网络示意

2.1.3. 大规模语言模型

Transformer 是一种基于自注意力机制 ( self-attention mechanism )的神经网络架构,摒弃了RNN 和 CNN 的序列和局部结构,提供了一种全新的处理序列数据的方法。Transformer 通过多头自注意力( multi-headself-attention )和位置编码(positionalencoding )实现了并行计算和长距离依赖的捕捉。Transformer 在自然语言处理(naturallanguageprocessing , NLP )任务中取得了显著的成功,成为现代 NLP 的基石( Vaswanietal. , 2017 )。Transformers 中的核心操作是自注意力( self-attention )机制,它基于从输入片段序列中获取的查询向量( query )、键向量( key )和值向量( value ),如图 5.4 所示。

■ 图 5.4 Transformer 结构示意( Vaswanietal., 2017 )

BERT ( bidirectionalencoderrepresentationsfromtransformers )是一种基于 Transformer 编码器结构的预训练语言模型,通过大量无标签文本数据进行训练,学习上下文相关的词向量表示。BERT 使用了掩码语言模型( maskedlanguagemodel )和下一个句子预测( nextsentenceprediction )作为预训练任务。在微调阶段,BERT 可以轻松地适应各种 NLP 任务,如文本分类、命名实体识别、问答等( Devlinetal. , 2018 )。从 2019 年开始,Google 就在其搜索引擎中开始使用 BERT ;从 2020 年开始, Google 所有的英文输入几乎都使用了 BERT 处理。BERT 的发布对自然语言处理具有非常重要的意义,BERT 消除了许多特定于任务的高度工程化的模型结构的需求,是第一个基于微调的表示模型,它在大量的句子级和标记级任务上实现了最先进的性能,优于许多特定于任务的结构的模型。BERT 使得预训练大模型成为自然语言处理领域的主导技术。一般来说,当前最先进的预训练语言模型可以归类为掩码语言模型(编码器)、自回归语言模型(解码器)以及编码器 - 解码器语言模型,如图 5.5 所示。解码器模型广泛用于文本生成,而编码器模型主要用于分类任务。通过结合两种结构的优点,编码器 - 解码器模型可以利用上下文信息和自回归特性来提升各种任务的性能。在接下来的部分,我们将深入探讨解码器和编码器 - 解码器架构的最新进展。GPT ( generativepre-trainedtransformer )是一种基于 Transformer 的预训练语言模型,在 2018年由 OpenAI 公司发布。与 BERT 不同, GPT 将 Transformer 和无监督的预训练结合在一起,采用单向的自回归语言建模(Brownetal., 2020 ; Radfordetal. , 2018 ; Radfordetal. , 2019 )。GPT 及其后

■ 图 5.5 预训练大规模语言模型的分类

续版本(如 GPT-2 、 GPT-3 、 ChatGPT 、 GPT4 等)可以通过预训练 - 微调的方式应用于多种 NLP 任务,在生成任务方面的表现尤为出色,例如文本生成、摘要、对话等,带来了许多应用上的可能性,例如自动写作、编程帮助、学术研究、语言翻译等。从整个人工智能发展的角度看, GPT 的出现极大地推动了人工智能领域的发展,标志着人工智能领域正式步入大规模语言模型的时代。具体地, GPT 使用多层 Transformerdecoder 作为模型,使用标准语言模型(standardlanguagemodel )作为预训练目标,给定未标注的语料 U = { u1 ,…, up },预训练目标是让如下的似然最大化:

其中,k 代表上下文窗口的大小,条件概率密度 P 在参数为 θ 的神经网络上建模。GPT 在一些用于词向量表示的简单模型(如 GLoVe 、 word2vec )的基础上重新审视了在机器学习中流行的有监督的机器学习方法。有监督的机器学习方法需要大量人工标注的数据集,构建这些数据集需要消耗大量的人力和物力成本,高成本会限制数据集的大小,使得现有的有监督学习方法使用的数据集的大小都较为有限,这逐渐成为机器学习发展的瓶颈。GPT 采用的无监督的机器学习方法使用大量未经标注的数据进行训练。而 GPT 的成功也证明了大量未经标注的数据比少量经过标注的数据更加有效。BERT 使用的双向语言模型在当时的数据量和参数量上比 GPT 的标准语言模型更具优势, 2019年 BERT 在同样的参数规模上性能超过了初代 GPT 。OpenAI 随后在同一年发布了 GPT-2 , GPT-2继续沿用了初代 GPT 的标准语言模型,但是使用了更大更好的预训练数据和更大的模型参数( Radfordetal. , 2019 )。值得注意的是,与初代 GPT 不同, GPT-2 展示出了一定的上下文学习(in-contextlearning , ICL )能力( Dongetal., 2022 ),和 GPT 、 BERT 需要微调来适应下游任务不同,GPT-2 可以在预训练之后直接适应下游任务, GPT-2 在无样本学习( zero-shotlearning )的任务上取得了较好的成绩。2020 年, OpenAI 发布了更大的模型 GPT-3 ,它可以像 GPT-2 一样完成无样本学习的任务,但是GPT-3 将重点放在了上下文学习上( Brownetal., 2020 )。通过在上下文中的几个例子, GPT-3 就可以比无样本学习更好地完成任务。上下文学习是一种范例,它允许语言模型以演示的形式仅给出几个示例来学习任务( Dongetal. , 2022 )。上下文学习有两个相关的概念:少样本学习(few-shotlearning )和提示学习( promptlearning)。上下文学习和少样本学习的区别在于少样本学习一般使用微调模型的方法,而上下文学习冻结了模型参数。而上下文学习其实可以看作提示学习的一个子集,但是上下文学习一般仅指大语言模型的学习能力。

人机融合智能 | 数据与知识双驱动式人工智能

01、引言

02数据驱动的人工智能