阶段一:起源与早期探索(1940s-1950s)
-
1943年:神经网络的雏形
-
科学家麦卡洛克(Warren McCulloch)和皮茨(Walter Pitts)提出首个神经元数学模型,模仿人脑神经元的运作,成为神经网络的基础。
-
1950年:图灵测试
-
计算机科学之父艾伦·图灵(Alan Turing)提出“图灵测试”:如果一台机器能通过对话让人类误以为它是真人,则认为它具有智能。这一概念至今仍是衡量AI的重要标准。
-
1956年:达特茅斯会议与AI诞生
-
一群科学家在美国达特茅斯学院开会,由约翰·麦卡锡等人主持,首次正式提出“人工智能”(Artificial Intelligence)这一概念,标志着AI成为一门独立学科。
阶段二:专家系统兴起(1960s-1980s)
-
1966年:第一个聊天机器人
-
MIT开发了ELIZA,一个能模拟心理医生的聊天程序。虽然只是简单匹配关键词,但让人们第一次感受到“机器对话”的魔力。
-
1970年代:专家系统兴起
-
符号主义AI:这一阶段的AI着重于通过规则、符号和逻辑推理来模拟人类智能,代表性技术包括专家系统(Expert Systems)。专家系统能够在特定领域内模拟人类专家的决策过程,并用于医疗、金融等行业。
-
机器推理和知识表示:例如,决策树、规则推理系统,标志着AI在逻辑推理上的进展。
-
专家系统兴起:科学家尝试让AI模仿人类专家的知识,比如医疗诊断系统MYCIN,能通过规则库判断细菌感染类型并推荐药物。
阶段三:AI寒冬(1980s-1990s)
-
1980年代:专家系统热潮和低谷
-
专家系统黄金时代:随着规则库和推理引擎的不断完善,专家系统成为AI应用的主流。
-
第一次寒冬:人们发现,专家系统具有很大的局限性,仅靠规则库无法解决复杂问题(比如识别一只猫)。由于技术瓶颈和公众期望过高,AI研究未能取得预期进展,导致资金支持减少,研究热情下降。这段时期被称为人工智能第一次寒冬。
-
1980年代后期:神经网络复兴和停滞
-
1986年,反向传播算法的提出标志神经网络复兴:1960年代,虽然神经网络有了初步的构建,但早期的神经网络(如感知机)未能取得预期成果。1986年,David Rumelhart、Geoffrey Hinton和Ron Williams等科学家提出了误差反向传播(Backpropagation)算法。随着反向传播算法的提出,神经网络开始复兴。这一算法成为了深度学习的核心。自此,神经网络模型不断发展和创新。
-
第二次寒冬:尽管反向传播算法带来了巨大的技术突破,但神经网络的研究经历了一个停滞期,主要的原因是缺乏足够的数据和资金支持。虽然模型的理论在不断发展,但没有足够的实践应用支持这些模型的成长,研究人员也无法获得足够的数据来训练和验证这些模型。
阶段四:深度学习时代(1990s-2017s)
时代背景——数据和计算能力的飞跃:随着互联网的普及,大数据时代到来,数据的获取变得更加容易。云计算的兴起提供了强大的计算能力,深度学习的时代来了。
-
1997年:深蓝击败国际象棋冠军
-
IBM的超级计算机深蓝战胜世界冠军卡斯帕罗夫,证明AI在规则明确的领域能超越人类。
-
1998年:神经网络模型进一步发展
-
LeNet-5 是最早的卷积网络架构之一,于 1998 年用于文档识别。
-
长短时记忆网络(LSTM)解决了传统RNN在处理长序列时的梯度问题。
-
2011年:深度学习在图像识别、语音识别、自然语言处理等领域进行应用
-
Siri(苹果)和Alexa(亚马逊)等语音助手普及,AI进入日常生活。
-
谷歌启动自动驾驶汽车项目,AI开始挑战复杂环境下的决策。
-
2012 年:卷积神经网络(ConvNet,CNN)架构兴起
-
ImageNet 挑战赛的唯一目标是评估大型数据集上的图像分类和对象分类架构。在挑战赛上,AlexNet 大放异彩,以 15.3% 的 Top 5 低错误率赢得了ImageNet 挑战赛,这几乎是之前获胜者错误率的一半。AlexNet 由 5 个卷积层、最大池化层、3 个全连接层和一个 softmax 层组成。
-
随后的几年里,CNN架构不断变得更大并且工作得更好。有 19 层的 VGG 以 7.3% 的错误率赢得了挑战。2015 年,ResNet(Deep Residual Networks)将错误率降低到 3.6%,并表明通过残差连接,我们可以训练更深的网络(超过 100 层),在此之前,训练如此深的网络是不可能的。
-
自此之后深度学习成为主流技术。
-
2014-2017年:计算机视觉领域的AI技术突破
-
2014年-深度生成网络:用于从训练数据中生成或合成新的数据样本,例如图像和音乐。生成网络有很多种类型,但最流行的类型是由 Ian Goodfellow 在 2014 年创建的生成对抗网络 (GAN)。
-
2016年-强化学习与AlphaGo:谷歌DeepMind的AlphaGo通过深度强化学习击败了围棋世界冠军李世石,标志着AI在复杂战略游戏中的胜利,引发了全球对AI的关注。
-
2017年:Transformer 架构诞生
-
2017年,一种完全基于注意力机制的新神经网络架构横空出世——Transformer。Transformer 不使用循环网络或卷积。它采用自注意力机制(Self-Attention)来处理序列数据,极大地提高了模型处理长序列的能力。 Transformerz最初为自然语言处理( NLP)领域而设计,在 NLP中,它被用于机器翻译、文本摘要、语音识别、文本补全、文档搜索等。目前它也在改变着计算机视觉领域,并扩展到其他领域。
阶段五:大模型时代(2018年至今)
时代背景——算力、数据与算法的融合突破:云计算、分布式训练技术和海量互联网数据的积累,使得训练超大规模神经网络成为可能。以Transformer为核心的模型架构革新,推动AI从“任务专用”迈向“通用能力”探索。
-
2018年:预训练语言模型崛起
-
BERT与双向语言理解:谷歌提出BERT(Bidirectional Encoder Representations from Transformers),首次通过“遮蔽语言模型”实现双向上下文理解。BERT在11项自然语言处理任务中刷新记录(如问答、文本分类),成为NLP领域里程碑,验证了“预训练+微调”范式的潜力。
-
GPT-1开启生成式AI之路:OpenAI发布GPT-1(Generative Pre-trained Transformer),基于单向Transformer解码器,通过无监督预训练生成连贯文本,为后续GPT系列奠定基础。
-
2019-2020年:模型规模指数级增长
-
GPT-2与生成能力的突破:OpenAI推出GPT-2(15亿参数),因生成逼真文章引发伦理争议。其“零样本学习”能力表明,大模型无需任务微调即可完成翻译、摘要等任务。
-
GPT-3——规模即能力:GPT-3(1750亿参数)在2020年发布,凭借海量参数和广泛数据,仅需少量示例即可完成复杂任务(如写代码、写诗),标志“少样本学习”成为现实。
-
多模态探索萌芽:微软发布Turing-NLG、谷歌推出T5,尝试统一文本任务的模型架构;同时,ViT(Vision Transformer)证明Transformer在图像领域的潜力,打破CNN主导格局。
-
2021-2022年:多模态与通用AI的爆发
-
CLIP与DALL·E——连接文本与图像:OpenAI的CLIP模型通过对比学习对齐文本-图像语义,支持零样本图像分类;DALL·E则可从文本描述生成高质量图片(如“穿太空服的柯基犬”),开启AI创作时代。
-
AlphaFold2——AI驱动科学革命:DeepMind的AlphaFold2破解蛋白质折叠难题,精准预测98.5%人类蛋白质结构,被《科学》杂志评为年度突破,AI开始颠覆基础科学研究。
-
ChatGPT——对话AI的全民普及:2022年底,OpenAI推出ChatGPT(基于GPT-3.5),凭借流畅对话和逻辑推理能力引爆全球关注,两个月用户破亿,成为史上增长最快的消费级应用。
-
2023年至今:AGI探索与生态竞争
-
GPT-4与多模态通用能力:GPT-4支持图像输入和文本输出,在律师考试、学术测试中超越90%人类,且能理解幽默与隐喻,被OpenAI称为“通往AGI(通用人工智能)的早期步骤”。
-
开源与商业化浪潮:Meta开源LLaMA系列模型,降低大模型研发门槛;谷歌发布PaLM 2、Anthropic推出Claude 2,企业竞逐“模型即服务”市场。
-
AI伦理与监管框架启动:欧盟通过《人工智能法案》,全球多国制定AI安全准则,焦点集中于大模型的偏见、隐私、就业冲击与失控风险。
小结:从最初的简单计算程序,到今天能对话、创作,这段旅程远比我们想象的更加精彩。2023年以来,AI技术正以惊人的速度融入我们的生活。针对2023年以来的AI发展,难以用简短的文字在本篇中总结。后续将单独发布文章详细展开。
参考文献:
1. 从感知机到Transformer,一文概述深度学习简史:https://baijiahao.baidu.com/s?id=1733696557812490866&wfr=spider&for=pc