AI Journey — 从人工智障到人工智能

Chapter 01

人工"智障"时代

人工智能并非在真空中突然诞生，其发展轨迹是一条充满狂热、低谷与范式重塑的曲折道路。
在 AI 学会思考之前，它闹了不少笑话——让我们从这些有趣的翻车案例开始。

⏳ AI 早期探索简史

1950

图灵测试
Alan Turing 提出机器智能的测试标准

1966

ELIZA
MIT 的"心理医生"聊天程序

1996

Creatures
模拟人工生命的现象级软件

1997

深蓝
IBM 击败国际象棋世界冠军

2010s

人工智障时代
真实世界中频频翻车 ↓

🗣️

ELIZA 心理医生

点击翻转 →

1966 · MIT

ELIZA 是最早的聊天程序之一。它假装是心理医生，但其实只是把你说的话改成问句丢回来。

"我很难过" → "为什么你觉得你很难过？"
"因为天在下雨" → "你经常因为天在下雨而难过吗？"

💡 它不理解任何含义，只是在做模式匹配（Pattern Matching）

🏨

Henn-Na 机器人酒店

点击翻转 →

日本长崎 · 全球首家

雇佣 243 个机器人负责酒店运营，结果"解雇"了一半：
• 前台机器人听不懂客人口音 🤷
• 行李机器人在走廊撞墙 💥
• AI 语音助手把打呼噜声当指令，半夜反复说"请重复您的请求"

💡 规则封闭的 AI 进入真实世界后，面对"噪声"完全崩溃

⚽

AI 追踪裁判光头

点击翻转 →

苏格兰足球俱乐部

用 AI 球体追踪摄像机取代人类摄像师。结果 AI 把光头裁判的头顶当足球，死死跟随。

球迷错过了所有进球画面 😤
有人建议：给裁判配一顶假发 🧑‍🦲→🧢

💡 早期计算机视觉仅靠像素形状，完全缺乏"常识"判断

📱

Siri 翻车现场

点击翻转 →

语音助手的尴尬

"帮我定个闹钟" → "正在搜索闹钟怎么做"
"打电话给妈妈" → "正在拨打马云的电话"
"今天天气怎么样" → "你说的是天气还是天启？"

💡 早期语音助手对自然语言的理解非常有限，经常"听个大概"

🚗

自动驾驶看月亮

点击翻转 →

月亮 vs 红灯

某自动驾驶系统在夜间行驶时，把天上的月亮识别为红灯，在路中间停了下来。

司机：？？？
AI：前方红灯，已安全停车 ✅

💡 早期计算机视觉缺乏"常识"，只能依赖像素级的模式匹配

🎨

AI 画画恐怖谷

点击翻转 →

Uncanny Valley 时期

第一代生成模型的"超现实"作品：
• 做瑜伽的"蜘蛛人"多肢姿态 🕷️
• 吃汉堡时汉堡与脸融为一体 🍔
• 人类腿上长眼睛 👁️
• 六七根手指、牙齿像键盘

💡 机器的"想象力"在没有解剖学约束时肆意妄为——算法必须经历"学步期"

🤖 体验一下"人工智障"

试着跟这个 1960 年代水平的 AI 聊天，感受一下它有多"智障"

SmartBot v0.1 ⚠️ 智商感人

你好！我是 SmartBot v0.1，有什么可以帮你的吗？（大概率帮不了 🤷）

Chapter 02

回归第一性原理 · "看"和"学"

要真正理解大模型的惊人能力，必须从第一性原理出发。
AI 的核心本质是一种极其复杂的"多维函数逼近器"——通过海量数据找出输入与输出之间的数学路径。

🎯

规则时代 vs 学习时代

过去：人类写规则告诉电脑"圆的东西是球"
现在：给电脑看 10000 张球的照片，它自己学会什么是"球"

🧠

神经元、权重与偏置

人工神经元由输入层→隐藏层→输出层严密组织。神经元之间通过权重连接（决定信号影响力），再加上偏置常数增加灵活性。

⚡

激活函数：为什么需要非线性？

纯线性计算只能画直线，但现实世界是非线性的。激活函数（如 ReLU）能弯曲高维空间，让网络拟合复杂模式——这是深度学习的底层核心。

🔄

前向传播 & 反向传播

前向传播：数据流过网络得到预测
损失函数：计算预测与正确答案的误差
反向传播：用链式法则追责每个权重，再用梯度下降微调——重复万亿次后，AI "学会"了。

🏆

2012 · ImageNet 大突破

AlexNet 用深度学习在图像识别竞赛中碾压传统方法，错误率直降 10%+，深度学习时代正式开启！

🚧

CNN vs RNN 的致命瓶颈

CNN：用滑动窗口提取图像特征，称霸视觉领域
RNN/LSTM：逐词处理文本，有"记忆"但太慢
💀 致命缺陷：串行处理无法并行计算，浪费 GPU 算力——直到 Transformer 出现

✏️ 画一个图形，让 AI 试着认

试着画一个圆形 ⭕、方形 ⬜ 或三角形 △

🔗 神经网络是怎么工作的？

点击"传播信号"按钮，看看数据如何在网络中流动

Chapter 03

Attention Is All You Need

2017 年，Google 的一篇论文彻底改变了游戏规则——Transformer 架构诞生，
彻底抛弃了 RNN 和 CNN，完全依赖"注意力机制"来理解语言。

📅 2017 · Google Brain

"Attention Is All You Need"

Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, Polosukhin

这篇论文引入了 Transformer 架构。它的革命性在于：彻底抛弃了循环（RNN）和卷积（CNN）结构，
完全依赖注意力机制来计算输入和输出之间的表征。

📌 核心流程：文本 → Token 切割 → 词向量嵌入（Embeddings） → 自注意力计算 → 生成输出

🔑 Q·K·V 自注意力机制

Transformer 的核心创新：每个词都能直接与所有其他词"通信"

Q

查询 Query

"我在找什么？"
当前词发出查询信号，寻找它需要关注的上下文

×

K

键 Key

"我是什么？"
每个词提供自己的标签，供其他词匹配查询

→

V

值 Value

"我的内容是什么？"
匹配成功后，取出对应的实际信息

💡 类比：信息检索系统

当模型遇到代词"它"时 → 发出 Query 查找指代对象 → 检查所有词的 Key → 发现"猫"的 Key 匹配度最高 → 取出"猫"的 Value 信息。
通过 Softmax 归一化后得到注意力权重，最终合成当前词在完整上下文中的最优表征。

🎯 多头注意力：多角度理解

"银行在河边"

注意力头 1

关注"银行"→ 金融机构

注意力头 2

关注"河边"→ 地理位置

合并结果

✅ 理解为"河岸"而非金融机构

原始论文使用 8 个并行注意力头，从不同维度同时理解同一句话

⚡

并行化 · 算力红利

RNN 必须逐字读取文本（串行），Transformer 一次性吞下整篇文章（并行矩阵乘法），完美契合 GPU 架构，训练速度几何级增长。

🧠

告别遗忘 · 长距离依赖

RNN 处理长文本时早期信息被"稀释"遗忘。自注意力机制中，任意两词的信息传递路径长度始终为 1，彻底解决了遗忘问题。

🎯 注意力可视化

输入一句话，看看 Transformer 如何为每个词分配"注意力权重"（模拟 Scaled Dot-Product Attention）

📊 模型规模的力量

拖动滑块，感受参数量从百万到万亿的能力飞跃

模型参数量

模型

GPT-1

参数量

1.17亿

能力

基础文本生成

类比

🐣 刚学会说话的婴儿

Chapter 04

大模型时代 · AI 觉醒

当模型大到一定规模，量变引起质变——AI 突然"开窍"了。
核心原理：下一个 Token 预测（Next-token prediction），千亿参数 + 万亿语料 = 能力涌现。

2018.06

GPT-1 发布

OpenAI 发布第一代 GPT，1.17 亿参数。证明了"预训练 + 微调"范式的可行性。

2019.02

GPT-2 · "太危险了不敢发布"

15 亿参数。OpenAI 一度认为它生成的文本太真实，怕被用于造假而延迟发布。

2020.06

GPT-3 · 涌现能力

1750 亿参数。展现出 few-shot learning 能力，给几个示例就能完成新任务，震惊学界。

2022.11

🔥 ChatGPT 横空出世

两个月突破 1 亿用户，创造互联网产品增长奇迹。AI 从实验室走进千家万户。但也暴露出"幻觉"问题——AI 会自信地"编造"虚假答案。

2023.03

GPT-4 · 多模态突破

能看图、能推理、能通过律师资格考试。AI 能力跨越式提升。

2023 — 2024

百花齐放

Claude（Anthropic）、Gemini（Google）、LLaMA（Meta）、DeepSeek 等竞相登场，AI 军备竞赛开启。

2024.11

🔌 MCP 协议发布

Anthropic 发布模型上下文协议（MCP），被称为 AI 的"USB-C 接口"。AI 终于能连接外部工具和数据源。

2024.12

💭 推理模型 o1

首个被广泛采用的"思考型"模型发布，AI 从单轮生成进化到多步推理与逻辑推演。

2025.10

🧩 Agent Skills 推出

模块化技能系统上线——AI 可动态加载专业技能包，操作 Excel、PPT、PDF 等办公工具不在话下。

2025 — 2026

🌏 中国开源崛起 & AI Agent 全面爆发

DeepSeek V3.2（性价比之神）、小米 MiMo（完全免费309B）、GLM-4.7（355B开源巨兽）相继发布。AI 从"聊天"进化为自主完成任务的 Agent——Claude Code、OpenClaw 生态全面开花。

🎯 主流大模型能力对比

点击右侧模型名称切换对比

Chapter 05

智能体崛起 · 工具生态

2024—2026，大模型从"大脑"进化为能调用工具、操纵数字环境的"执行者"。
AI 不再困在文本框里——MCP、Agent Skills 让它拥有了触及数字世界的虚拟双手。

📚

RAG

Retrieval-Augmented Generation · 检索增强生成

大模型像被关在黑屋子里的学者，只能凭固化的记忆"闭卷考试"。RAG 给了它一把通往超级图书馆的钥匙——先检索真实文档，再基于事实回答，大幅抑制"幻觉"。支持高级的 GraphRAG（知识图谱）和多模态数据解析。

📖 类比：闭卷考试 → 开卷考试，先查阅资料再答题

🔌

MCP

Model Context Protocol · 模型上下文协议

AI 领域的"USB-C 接口"。解决了 N×M 集成地狱（N 种工具 × M 种模型 = 灾难），采用 JSON-RPC 三层架构：Host（AI 应用）→ Client（连接管理）→ Server（工具端点）。开发者只需写一次代码，任何模型都能调用。

🔌 类比：USB-C 统一接口——一次开发，处处可用，模型无关性

💻

Claude Code

AI-Powered Coding Agent · 编程智能体

基于 Opus 4.6（100 万 Token 上下文），从被动代码补全进化为主动的软件工程自动化操作员——理解整个代码库、自主重构、追踪跨文件 Bug、架构设计。破坏现有代码的概率极低。

👨‍💻 类比：一个深度理解项目的资深工程师搭档，24/7 在线

🧩

Agent Skills

Modular AI Skill Packages · 模块化技能

由指令、脚本和资源组成的模块化文件夹，模型可按需动态加载。内置技能：操作 Excel、PPT、Word、PDF。支持企业上传自定义技能库，将专业知识和工作流直接内化为 AI 的能力。

🎓 类比：即插即用的专业培训课——按需装载，用完卸载

🤖

AI Agent

Autonomous AI Agent · 自主智能体

能自主思考、规划和行动的 AI。未来趋势：不再是一个"超级大脑"包揽一切，而是由众多狭义智能体组成协同团队——每个只挂载 7-10 个专属技能，通过通信总线相互协作。

🦾 类比：一个精准分工的专家团队——每人只做最擅长的事

🐙

OpenClaw

Open-Source Agent Ecosystem · 开源代理生态

专为大规模 AI 代理工作流设计的开源生态框架。AI 不是孤立大脑，而是自动化执行机——规划任务、调用工具、串联多步骤流程。用户从开发者扩散到金融分析师、运维工程师、内容创作者。消耗 8280 亿 Token 位列全球应用榜首。

🐙 类比：智能体的"工厂流水线"——开源免费，自由定制

📚 RAG 工作流程演示

点击按钮，一步步看 RAG 如何工作

❓

用户提问

"DeepSeek是什么？"

→

🔍

检索知识库

在文档中搜索相关内容

→

📋

组装上下文

把检索到的资料整理好

→

🧠

AI 生成

基于真实资料来回答

→

✅

输出答案

有依据的可靠答案

🔌 MCP：AI 的万能接口

点击工具卡片，看 AI 如何通过 MCP 连接不同工具

📂

文件系统

🗄️

数据库

🌐

Web API

⚙️

代码执行

🤖

AI

🔎

搜索引擎

📧

邮件服务

📅

日历管理

🔀

Git 仓库

🐙 OpenClaw：智能体工厂流水线

点击各环节，看 AI Agent 如何自动化编排多步骤任务

📝

任务拆解

将复杂目标分解为子任务

→

🧠

智能规划

确定执行顺序和依赖关系

→

🔧

工具调用

MCP 接入外部工具执行

→

🔄

结果校验

自我检查并迭代优化

→

✅

交付成果

输出高质量最终结果

👆 点击上方流程节点查看详情

🤖 AI Agent：自主智能体协作

未来不是一个"超级大脑"包揽一切，而是多个专精 Agent 组成协作团队

🎯

协调者 Agent

任务分发 · 进度追踪

💻

编程 Agent

代码生成 · Debug

🔬

研究 Agent

信息检索 · 分析

✍️

写作 Agent

文档 · 报告生成

🧪

测试 Agent

质量把控 · 验证

👆 点击 Agent 节点查看协作详情

Chapter 06

开始吧，让 AI 协助你！

恭喜你完成了 AI Journey！现在你已经了解了 AI 的发展脉络，是时候开始行动了。

🤖

从人工智障出发

你了解了早期 AI 的局限，从 ELIZA 到 Siri，它们只能做简单的模式匹配

🧠

掌握了核心原理

从神经网络到 Transformer，Attention 机制让 AI 学会真正的"理解"

🌟

见证了大模型觉醒

千亿参数引发能力涌现，从 GPT 到 DeepSeek，AI 实现质的飞跃

🚀

准备好拥抱 AI

RAG、MCP、Agent 组成完整生态——你已具备起飞的全部知识！

✏️ Prompt 练习场

学习如何写好 Prompt，让 AI 更好地理解你。试试下面的示例！

AI 助手 ✨ 满血版

你好！我是一个模拟的 AI 助手。试试用下面的技巧跟我对话吧！😊

💡 Prompt 技巧（点击试试）

🛠️ 立即上手这些 AI 工具

AI 的时代已经到来

从"人工智障"到万亿参数大模型，从聊天框到自主智能体——
AI 系统将化为千万个精准咬合的智能齿轮，融入并重构人类文明的下一个产业周期。
拥抱它，让 AI 成为你最强大的伙伴。

开始使用 AI →