论文解读-智慧行动:培养多模态智能体的元认知工具使用能力 - 2026-04-12 -
03:21
阅读次数: 0title: 【AI论文解读】智慧行动:培养多模态智能体的元认知工具使用能力 - 2026-04-12 - source: https://confluence.zhenguanyu.com/pages/viewpage.action?pageId=1066040734 author: published: created: 2026-04-20 description: tags:
论文信息
- 标题: Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models
- arxiv: 2604.08545
- 作者: Shilin Yan, Jintao Tong, Hongwei Xue, Xiaojun Tang, Yangyang Wang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou
- 机构: Accio Team (Alibaba Group) & 华中科技大学 (HUST)
- 发布日期: 2026-04-12
一句话概括
这篇论文提出了一种名为 HDPO(Hierarchical Decoupled Policy Optimization,分层解耦策略优化) 的新型强化学习训练方法,解决了多模态AI智能体(Agentic Multimodal Models)"不会思考就乱用工具"的问题。训练出的模型 Metis 将工具调用率从 98% 暴降到 2%,同时推理准确率反而提升了!
🎯 一个生活化比喻 :想象你有一个助手,每次你问他"今天星期几",他都要掏出手机查日历——即使他明明知道答案。这就是当前AI智能体的状态: 明明自己能回答的问题,也非要调用外部工具 。这篇论文就是教AI学会"该查就查,能答就答"的智慧。
1. 引言(Introduction):AI智能体的"工具依赖症"
1.1 什么是多模态智能体?
多模态智能体(Agentic Multimodal Models) 是一类能够"看图说话"并且能"动手做事"的AI模型。它们不仅能理解文字和图片,还能调用外部工具来完成任务,比如:
- 📷 调用 图像搜索工具 来识别图片中不认识的物体
- 💻 调用 代码执行工具 来裁剪放大图片中的细节
- 🔍 调用 OCR工具 来识别图片中的文字
这些工具赋予了AI"超能力",让它能处理单靠"看"解决不了的问题。
1.2 问题出在哪?——盲目工具调用(Blind Tool Invocation)
论文指出,当前的多模态智能体存在严重的 "元认知缺陷"(Meta-Cognitive Deficiency) 。所谓 元认知(Meta-Cognition) ,就是"对自己认知能力的认知"——你知道自己知道什么、不知道什么。
但现在的AI模型缺乏这种自我评估能力,导致了 盲目工具调用(Blind Tool Invocation, BTI) 现象:
- 即使图片中的文字清清楚楚,模型也要调用OCR工具去"读"
- 即使答案一眼就能看出来,模型也要先裁剪、放大、搜索一番
- 工具调用率高达 98% !几乎每个问题都要调用工具
⚠️ 盲目工具调用的两大危害 :
- 延迟瓶颈(Latency Bottleneck) :每次工具调用都需要额外的网络请求和计算时间,导致响应速度大幅下降
- 推理噪声(Inference Noise) :不必要的工具输出可能引入错误信息,反而干扰模型的正确判断
🏥 比喻 :这就像一个医生,每次病人来看感冒,他都要先做全身CT、核磁共振、血液全套检查……明明量个体温、听个诊就够了。不仅浪费资源,过多的检查结果还可能让医生更困惑。
1.3 为什么现有方法解决不了?
之前的研究者尝试用 强化学习(Reinforcement Learning, RL) 来解决这个问题,具体做法是设计一个 混合奖励函数(Scalarized Reward) :
R_mix = R_acc + α · R_tool
其中:
R_acc:回答正确的奖励(鼓励准确性)R_tool:少用工具的奖励(鼓励效率)α:平衡系数,控制两个目标的相对重要性
但这种"把两个目标搅在一起"的做法,造成了一个 不可调和的困境 :
| 场景 | 问题描述 |
|---|---|
| α 太大 | 模型为了少用工具,连真正需要工具的时候也不用了,准确率暴跌 |
| α 太小 | 效率信号太弱,被准确率奖励的方差淹没,模型根本学不到"少用工具"这件事 |
论文用严格的数学推导证明了:当 α 很小时,效率信号对梯度的贡献只有 O(α) 量级——就像在大海里滴了一滴墨水,根本看不到效果。
2. 相关工作(Related Work)
2.1 工具增强的多模态模型(Tool-Augmented Multimodal Models)
近年来,研究者们通过让视觉语言模型(Vision-Language Models, VLMs)调用外部工具来增强其能力。代表性工作包括:
- DeepEyes / DeepEyesV2 :通过RL训练让模型学会在需要时调用视觉搜索和代码执行工具
- Visual Sketchpad :让模型生成中间视觉草图来辅助推理
- 其他工作 :通过SFT(监督微调)或思维链提示(Chain-of-Thought Prompting)来引导工具使用
但这些方法都缺少一个关键能力: 判断何时该用工具、何时不该用 。它们要么总是用工具,要么需要人工设计复杂的规则来控制。
2.2 强化学习优化大模型(RL for LLMs/VLMs)
用RL训练大语言模型已成主流方法。代表性工作包括:
- GRPO(Group Relative Policy Optimization) :DeepSeek提出的群组相对策略优化,通过组内比较来估计优势函数
- RLHF(Reinforcement Learning from Human Feedback) :用人类反馈来训练奖励模型
- 多目标RL(Multi-Objective RL) :同时优化多个目标(如正确性和简洁性)
现有方法在处理多目标时,通常采用 标量化(Scalarization) 策略——把多个目标加权求和成一个数字。但本文论证了这种方法在工具使用场景下有根本性缺陷。
3. 问题分析(Problem Analysis):为什么标量化奖励行不通?
这是本文最精彩的理论分析部分。作者不是简单地说"现有方法不好",而是用数学严格证明了为什么不好。
3.1 三大病理(Three Pathologies)
病理一:梯度纠缠(Gradient Entanglement)
当两个奖励信号被混合在一起时,它们的梯度方向可能互相矛盾。比如,对于一个确实需要工具才能解决的问题:
- 准确率奖励说:"用工具!这样才能答对!"(梯度方向→用工具)
- 效率奖励说:"别用工具!用工具要扣分!"(梯度方向→不用工具)
两个梯度打架,模型不知道该听谁的,学习过程变得混乱不稳定。
🚗 比喻 :这就像开车时,GPS说"往左转",副驾驶说"往右转"——你把两个指令平均一下,结果就是直接撞墙。
病理二:语义歧义(Semantic Ambiguity)
一个标量化的奖励值包含了混合的信息。例如, R_mix = 0.7 可能意味着:
- 答对了(+1)但用了太多工具(-0.3)
- 答错了(0)但工具使用很高效(+0.7)
模型无法从这个数字中分辨出到底是哪种情况,因此无法学到正确的策略。
病理三:超参数脆弱(Hyperparameter Fragility)
平衡系数 α 的取值极其敏感:
- 稍大一点→模型变成"工具恐惧症",该用工具时也不敢用
- 稍小一点→效率信号被淹没,模型继续无脑调用工具
- 没有一个"恰到好处"的值能同时满足所有场景
3.2 数学推导:效率信号为什么会被淹没?
论文给出了严格的数学证明。核心结论是:
在标量化奖励 R_mix = R_acc + α·R_tool 的设定下,效率信号对策略梯度的贡献量级为 O(α) 。而准确率奖励的方差通常远大于这个量级。
📻 比喻 :这就像在摇滚演唱会上(准确率奖励的方差 = 巨大的噪声),你试图听清旁边人的耳语(效率信号 = α 很小的信号)。除非你把 α 调到很大(相当于让他拿大喇叭喊),否则根本听不见——但那样就把音乐(准确率优化)给盖住了。
4. 方法(Method):HDPO——分层解耦策略优化
这是论文的核心贡献。HDPO 的核心思想用一句话概括就是: "先学会做对,再学会做巧" 。
4.1 核心思想:从"竞争"到"条件"
HDPO 的关键洞察是: 工具效率不应该和准确率"竞争",而应该是准确率的"附属条件" 。
具体来说:
- 旧范式(标量化奖励) :准确率和效率是两个"竞争选手",在同一个赛道上抢资源
- 新范式(HDPO) :准确率是"主考试",效率是"加分项"——只有考试及格了(回答正确),才有资格拿加分
4.2 两个正交优化通道
HDPO 设计了两个 完全独立的优化通道(Orthogonal Optimization Channels) :
通道一:准确率通道(Accuracy Channel)
- 目标 :让模型学会正确回答问题
- 范围 :在 所有 rollout(模型的尝试)上优化
- 方法 :使用标准的 GRPO 优势估计(Advantage Estimation)
- 奖励 :回答正确得 1 分,错误得 0 分
通道二:效率通道(Efficiency Channel)
- 目标 :在保证正确的前提下,尽量少用工具
- 范围 : 仅在正确回答的rollout集合 (称为"合格集 Q")内优化
- 方法 :使用条件优势估计(Conditional Advantage Estimation)
- 奖励 :
R_tool = 1/(T+1),其中 T 是工具调用次数。调用越少,奖励越高。仅当回答正确时才有此奖励。
📐 工具奖励函数详解
R_tool = 1/(T+1)
- 不调用工具(T=0):R_tool = 1/1 = 1.0(最高分!)
- 调用1次工具(T=1):R_tool = 1/2 = 0.5
- 调用2次工具(T=2):R_tool = 1/3 ≈ 0.33
- 调用10次工具(T=10):R_tool = 1/11 ≈ 0.09
这个函数的妙处在于:它 不是"禁止"用工具,而是鼓励"能少用就少用" 。
4.3 条件优势估计(Conditional Advantage Estimation)
这是 HDPO 的数学核心。传统的优势估计在所有 rollout 中计算均值和标准差:
A_i = (R_i - mean(R)) / std(R)
但 HDPO 的效率通道只在"合格集 Q"内计算:
A_tool_i = (R_tool_i - mean(R_tool | Q)) / std(R_tool | Q)
对于不在 Q 中的 rollout(即回答错误的),效率优势直接设为 0——它们没有资格参与效率优化。
🏫 比喻 :就像学校评选"最佳学习效率奖"——只有考试及格的学生才有资格参评。你考了零分但复习时间很短,这不叫"高效",这叫"摸鱼"。HDPO 的条件优势估计就是这个逻辑。
4.4 最终训练目标
HDPO 的总损失函数为:
L_HDPO = w_acc · L_GRPO(A^acc) + w_tool · L_GRPO(A^tool)
其中:
w_acc:准确率通道的权重(通常为 1.0)w_tool:效率通道的权重(实验中最佳值为 0.15)L_GRPO(A^acc):基于准确率优势的 GRPO 损失L_GRPO(A^tool):基于效率优势的 GRPO 损失
关键区别 :虽然最终的 loss 也是两项加权求和,但与标量化奖励的本质区别在于——两个优势估计是 独立计算 的,效率优势仅在正确轨迹中估计。这消除了梯度纠缠问题。
4.5 隐式课程学习(Implicit Curriculum Learning)
HDPO 有一个非常优雅的"自动调节"特性:
| 训练阶段 | 模型状态 | 合格集 Q 大小 | 效果 |
|---|---|---|---|
| 训练早期 | 模型能力弱,大部分回答错误 | Q 很小甚至为空 | 效率通道几乎不贡献梯度,模型全力学习"答对" |
| 训练中期 | 模型开始答对一些问题 | Q 逐渐变大 | 效率信号逐渐增强,模型开始学习"在答对的前提下少用工具" |
| 训练后期 | 模型大部分能答对 | Q 很大 | 效率通道充分发挥作用,模型学会"聪明地用工具" |
👶→🧒→🧑 比喻 :这就像教育一个孩子:
- 幼儿园阶段 :先学会基本知识(不管方法,答对就行)
- 小学阶段 :在答对的基础上,开始学习更高效的解题方法
- 中学阶段 :能力成熟后,自然就知道什么时候该查资料、什么时候直接答
整个过程是 自然涌现 的,不需要人工设定"第10轮开始关注效率"这样的硬规则!
5. 数据筛选流水线(Data Curation Pipeline)
好的训练方法需要好的训练数据。论文在数据筛选上也做了大量细致的工作。
5.1 SFT 阶段的数据筛选
SFT(Supervised Fine-Tuning,监督微调) 是 RL 训练之前的"预备阶段",让模型先学会基本的工具使用格式。
步骤一:消除幻觉环境动态(Eliminating Hallucinated Environment Dynamics)
有些训练样本中,模型的"工具输出"是虚构的——模型假装调用了工具并编造了返回结果。这种数据会让模型学到错误的工具使用模式。论文通过验证工具调用-返回的一致性来过滤这些样本。
步骤二:隔离真正的工具需求(Isolating Genuine Tool Dependencies)
关键策略:对每个训练样本,用基础模型 不使用工具 尝试回答 8 次(pass@8)。如果 8 次都能答对(pass@8 = 1),说明这个问题 根本不需要工具 就能解决——这样的样本会被过滤掉。
🧪 比喻 :如果一个学生不用计算器也能 8 次都算对,那这道题就不应该出现在"计算器使用训练集"里——因为它无法教会学生"什么时候需要计算器"。
步骤三:多维元认知过滤(Multi-dimensional Meta-Cognitive Filtering)
确保训练数据覆盖多种元认知场景:
- 需要工具 的样本(如高分辨率图像中的微小文字)
- 不需要工具 的样本(如图中大字清晰可读)
- 不同类型的工具需求 (搜索 vs 代码执行 vs OCR)
5.2 RL 阶段的数据筛选
环境保真度验证(Environment Fidelity Verification)
确保 RL 训练中模型与环境交互的结果是真实可靠的。例如:
- 工具调用确实返回了真实结果(而不是模拟数据)
- 奖励信号准确反映了答案的正确性
方差感知难度校准(Variance-Aware Difficulty Calibration)
RL 训练需要"刚刚好"的难度——太简单则没有学习信号(所有 rollout 都对),太难则没有正向信号(所有 rollout 都错)。
论文使用 rollout 准确率的方差来筛选合适难度的样本:
- 方差为 0(全对或全错)→ 过滤掉
- 方差适中(有对有错)→ 保留,这些样本提供最丰富的学习信号
6. Metis 模型系统设计
6.1 整体架构
基于 HDPO 训练出来的模型被命名为 Metis (取自希腊神话中的智慧女神墨提斯)。其整体训练流程为:
- 基座模型 :Qwen3-VL-8B-Instruct(通义千问3的8B视觉语言模型)
- SFT 阶段 :用筛选后的数据进行监督微调,让模型学会工具使用的基本格式
- RL 阶段 :用 HDPO 进行强化学习,让模型学会"聪明地"使用工具
6.2 工具集
Metis 可以调用的工具包括:
| 工具 | 功能 | 使用场景 |
|---|---|---|
| 图像搜索(Image Search) | 在网上搜索相似图像 | 无法从图像特征直接识别物体时 |
| 代码执行(Code Execution) | 运行 Python 代码来处理图像 | 需要裁剪、放大、增强图像细节时 |
6.3 训练配置
- 硬件 :8 × NVIDIA B200 GPUs
- RL框架 :基于 GRPO 的自定义实现
- 超参数 :w_acc = 1.0, w_tool = 0.15(通过消融实验确定)
7. 实验(Experiments)
7.1 评测基准
论文在多个权威基准上进行了全面评测,涵盖两大类任务:
- 感知与文档理解 :V*Bench, HR4K, HR8K, TreeBench, MME-RW, SEED2+, CharXiv
- 数学与逻辑推理 :MathVista, MathVerse, WeMath, DynaMath, LogicVista
7.2 感知与文档理解结果
| 模型 | V*Bench | HR4K | HR8K | TreeBench | MME-RW | SEED2+ | CharXiv(DQ) | CharXiv(RQ) |
|---|---|---|---|---|---|---|---|---|
| Qwen3-VL-8B | 86.4 | 78.9 | 74.6 | 40.7 | 61.9 | 71.0 | 83.0 | 46.3 |
| DeepEyes | 83.3 | 73.2 | 69.5 | 37.5 | 64.1 | - | - | - |
| DeepEyesV2 | 87.3 | 80.5 | 76.5 | 42.0 | 66.7 | - | - | - |
| Metis | 91.1 | 83.5 | 82.0 | 44.0 | 67.0 | 73.5 | 86.5 | 54.1 |
📊 结果解读 :
- Metis 在 所有基准 上都取得了最佳成绩
- 相比基座模型 Qwen3-VL-8B,在 V*Bench 上提升了 4.7 个百分点 (86.4→91.1)
- 在高分辨率理解(HR8K)上提升了 7.4 个百分点 (74.6→82.0),说明 HDPO 让模型学会了在需要时精准使用工具来处理高分辨率图像
- 在 CharXiv(RQ) 上提升了 7.8 个百分点 (46.3→54.1),显示在图表推理任务上的显著增强
7.3 数学与逻辑推理结果
| 模型 | MathVista_mini | MathVerse_mini | WeMath | DynaMath | LogicVista | Avg |
|---|---|---|---|---|---|---|
| Qwen3-VL-8B | 76.3 | 61.3 | 38.8 | 65.5 | 54.9 | 59.4 |
| DeepEyesV2 | 71.9 | 52.7 | 38.1 | 57.2 | 48.7 | 53.7 |
| Metis | 78.0 | 65.9 | 65.2 | 69.2 | 56.2 | 66.9 |
📊 结果解读 :
- Metis 在数学推理上的平均分(66.9)比基座模型(59.4)提升了 7.5 个百分点
- 特别值得注意的是 WeMath 基准:从 38.8 提升到 65.2 ,提升了惊人的 26.4 个百分点 !
- 有趣的是,DeepEyesV2(一个专注于工具增强的模型)在数学推理上反而 比基座模型更差 (53.7 vs 59.4),这验证了论文的核心论点: 盲目使用工具不仅不帮忙,还可能帮倒忙
7.4 消融实验(Ablation Study)
消融实验用于验证 HDPO 各组件的贡献。
| 方法 | V*Bench | HR4K | HR8K | CharXiv(RQ) | MathVista |
|---|---|---|---|---|---|
| Qwen3-VL-8B (基座模型) | 86.4 | 78.9 | 74.6 | 46.3 | 76.3 |
| + GRPO (w_tool=0, 无效率优化) | 88.7 | 81.0 | 79.2 | 51.0 | 76.9 |
| + HDPO (w_tool=0.10) | 88.0 | 83.5 | 81.0 | 52.7 | 77.4 |
| + HDPO (w_tool=0.15) | 91.1 | 83.5 | 82.0 | 54.1 | 78.0 |
| + HDPO (w_tool=0.20) | 87.4 | 82.5 | 80.5 | 51.5 | 77.2 |
🔍 消融实验关键发现 :
- 纯 GRPO(无效率优化)已有提升 :w_tool=0 时,仅优化准确率也带来了改进(如 V*Bench 从 86.4→88.7),说明 RL 训练本身对模型有益
- HDPO 效率通道带来额外提升 :加入效率通道后,性能进一步提升。最佳 w_tool=0.15 时,V*Bench 达到 91.1
- "少用工具"竟然提升了准确率 :这是一个反直觉但重要的发现——减少不必要的工具调用,反而让模型的推理更准确了!这验证了"推理噪声"假说
- w_tool 不宜过大 :w_tool=0.20 时性能开始下降,说明过度抑制工具使用也不好。0.15 是最佳平衡点
7.5 工具调用率变化
这是最令人震撼的结果:
| 指标 | 训练前 | 训练后(Metis) |
|---|---|---|
| 工具调用率 | ~98% | ~2% |
| 推理准确率 | 基线 | 显著提升 |
🤯 这意味着什么?
训练前,模型在 100 个问题中会对 98 个调用工具。训练后,只有 2 个问题会调用工具——但准确率反而更高了!
这说明:之前 96% 的工具调用都是 不必要的 ,不仅浪费计算资源,还引入了噪声干扰了推理。HDPO 成功让模型学会了"知道自己知道什么"。
8. 元认知案例分析(Meta-Cognitive Case Studies)
论文展示了 Metis 在不同场景下的"元认知"决策,非常直观地说明了模型学到了什么。
8.1 案例一:直接推理(Direct Reasoning)
场景 :图片中有清晰可读的文字或明显的视觉特征。
Metis的行为 :直接给出答案,不调用任何工具。
分析 :模型"知道自己能看清",不需要额外帮助。这是元认知的第一层——对自身能力的准确评估。
8.2 案例二:选择性搜索(Selective Search)
场景 :图片中的物体或地标无法仅从视觉特征识别(如一座不知名的建筑)。
Metis的行为 :调用图像搜索工具来获取更多信息。
分析 :模型"知道自己不认识",主动寻求外部帮助。这是元认知的第二层——对自身知识边界的清晰意识。
8.3 案例三:选择性代码执行(Selective Code Execution)
场景 :图片中需要精细视觉分析的细节(如高分辨率图像中的微小文字)。
Metis的行为 :调用代码执行工具来裁剪和放大目标区域。
分析 :模型"知道自己看不清",精准选择合适的工具来增强感知能力。这是元认知的第三层——对工具能力的恰当匹配。
👨⚕️ 回到医生的比喻 :训练后的 Metis 就像一位经验丰富的医生:
- 感冒症状明显 → 直接开药,不做多余检查(直接推理)
- 症状不明确,需要排查 → 开一张有针对性的化验单(选择性搜索)
- 怀疑特定问题,需要看清楚 → 做一次精确的影像检查(选择性代码执行)
9. 深入讨论(Discussion)
9.1 为什么"少用工具"反而准确率更高?
这看似矛盾的结果有三个原因:
- 减少推理噪声 :不必要的工具输出可能包含无关信息,干扰模型的判断
- 强化内在推理 :当模型不能"偷懒"依赖工具时,它被迫发展出更强的视觉理解和推理能力
- 避免错误传播 :工具本身也可能出错,减少工具调用就减少了引入错误的机会
9.2 HDPO vs 标量化奖励的本质区别
| 特征 | 标量化奖励 R_mix | HDPO |
|---|---|---|
| 奖励计算 | 混合在一起 | 完全独立计算 |
| 梯度关系 | 纠缠、可能冲突 | 正交、互不干扰 |
| 效率优化前提 | 无条件参与 | 以正确性为前提 |
| 超参数敏感度 | 极其敏感 | 较为鲁棒(0.10-0.15 范围都不错) |
| 课程学习 | 需要手动设计 | 自动涌现 |
9.3 局限性与未来方向
论文虽然没有专门的"局限性"章节,但从分析中可以识别出一些潜在的拓展方向:
- 工具种类有限 :目前只使用了图像搜索和代码执行两种工具,未来可以扩展到更多工具类型
- 模型规模 :实验基于 8B 参数量级的模型,在更大或更小的模型上效果如何有待验证
- 任务范围 :主要聚焦于视觉理解和数学推理,在其他领域(如对话、创作)的适用性有待探索
- 工具奖励函数 :
1/(T+1)的设计较简单,可能存在更优的函数形式
10. 结论(Conclusion)
这篇论文做出了三个核心贡献:
- 问题发现与理论分析 :识别并严格分析了多模态智能体的"盲目工具调用"问题,证明了标量化奖励方法存在根本性的优化困境(梯度纠缠、语义歧义、超参数脆弱)
- 方法创新——HDPO :提出分层解耦策略优化,通过将准确率和效率目标解耦为正交优化通道,从根本上解决了梯度纠缠问题。条件优势估计和隐式课程学习是两个特别优雅的设计
- 实证验证——Metis :训练出的 Metis 模型在 12 个评测基准上全面领先,同时将工具调用率从 98% 降到 2%,堪称"用更少的工具做更好的事"
💡 这篇论文的启示
这篇论文的核心思想不仅适用于多模态模型的工具使用,更有广泛的启示意义:
- 对AI研究 :多目标优化时,不要简单加权求和,要根据目标之间的逻辑关系设计优化结构
- 对AI应用 :更多的工具≠更好的效果,教会AI"不该用时不用"比"教会AI用工具"更重要
- 对人类认知 :元认知(知道自己知道什么、不知道什么)是高效决策的关键。这对人类学习和工作同样适用
11. 论文亮点总结
| 维度 | 亮点 |
|---|---|
| 问题定义 | 首次明确提出"盲目工具调用"问题,并从元认知角度分析 |
| 理论深度 | 数学严格证明标量化奖励的三大病理,不是凭感觉而是有推导 |
| 方法优雅 | HDPO 的解耦设计简洁有力,隐式课程学习更是"不设计"的设计 |
| 数据工程 | 多步骤的数据筛选 pipeline 体现了工程实践的深度 |
| 实验全面 | 12个基准、多种任务类型、详细的消融实验 |
| 结果震撼 | 98%→2% 的工具调用率降低,同时准确率提升 |
| 命名品味 | Metis(智慧女神)— 恰如其分的名字 |
🌟 一句话总结 :这篇论文教会了AI一个人类的基本智慧—— "知之为知之,不知为不知,是知也" 。
