近思录 2026-02-08
AI太厉害咧,有没有什么事它不擅长?
我知道一个。由于tokenization (词元化)机制以及目前思考模型的局限,让它数字符数很可能得不到正确答案。
| 模型 | 正确答案 | AI输出答案 |
|---|---|---|
| 讯飞星火 | 131,验证后给出174 | |
| 豆包 | 155 | |
| Qwen3-Max-Thinking | 94,验证后还是错的 | |
| Qwen3-Max-Thinking 深度思考 | 155 | 155 |
| Qwen3-235B | 155 | |
| Gemini 3 Fast | 144,列的表是对的,还是算错了 | |
| DeepSeek R1 | 155 |
都是用各种平台的在线界面试的。有趣的是,千问最新的思考模型思考半天反而想错了,只有上深度思考,使劲思考,才对。
至少这个例子显示了目前AI模型的缺陷:不具有真正的思考能力。思考了半天,甚至生成了Python代码,还是错。
我能想到可行的解决方案是,调用外部工具,借助工具弥补所谓的「思考」和「推理」的短板。
哪有什么深度思考啊,瞎编乱造罢了。
「去离家50米的洗车店 是开车还是走路去」
这是最近火的AI智商检测题目,类似的还有「Strawberry里有几个r」,这个和上面的统计字符数道理一样。
结论一致,AI尚不具有真正的思考能力。
十几年前,Android刚火那会,有个类似的公众事件,我印象中是用Android自带的计算器算1÷3×3,结果不是1。这个表面上是程序bug,考虑不周,底层的原理是计算机的浮点运算精度问题,是我们现有的数值计算体系的缺陷。
如果懂原理,理解起来就不困难。
去豆包水印
亲测可用。AI画图,擅长的就是几个提示词生成一套含义不明的图,作为素材不错。作为非专业是使用者,想控制AI让它生成我期望的构图等等,比较难。
Make octave plotting WYSIWYG
总算有人修复了Octave屏幕显示和输出图片大小一致的问题。
PROTECT Taiwan Act
刘思齐
胡石英
媒体机「特调」严重,测评「遥遥领先」不可信
https://www.bilibili.com/video/BV12mZtBTEJB
有个之前看到的词和这个类似,「数据定制服务」。如果过程不透明,任何结果都可以做出来,实验如此,理论计算如此。加上成本越来越低,真实度越来越高的各种生成式人工智能,这个年代最缺的恐怕是「信誉」了,说它比黄金更珍贵不为过。
生成式人工智能(Generative AI)
- 注意力(Attention)
- 指令微调(Instruction tuning)
- 嵌入(Embedding)
- 强化学习(Reinforcement learning)
- RLHF (Reinforcement learning from human feedback)
- 文生图(Text2Image)
- 扩散模型(Diffusion Models)
- LoRA (Low-rank adaptation)
- 混合专家模型(MoE)
- 量化(Quantization)
- 对齐(Alignment)
- 模型蒸馏(Model distillation)
- 多模态(Multimodal)
- 推理链(Chain-of-Thought)
- 智能体(Agent)
我认为,目前的局限是上面提到的,AI根本不会思考,还是个背题机器,需要把所有的书都看完才能开口,导致模型巨大,吃内存和显存。内存价格已经上天啦,10来年前的DDR3都被召回战场了,我4年前配的X79小主机竟然能再次成为「主流配置」。
现在的大模型做高考题在山东能考上北大清华
https://finance.sina.com.cn/tech/shenji/2025-06-26/doc-infckhuq4913228.shtml
| 学科 | 满分 | Seed1.6-Thinking | Gemini-2.5-Pro-0605 | DeepSeek-R1-0528 | Claude-Sonnet-4 | OpenAI-o3-high-0416 | 平均分±标准差 |
|---|---|---|---|---|---|---|---|
| 理科总分 | 750 | 648 | 655 | 615 | 598 | 579 | 619.00 ± 32.38 |
| 文科总分 | 750 | 683 | 651 | 631 | 633 | 625 | 644.60 ± 23.55 |
| 语文 | 150 | 128 | 126 | 118 | 117 | 95 | 116.80 ± 13.10 |
| 数学 | 150 | 141 | 140 | 145 | 128 | 136 | 138.00 ± 6.44 |
| 英语 | 150 | 144 | 141 | 143 | 142 | 140 | 142.00 ± 1.58 |
| 物理 | 100 | 90 | 89 | 62 | 74 | 65 | 76.00 ± 13.10 |
| 化学 | 100 | 69 | 82 | 72 | 61 | 66 | 70.00 ± 7.84 |
| 生物 | 100 | 76 | 77 | 75 | 76 | 77 | 76.20 ± 0.84 |
| 地理 | 100 | 94 | 78 | 79 | 92 | 90 | 86.60 ± 7.54 |
| 历史 | 100 | 92 | 84 | 67 | 78 | 84 | 81.00 ± 9.27 |
| 政治 | 100 | 84 | 82 | 79 | 76 | 80 | 80.20 ± 3.03 |
从标准差看,物理还是难,其次是历史,化学和地理差不多难度。不过呢,化学的平均分是最低的,说明最难。作为擅长化学的人士,我很欣慰。
或者您可以把评论发在别处,添加指向本页的连接,然后把网址告诉我:
本文标题:近思录 2026-02-08
文章作者:Chris
发布时间:2026-02-08
最后更新:2026-02-16
原始链接:https://chriszheng.science/2026/02/08/Recent-thoughts-2026-02-08/
版权声明:本博客所有文章除特别声明外,均采用 CC BY 4.0 许可协议。转载请注明出处!
分享