近思录 2026-02-08

AI太厉害咧，有没有什么事它不擅长？

我知道一个。由于tokenization (词元化)机制以及目前思考模型的局限，让它数字符数很可能得不到正确答案。

模型	正确答案	AI输出答案
讯飞星火		131，验证后给出174
豆包		155
Qwen3-Max-Thinking		94，验证后还是错的
Qwen3-Max-Thinking 深度思考	155	155
Qwen3-235B		155
Gemini 3 Fast		144，列的表是对的，还是算错了
DeepSeek R1		155

都是用各种平台的在线界面试的。有趣的是，千问最新的思考模型思考半天反而想错了，只有上深度思考，使劲思考，才对。

至少这个例子显示了目前AI模型的缺陷：不具有真正的思考能力。思考了半天，甚至生成了Python代码，还是错。

我能想到可行的解决方案是，调用外部工具，借助工具弥补所谓的「思考」和「推理」的短板。

哪有什么深度思考啊，瞎编乱造罢了。

「去离家50米的洗车店是开车还是走路去」

这是最近火的AI智商检测题目，类似的还有「Strawberry里有几个r」，这个和上面的统计字符数道理一样。

结论一致，AI尚不具有真正的思考能力。

十几年前，Android刚火那会，有个类似的公众事件，我印象中是用Android自带的计算器算1÷3×3，结果不是1。这个表面上是程序bug，考虑不周，底层的原理是计算机的浮点运算精度问题，是我们现有的数值计算体系的缺陷。

如果懂原理，理解起来就不困难。

去豆包水印

亲测可用。AI画图，擅长的就是几个提示词生成一套含义不明的图，作为素材不错。作为非专业是使用者，想控制AI让它生成我期望的构图等等，比较难。

Make octave plotting WYSIWYG

总算有人修复了Octave屏幕显示和输出图片大小一致的问题。

PROTECT Taiwan Act

刘思齐

胡石英

媒体机「特调」严重，测评「遥遥领先」不可信

https://www.bilibili.com/video/BV12mZtBTEJB

有个之前看到的词和这个类似，「数据定制服务」。如果过程不透明，任何结果都可以做出来，实验如此，理论计算如此。加上成本越来越低，真实度越来越高的各种生成式人工智能，这个年代最缺的恐怕是「信誉」了，说它比黄金更珍贵不为过。

嘿嘿，没想到过了个年，视频没了。

🫢

不许讨论。

生成式人工智能(Generative AI)

注意力(Attention)
指令微调(Instruction tuning)
预训练(Pre-training)
微调(Fine-tuning)
嵌入(Embedding)
强化学习(Reinforcement learning)
RLHF (Reinforcement learning from human feedback)
文生图(Text2Image)
扩散模型(Diffusion Models)
LoRA (Low-rank adaptation)
混合专家模型(MoE)
规模法则(Scaling law)
量化(Quantization)
对齐(Alignment)
模型蒸馏(Model distillation)
多模态(Multimodal)
推理链(Chain-of-Thought)
智能体(Agent)

我认为，目前的局限是上面提到的，AI根本不会思考，还是个背题机器，需要把所有的书都看完才能开口，导致模型巨大，吃内存和显存。内存价格已经上天啦，10来年前的DDR3都被召回战场了，我4年前配的X79小主机竟然能再次成为「主流配置」。

现在的大模型做高考题在山东能考上北大清华

https://finance.sina.com.cn/tech/shenji/2025-06-26/doc-infckhuq4913228.shtml

学科	满分	Seed1.6-Thinking	Gemini-2.5-Pro-0605	DeepSeek-R1-0528	Claude-Sonnet-4	OpenAI-o3-high-0416	平均分±标准差
理科总分	750	648	655	615	598	579	619.00 ± 32.38
文科总分	750	683	651	631	633	625	644.60 ± 23.55
语文	150	128	126	118	117	95	116.80 ± 13.10
数学	150	141	140	145	128	136	138.00 ± 6.44
英语	150	144	141	143	142	140	142.00 ± 1.58
物理	100	90	89	62	74	65	76.00 ± 13.10
化学	100	69	82	72	61	66	70.00 ± 7.84
生物	100	76	77	75	76	77	76.20 ± 0.84
地理	100	94	78	79	92	90	86.60 ± 7.54
历史	100	92	84	67	78	84	81.00 ± 9.27
政治	100	84	82	79	76	80	80.20 ± 3.03

从标准差看，物理还是难，其次是历史，化学和地理差不多难度。不过呢，化学的平均分是最低的，说明最难。作为擅长化学的人士，我很欣慰。

怹(tān) 㨃(duǐ) 挼(ruó ruá ruǎ)

https://www.zhihu.com/question/19593597

原来汉语里还真有ruǎ的音。

《人民日报》社论《把批林批孔的斗争进行到底》

指出了被林彪反动派利用的孔孟的政治纲领：

克己复礼。 — 《论语·颜渊》
一日克己复礼，天下归仁焉。 — 《论语·颜渊》
悠悠万事，唯此为大，克己复礼。 — 《后汉书·仲长统传》、《论语·颜渊》
如欲平治天下，当今之世，舍我其谁也？ — 《孟子·公孙丑下》
唯上智与下愚不移。 — 《论语·阳货》
恃德者昌，恃力者亡。 — 《史记·商君列传》
中庸之道。 — 《礼记·中庸》
劳心者治人，劳力者治于人。 — 《孟子·滕文公上》
废黜百家，独尊儒术。 — 《汉书·董仲舒传》

用AI整理的，还不错。不涉及数字，纯思考，一般想不错。

近思录 2026-02-08

AI太厉害咧，有没有什么事它不擅长？

「去离家50米的洗车店是开车还是走路去」

去豆包水印

Make octave plotting WYSIWYG

PROTECT Taiwan Act

刘思齐

胡石英

媒体机「特调」严重，测评「遥遥领先」不可信

生成式人工智能(Generative AI)

现在的大模型做高考题在山东能考上北大清华

怹(tān) 㨃(duǐ) 挼(ruó ruá ruǎ)

《人民日报》社论《把批林批孔的斗争进行到底》

《欲悲闻鬼叫》

权新峰

东安古城商奄

THE 2028 GLOBAL INTELLIGENCE CRISIS

李广文

近思录 2026-02-08

近思录 2026-02-08

AI太厉害咧，有没有什么事它不擅长？

「去离家50米的洗车店 是开车还是走路去」

媒体机「特调」严重，测评「遥遥领先」不可信

生成式人工智能(Generative AI)

现在的大模型做高考题在山东能考上北大清华

怹(tān) 㨃(duǐ) 挼(ruó ruá ruǎ)

《人民日报》社论《把批林批孔的斗争进行到底》

「去离家50米的洗车店是开车还是走路去」