AI太厉害咧,有没有什么事它不擅长?

我知道一个。由于tokenization (词元化)机制以及目前思考模型的局限,让它数字符数很可能得不到正确答案。

模型 正确答案 AI输出答案
讯飞星火 131,验证后给出174
豆包 155
Qwen3-Max-Thinking 94,验证后还是错的
Qwen3-Max-Thinking 深度思考 155 155
Qwen3-235B 155
Gemini 3 Fast 144,列的表是对的,还是算错了
DeepSeek R1 155

都是用各种平台的在线界面试的。有趣的是,千问最新的思考模型思考半天反而想错了,只有上深度思考,使劲思考,才对。

至少这个例子显示了目前AI模型的缺陷:不具有真正的思考能力。思考了半天,甚至生成了Python代码,还是错。

我能想到可行的解决方案是,调用外部工具,借助工具弥补所谓的「思考」和「推理」的短板。

哪有什么深度思考啊,瞎编乱造罢了。

「去离家50米的洗车店 是开车还是走路去」

这是最近火的AI智商检测题目,类似的还有「Strawberry里有几个r」,这个和上面的统计字符数道理一样。

结论一致,AI尚不具有真正的思考能力。

十几年前,Android刚火那会,有个类似的公众事件,我印象中是用Android自带的计算器算1÷3×3,结果不是1。这个表面上是程序bug,考虑不周,底层的原理是计算机的浮点运算精度问题,是我们现有的数值计算体系的缺陷。

如果懂原理,理解起来就不困难。

去豆包水印

亲测可用。AI画图,擅长的就是几个提示词生成一套含义不明的图,作为素材不错。作为非专业是使用者,想控制AI让它生成我期望的构图等等,比较难。

Make octave plotting WYSIWYG

总算有人修复了Octave屏幕显示和输出图片大小一致的问题。

PROTECT Taiwan Act

刘思齐

胡石英

媒体机「特调」严重,测评「遥遥领先」不可信

https://www.bilibili.com/video/BV12mZtBTEJB

有个之前看到的词和这个类似,「数据定制服务」。如果过程不透明,任何结果都可以做出来,实验如此,理论计算如此。加上成本越来越低,真实度越来越高的各种生成式人工智能,这个年代最缺的恐怕是「信誉」了,说它比黄金更珍贵不为过。

生成式人工智能(Generative AI)

  • 注意力(Attention)
  • 指令微调(Instruction tuning)
  • 嵌入(Embedding)
  • 强化学习(Reinforcement learning)
  • RLHF (Reinforcement learning from human feedback)
  • 文生图(Text2Image)
  • 扩散模型(Diffusion Models)
  • LoRA (Low-rank adaptation)
  • 混合专家模型(MoE)
  • 量化(Quantization)
  • 对齐(Alignment)
  • 模型蒸馏(Model distillation)
  • 多模态(Multimodal)
  • 推理链(Chain-of-Thought)
  • 智能体(Agent)

我认为,目前的局限是上面提到的,AI根本不会思考,还是个背题机器,需要把所有的书都看完才能开口,导致模型巨大,吃内存和显存。内存价格已经上天啦,10来年前的DDR3都被召回战场了,我4年前配的X79小主机竟然能再次成为「主流配置」

现在的大模型做高考题在山东能考上北大清华

https://finance.sina.com.cn/tech/shenji/2025-06-26/doc-infckhuq4913228.shtml

学科 满分 Seed1.6-Thinking Gemini-2.5-Pro-0605 DeepSeek-R1-0528 Claude-Sonnet-4 OpenAI-o3-high-0416 平均分±标准差
理科总分 750 648 655 615 598 579 619.00 ± 32.38
文科总分 750 683 651 631 633 625 644.60 ± 23.55
语文 150 128 126 118 117 95 116.80 ± 13.10
数学 150 141 140 145 128 136 138.00 ± 6.44
英语 150 144 141 143 142 140 142.00 ± 1.58
物理 100 90 89 62 74 65 76.00 ± 13.10
化学 100 69 82 72 61 66 70.00 ± 7.84
生物 100 76 77 75 76 77 76.20 ± 0.84
地理 100 94 78 79 92 90 86.60 ± 7.54
历史 100 92 84 67 78 84 81.00 ± 9.27
政治 100 84 82 79 76 80 80.20 ± 3.03

从标准差看,物理还是难,其次是历史,化学和地理差不多难度。不过呢,化学的平均分是最低的,说明最难。作为擅长化学的人士,我很欣慰。