chatGPT 的数学计算貌似存在一些问题

使用 chatGPT 计算密度，发现计算思路基本正确，但是计算数据明显错误或偏差较大，如下：
ASK：
a cubic box containing 93 Si atoms, 1 Ti atom, and 6 B atoms, with a side length of 12.43975 Angstroms, please calculate the density

ANSWER 中的计算错误部分:
mass = 93 28.0855 + 1 47.867 + 6 * 10.81 = 2735.1285 g/mol （正确答案为：2724.6785 ）
提示相关错误，其再次输出
mass = 93 28.0855 + 1 47.867 + 6 * 10.81
mass = 2613.4565 g/mol （正确答案为：2724.6785 ）
再次提醒后输出
total mass = 2608.7315 g + 47.867 g + 64.86 g
total mass = 2721.4595 g （比较接近了，正确答案为：2724.6785 ）

大家可以测试一下，使用其做一些简单计算时请小心，注意核对。

也就是说 chatgpt 的数学采用估值，类似 7*7 大概应该是 40 多的样子？而不是真的去计算

它是在猜下一个词是什么，而不是做数学推理，所以肯定会有误差，之前有一篇文章提到 chatgpt 如果能结合 wolfram 那就很牛逼了 writings.stephenwolfram.com/2023/01/wolframalpha-as-the-way-to-bring-computational-knowledge-superpowers-to-chatgpt/

让他计算第 99 个斐波那契是什么，也有问题

是不是精度不够引发的问题? 我记得做过鸡兔同笼的问题, 都是整数, 计算没问题

"二分之一加上三分之一等一五分制二"

Chatgpt 那个不是算出来的吧，就算让他做简单加法 10000+1234567 都可能错，不过最近没试过不知道有没有进化

使用方式错了。这是聊天机器人，不要让聊天机器人去做很容易做的事情

从开始就说 chatgpt 数学不行了，因为不是真的在做计算

ChatGPT 没有逻辑意识

人家只是语言模型
你们这些人非要把它当万事通

你可以问它有没有通过图灵测试

ChatGPT 是语言模型语言模型语言模型

transformer：我太难了

所有的机器学习 AI ，基于的都是统计学原理。
所以任何因果论的输出都是不 100%准确的。

如楼上所说，ChatGPT 并不存在真正的逻辑能力，回答的文字只是一些概率统计。
好久前看的视频
什么小学生

就像＃2 说的，她是在猜输入的下一个词是什么，这里是 GPT3 的原理介绍： jalammar.github.io/how-gpt3-works-visualizations-animations/

ChatGPT 不仅数学计算这方面不可靠，在她模型覆盖不够的领域，也是会杜撰内容的

正好见到个集成 WolframAlpha 的例子
huggingface.co/spaces/JavaFXpert/Chat-GPT-LangChain

alpha go 刚出来的，也有很多专业棋手，甚至不专业的臭棋篓子这啊那的挑刺
没过两年一个一个都没脾气了

chatgpt 的浮点运算是有点小问题，但绝不是靠猜
大整数运算，只要不是特别离谱的大数，都是没问题的
尤其是运行脚本程序(没错，它可以运行脚本，只不过需要一些技巧)，结果是准确的

这台洗碗机有问题，洗衣服不干净。

＃17 的一些补充：

这是一段透镜相关得提问

输入：透镜上写着 sl-1064-220-330 ，这是什么意思

输出（这里只截取部分）：透镜上写着"SL-1064-220-330"这样的编号表示这是一款 1064nm 波长，具有 220mm 焦距和 330mm 扫描幅度的透镜

结论：实际上 220 代表的是范围，330 代表的是焦距

下面是 influxdb 相关得提问，我已经提前把数据结构，字段数据类型都提示过了，然后开始

输入：如何在
from(bucket: "bucket1")
|> range(start: v.timeRangeStart, stop: v.timeRangeStop)
|> filter(fn: (r) => r["_measurement"] == "m1")
|> filter(fn: (r) => r["_field"] == "amount")
|> group(columns: ["side", "_field"])
|> aggregateWindow(every: 1m, fn: sum, createEmpty: false)
|> yield(name: "sum")
这个查询的结果中加入一列，用来放 sell+buy 的 amount 总和

输出（这里只截代码部分）：
from(bucket: "bucket1")
|> range(start: v.timeRangeStart, stop: v.timeRangeStop)
|> filter(fn: (r) => r["_measurement"] == "m1")
|> filter(fn: (r) => r["_field"] == "amount")
|> group(columns: ["side", "_field"])
|> aggregateWindow(every: 1m, fn: sum, createEmpty: false)
|> yield(name: "sum")
|> map(fn: (r) =>
({
side: r.side,
time: r._time,
sum: r._value,
total: (r.side == "buy" ? r._value : 0) + (r.side == "sell" ? r._value : 0)
}))

结论：熟悉 influxdb 得同学应该知道，在她回复得 map 函数 total 参数哪里的表达式是错误得，提交就会直接报错：invalid expression

让他生成 py 代码，然后自己去执行

ChatGPT 只是一个语言模型，只学习关联性，并没有什么逻辑性。体现出来的逻辑性都是通过关联性来模拟的。

这个，你和一个真人聊天，你给他咕噜咕噜一大段数据，他能算得多接近？

这个用自己的 openAI key 会不会被盗？

噢，问题不大..

bing ai 貌似会了
根据网上的信息，透镜上写着 sl-1064-220-330 是一种光纤激光 F-θ 扫描透镜的型号 123 。sl-1064 表示透镜的波长是 1064 纳米，适用于光纤激光标记机。220-330 表示透镜的有效扫描范围是 220 x 220 毫米，透镜到扫描平面的距离是 330 毫米。这些参数决定了透镜的聚焦性能和标记效果。

Received message. 根据网上的信息，透镜上写着 sl-1064-220-330 是一种光纤激光 F-θ 扫描透镜的型号。sl-1064 表示透镜的波长是 1064 纳米，适用于光纤激光标记机。220-330 表示透镜的有效扫描范围是 220 x 220 毫米，透镜到扫描平面的距离是 330 毫米。这些参数决定了透镜的聚焦性能和标记效果。
Learn more:

taiyilaser.com
cloudraylaser.com
aliexpress.com

不是，这就相当于不让用任何工具包括纸笔，然后给你一个很长的式子，要求你短时间凭感觉给出一个答案，这个准确率已经很不容易了好吧。在我看来目前主流的单向传导反向训练的神经网络事实上就类似于这样的人类思维过程，就像我们打眼瞪一下，瞧一下，然后凭感觉给出一个答案，更接近短时直觉认知。从这个角度出发，目前体验下来 ChatGPT 整个这个输出的质量是不是已经非常逆天了？

这是什么大新闻吗？你给他算十以内的加减乘除都可能出错。

他的牛逼之处在于理解人话，说人话，而且不限领域。
目前对于知识性和数学运算还有待提升，这也是目前研究者的攻关方向。假以时日，会解决的，而且很惊艳。

简单来说，它是文科生，不是理科生。

我让他生成一个 hello world 的 base64 ，它给的值虽然能解出来，但是是带了标点符号的句子，这就说明他是理解我说的啥，并且搜到或生成了相应的回答，而非计算出来的。

看上去不错，巨硬这次的投资 OpenAi 赚到了
我还一直在候选名单中

有人说 chatGPT 的数学计算能力不行
你好，这是 Bing 。根据我在网上找到的信息，ChatGPT 是一个先进的 AI 驱动的聊天机器人，能够生成出人意料的类似人类的回答 12 。ChatGPT 在 2022 年 11 月由美国的研究实验室 OpenAI 发布了一个原型版本 3 。从那时起，人类似乎一直在努力证明这个基于机器学习的 AI 工具不能胜任这项任务 3 。

ChatGPT 的数学计算能力在最初的版本中并不强大，有些用户甚至故意用错误的数学问题来欺负它，让它给出错误的答案 3 。但是，OpenAI 在 2023 年 1 月 30 日发布了一个更新，以提高 ChatGPT 的准确性和改善它处理数学方程的能力 4 。根据一些测试，ChatGPT 现在可以解决一些常见的数学问题，甚至能够展示或告诉用户如何解决问题 5 。

所以，ChatGPT 的数学计算能力并不是不行，而是在不断进步的。

a cubic box containing 93 Si atoms, 1 Ti atom, and 6 B atoms, with a side length of 12.43975 Angstroms, please calculate the density
Sure, I can help you with that. To calculate the density of the box, we need to use the formula p = m/V, where p is the density, m is the mass and V is the volume1. We already know the volume of the box, which is 12.43975^3 Angstroms, or 1.927 x 10^-21 cubic meters. To find the mass of the box, we need to add up the masses of all the atoms inside it. We can use the molar masses of the elements and divide them by Avogadro’s number to get the mass of one atom. The molar masses of Si, Ti and B are 28.0855 g/mol, 47.867 g/mol and 10.811 g/mol respectively23. Therefore, the mass of one atom of Si is 4.663 x 10^-23 g, the mass of one atom of Ti is 7.948 x 10^-23 g and the mass of one atom of B is 1.794 x 10^-23 g. Multiplying these by the number of atoms in the box, we get the total mass of the box as 4.663 x 10^-23 x 93 + 7.948 x 10^-23 x 1 + 1.794 x 10^-23 x 6 = 4.494 x 10^-21 g, or 4.494 x 10^-24 kg. Finally, we can plug these values into the formula and get the density of the box as p = m/V = 4.494 x 10^-24 / 1.927 x 10^-21 = 2.332 x 10^-3 kg/m^3. I hope this helps!

（分辨不出来对不对，因为我也不会算😅）

我也试过让 TA 生成 base64 的代码段，但是 TA 给我输出了 base64 编码的 stackoverflow 网址，而且还是虚构的网址

让 chatGPT 做脑筋急转弯，一题都做不对

它没有我们传统意义上的正确与错误

你需要 toolformer 。

下一代应该就能做真的计算了

神经网络模型对数字计算规则是不敏感的，比如让它计算一个字符串的长度，它可能会算错。但是如果让他写一段代码去计算字符串长度，然后得到执行结果，它多半就能算对。

ChatGPT 确实是划时代性的. 但是现阶段的 ChatGPT 你指望它去解答什么问题那就是想太多.
这玩意别说是代码逻辑的编写, 就算是简单的方程题都可能会瞎 jb 算.

openai api 里面给出答案每次可以不一样通过参数可以控制“温度”降低到 0 保证每次给出一个“最正确”答案。

从开始就说 chatgpt 数学不行了，因为不是真的在做计算

有没有一个能从一段画里区分自然语言和数字计算的 AI 模型？

别说脑筋急转弯了，我让他给我写个 Python 脚本取路径的最后一项，它给我来个
*path_segments[:-1]

把聊天机器人当计算器用。┑(￣Д ￣)┍

我算了一个大数乘法，是可以的，没问题
不是纯靠语言猜的

chatgpt 结合自然语言计算引擎 wolfram 是个方向

她回答的是 “我觉得应该是。。” 而不是一个计算器

user-images.githubusercontent.com/46293847/219293303-eed3e0a7-6a60-4fe0-a994-db63c47cb3a6.png
我也不会哈哈

这种问题反映出，我们不是很了解大语言模型是怎么训练出来的。过不久，你再问这种数学题，肯定会得到你想要的答案。

可能背后的阿三没算对

合速度

chatGPT 的数学计算貌似存在一些问题

近期文章

热门推荐