-
e世博游戏平台:表明人们仍然需要检查他们提供的答案
时间:2023/5/19 9:42:28 作者: 来源: 阅读:20 评论:0内容摘要:说最新版本的ChatGPT通过了美国放射学委员会的考试,突出了大型语言模型的潜力,但它也给出了一些错误的答案,表明人们仍然需要检查他们提供的答案。为了评估ChatGPT在美国放射学委员会考试中的表现,并探索其优势和局限性,多伦多大学的研究人员首先测试了基于GPT-3.5的ChatGPT的性能。研究小组使用了150道选择...说最新版本的ChatGPT通过了美国放射学委员会的考试,突出了大型语言模型的潜力,但它也给出了一些错误的答案,表明人们仍然需要检查他们提供的答案。
为了评估ChatGPT在美国放射学委员会考试中的表现,并探索其优势和局限性,多伦多大学的研究人员首先测试了基于GPT-3.5的ChatGPT的性能。研究小组使用了150道选择题,这些选择题的风格、内容和难度都与加拿大皇家学院和美国放射学委员会的考试相匹配。这些问题不包括图像,分为低阶(知识回忆、基本理解)和高阶(应用、分析、综合)思维问题。高阶思维问题可进一步细分为影像学表现描述、临床管理、计算与分类、疾病关联。e世博游戏平台
研究人员发现,基于gpt -3.5的ChatGPT答题正确率为69%,接近70%的通过率。该模型在回答低阶思维问题时表现相对较好,准确率为84%,但在回答高阶思维问题时表现不佳,准确率仅为60%。表现较好的GPT-4有81%的正确率,在高阶思维问题上有81%的正确率,比GPT-3.5好得多。但在低阶思维问题上,GPT-4的正确率只有80%,回答了12个问题,而GPT-3.5回答了所有这些问题,这引起了研究小组对GPT-4收集的信息可靠性的担忧。
两项研究都表明,ChatGPT有提供错误答案的倾向,如果仅仅依靠它来获取信息,这是非常危险的,因为人们可能没有意识到它给出的答案是不准确的,这是它目前面临的最大问题。
本类更新
-
07-03e世博游戏平台:让朝气蓬勃的青春与时代的发展产生共鸣
-
07-01e世博游戏平台:从事常规农业无人机飞行活动的人员不需要取得操作人执照
-
06-29e世博游戏平台:各类金融机构也在养老领域积极发力
-
06-27e世博游戏平台:中国是世界上第一个实现水产产量超过总捕获量的国家
-
06-25e世博游戏平台:是查干湖每年冬季总捕鱼量的两倍多
-
06-23e世博游戏平台:将成为亚运会历史上最好的游泳场馆之一
-
06-21e世博游戏平台:中央企业专业整合将全面加快推进
-
06-19e世博游戏平台:市民可以零距离体验尖端技术在电影制作各个环节的应用
-
06-17e世博游戏平台:中方表示愿尽快启动与洪都拉斯自贸协定谈判进程
-
06-16e世博游戏平台:打破以往地域限制和固有模式
本类推荐
本类排行
-
03-29威尼斯人官方站:篮网前锋杜兰特也宣布了诊断
-
03-26威尼斯人官方站:对这些变化的研究显示
-
03-31威尼斯人官方站:北方控制部经理马布里(Marbury)担心两个国家爆发疫情:向中国捐款以为其纽约故乡购买口罩
-
03-27威尼斯人官方站:抗“疫”战场上与病毒短兵相接
-
03-28威尼斯人官方站:艾哈迈多夫的归来能否完成
-
03-30威尼斯人官方站:科研选题要从生产中来,科研成果要回到生产中去
-
04-01威尼斯人官方站:样本年的逆周期加快了,潘军宣布在两年内支出1000亿美元
-
04-02威尼斯人官方站:在流行的情况下,海外学生最关注的三个主要问题是什么
-
04-03威尼斯人官方站:上海市各级市场监管部门启动网上快速维修机制
-
04-09威尼斯人官方站:在北方资金大量回笼的背后,这种增长方式与以前截然不同