最近,网上的一段图灵测试吸引人们注意,仅仅是一个“终极丐版”的测试,就让目前人们研究出的所有大语言模型都陷入困境,而人类可以毫不费力地通过这一测试,这就是大写字母测试。经过了解,研究人员把一些大写字母写成的单词,混到了数据库里面让大语言模型检验,结果发现大语言模型并不能很好地识别这些问题并给出正确答案,而问题本身的内容十分简单:is water wet or dry?对此如果是人类,可以直接回复一个wet,但是大语言模型一直给不出合理的答案。
甚至是之前爆火的ChatGPT,回答的相关内容也始终没到那个点上,可以明显见到是大写字母给搜索引擎带来了干扰。在此之后,研究人员又将另外几个开源的模型拿到这里测试,结果几个模型的测试结果都一样,不能剔除这一影响。