首页生活资讯正文

ChatGPT“克星”用AI识别AI生成文本,英语论文阅读笔记都能测

2024-09-12 次浏览

萧箫 发自 凹非寺
量子位 | "号 QbitAI

ChatGPT的呈现,让不少人看到了交期末年夜功课的曙光(手动狗头)。

无论是英语论文、照样浏览条记,只要在ChatGPT的常识规模内,都可以请托它协助完成,写出来的内容也有理有据。

ChatGPT“克星”用AI识别AI生成文本,英语论文阅读笔记都能测
(图片来源网络,侵删)

不外,有没有想过你的先生也预备用“AI文本检测器”一类的器械来防止你作弊。

像如许输入一段看起来没缺点的条记,颠末它一番检测,以为这段笔墨“由AI编写”(Fake)的可能性为99.98%



△文本由ChatGPT天生

换个数学论文尝尝。ChatGPT的输出看起来没啥问题,却仍旧被它精确看破了:



△文本由ChatGPT天生

这可不是靠瞎蒙或预测,究竟对方同样是个AI,照样个训练有素的AI。

看到这有网友奚弄:用邪术打败邪术。

用AI写的器械来训练新AI

这个AI检测器名叫GPT-2 Output Detector,是OpenAI结合哈佛年夜学等高校和机构一路打造的。(没错,OpenAI自家做的)



输入50个以上字符(tokens)就能较精确地辨认AI天生的文本。

但即就是专门检测GPT-2的模子,用来检测其他AI天生文本后果也同样不错。

作者们先是宣布了一个“GPT-2天生内容”和WebText(专门从国外贴吧Reddit上扒下来的)数据集,让AI懂得“AI语言”和“人话”之间的差别。

随后,用这个数据集对RoBERTa模子进行微调,就获得了这个AI检测器。

RoBERTa(Robustly Optimized BERT approach)是BERT的改良版。原始的BERT使用了13GB年夜小的数据集,但RoBERTa使用了包括6300万条英文消息的160GB数据集。

此中,人话一律被辨认为True,AI天生的内容则一律被辨认为Fake。

例如这是一段从Medium英文博客上复制的内容。从辨认成果来看,很显然作者是亲自写的(手动狗头):



△笔墨起源Medium@Megan Ng

当然,这个检测器也并非100%精确。

AI模子参数目越年夜,天生的内容越不容易被辨认,例如1.24亿参数目的模子“被抓包”的概率就比15亿参数更高。

同时,模子天生成果随机性越高,AI天生内容被检测出来的概率也会更低。

但即便将模子调整到天生随机性最高(Temperature=1,越靠近0天生随机性越低),1.24亿参数模子被检测出的概率仍旧是88%,15亿参数模子被检测出的概率仍旧有74%。

这是OpenAI两年前宣布的模子,其时对GPT-2天生的内容就“一打一个准”。

如今面临进级版的ChatGPT,检测英文天生内容的后果依旧能打。

但面临ChatGPT天生的中文,它的辨认才能就不那么好了。例如让ChatGPT来一篇作文:



AI检测器给出是人写的概率为99.96%……



当然话说回来,ChatGPT也能检测本身天生的文本。

以是,不排除先生将你的功课直接交给ChatGPT来辨认:



One More Thing

值得一提的是,ChatGPT表现本身并不克不及拜访互联网来搜刮信息。

显然,它还意识不到GPT-2 Output Detector这个AI检测器的存在:



以是能不克不及像网友所说,让ChatGPT天生一段“不被AI检测器测出来的”内容呢。

很遗憾不克不及:



以是年夜功课照样本身写吧……

参考链接:
[1]https://weibo.com/1402400261/Mj7QtwRoH
[2]https://github.com/openai/gpt-2-output-dataset/tree/master/detector
[3]https://chat.openai.com/
[4]https://medium.com/user-experience-design-1/how-chatgpt-is-blowing-google-out-of-the-water-a-ux-breakdown-784340c25d57


天生模子检测器
故事分享一篇甜甜的小短文 江苏易泊车分享认购期权在生活中的例子
相关内容