ChatGPT“克星”用AI识别AI生成文本，英语论文阅读笔记都能测

2024-09-12 次浏览

萧箫发自凹非寺
量子位 | "号 QbitAI

ChatGPT的呈现，让不少人看到了交期末年夜功课的曙光（手动狗头）。

无论是英语论文、照样浏览条记，只要在ChatGPT的常识规模内，都可以请托它协助完成，写出来的内容也有理有据。

（图片来源网络，侵删）

不外，有没有想过你的先生也预备用“AI文本检测器”一类的器械来防止你作弊。

像如许输入一段看起来没缺点的条记，颠末它一番检测，以为这段笔墨“由AI编写”（Fake）的可能性为99.98%。

△文本由ChatGPT天生

换个数学论文尝尝。ChatGPT的输出看起来没啥问题，却仍旧被它精确看破了：

△文本由ChatGPT天生

这可不是靠瞎蒙或预测，究竟对方同样是个AI，照样个训练有素的AI。

看到这有网友奚弄：用邪术打败邪术。

用AI写的器械来训练新AI

这个AI检测器名叫GPT-2 Output Detector，是OpenAI结合哈佛年夜学等高校和机构一路打造的。（没错，OpenAI自家做的）

输入50个以上字符（tokens）就能较精确地辨认AI天生的文本。

但即就是专门检测GPT-2的模子，用来检测其他AI天生文本后果也同样不错。

作者们先是宣布了一个“GPT-2天生内容”和WebText（专门从国外贴吧Reddit上扒下来的）数据集，让AI懂得“AI语言”和“人话”之间的差别。

随后，用这个数据集对RoBERTa模子进行微调，就获得了这个AI检测器。

RoBERTa（Robustly Optimized BERT approach）是BERT的改良版。原始的BERT使用了13GB年夜小的数据集，但RoBERTa使用了包括6300万条英文消息的160GB数据集。

此中，人话一律被辨认为True，AI天生的内容则一律被辨认为Fake。

例如这是一段从Medium英文博客上复制的内容。从辨认成果来看，很显然作者是亲自写的（手动狗头）：

△笔墨起源Medium@Megan Ng

当然，这个检测器也并非100%精确。

AI模子参数目越年夜，天生的内容越不容易被辨认，例如1.24亿参数目的模子“被抓包”的概率就比15亿参数更高。

同时，模子天生成果随机性越高，AI天生内容被检测出来的概率也会更低。

但即便将模子调整到天生随机性最高（Temperature=1，越靠近0天生随机性越低），1.24亿参数模子被检测出的概率仍旧是88%，15亿参数模子被检测出的概率仍旧有74%。

这是OpenAI两年前宣布的模子，其时对GPT-2天生的内容就“一打一个准”。

如今面临进级版的ChatGPT，检测英文天生内容的后果依旧能打。

但面临ChatGPT天生的中文，它的辨认才能就不那么好了。例如让ChatGPT来一篇作文：

AI检测器给出是人写的概率为99.96%……

当然话说回来，ChatGPT也能检测本身天生的文本。

以是，不排除先生将你的功课直接交给ChatGPT来辨认：

One More Thing

值得一提的是，ChatGPT表现本身并不克不及拜访互联网来搜刮信息。

显然，它还意识不到GPT-2 Output Detector这个AI检测器的存在：

以是能不克不及像网友所说，让ChatGPT天生一段“不被AI检测器测出来的”内容呢。

很遗憾不克不及：

以是年夜功课照样本身写吧……

参考链接：
[1]https://weibo.com/1402400261/Mj7QtwRoH
[2]https://github.com/openai/gpt-2-output-dataset/tree/master/detector
[3]https://chat.openai.com/
[4]https://medium.com/user-experience-design-1/how-chatgpt-is-blowing-google-out-of-the-water-a-ux-breakdown-784340c25d57

天生模子检测器

故事分享一篇甜甜的小短文江苏易泊车分享认购期权在生活中的例子