用ChatGPT写的论文摘要
ChatGPT 经常生成需要查字典才能理解的词汇,或者听起来非常神奇的词汇。这不仅适用于ChatGPT,其他开源语言模型,如Mistral,也是如此。利用AI的帮助来创作内容并没有什么不好,只要这样做是道德的。但在一项面向14至16岁青少年的科学写作竞赛中,一位评委对短语“Labyrinthian mazes”产生了怀疑,这似乎超出了一个青少年的写作水平。于是,他使用AI工具来检查这篇文章。不幸的是,所有的四个工具都给出了同样的结果,整篇文章大约90%到96%的部分看起来是由AI而不是人类撰写的。然而,并不是每个人都有专业知识,如果我们遇到上述短语,可能会忽视它。
需要具备批判性思考能力来辨别AI是否是真正的作者。
最简单的方法是识别那些你通常不会使用但ChatGPT常用的词,以此来判断文本是否由AI生成。考虑一个庞大的语料库,它包括了超过190亿个英语单词,这些单词来自博客、文章、新闻等,自2010年以来,该语料库每天都在更新。我通过字符串搜索算法查找了单词“delve”,结果发现它出现了52,388次。我根据它的年度变化趋势发现了一个异常:从2022年开始,该词在网络上的使用频率激增了约200%,这恰好与ChatGPT在11月30日发布的那一年同步。
“Delve”词频在NOW语料库中的变化(Fareed Khan提供)
其他词语,如 ‘intricacies’、‘unwavering’ 和 ‘探究’,这些词最近用得越来越多了。
复杂性趋势和坚定不移在NOW语料库(Fareed Khan)中
这种词汇选择并不一定只是AI特有的,人类也会用各种各样的词语。但在学术写作中,我们通常会用诸如'explore'或'discuss in more detail'这样的短语,而不会用'delve'。当我让ChatGPT重新表述'discuss in more detail...'时,它给出的前五个建议通常都会包含这句话。
用ChatGPT重新说
此外,我尝试分析这个数据库arXiv数据库,这是一个著名的出版论文平台,截至2023年,其中包含超过200万篇论文。我试图在论文摘要中检测单词“delve”并绘制其年度使用趋势。更让我惊讶的是,我发现该单词在2023年的论文摘要中被广泛使用,这与ChatGPT在前五条建议中提到的词汇相同。
“Delve一词的出现趋势图”在arXiv数据库中(由Fareed Khan提供数据)
这表明学术作家可能正在使用ChatGPT,无论是为了改写内容还是生成新内容。单词“delve”的存在可能是一个提示,或表示疑问,即学生提交的文档或在线博客中的某段文字,是否经过了ChatGPT的改写或增强处理。
基于我的研究经验和专长以及两年与大型语言模型合作的经验,我整理了一个相当全面的100词列表,你可以注意这些词汇在文本中出现的情况,来帮助你判断这段文本是否是由AI生成或改写的。
但要检查这么多单词并不容易,所以为了快速做到这一点,我制作了一个网页应用来快速检查你的文本内容。只需上传文件或粘贴文本,它就会帮你搞定剩下的。轻松搞定!简单吧!
如果你对这个感兴趣,你可以在常用的人工智能词汇表中找到,并在我的GitHub仓库中找到我的网页应用的源代码。链接如下:
GitHub - FareedKhan-dev/Detect-AI-text-Easily: 一些LLM常用的词汇。通过贡献代码或想法来参与项目开发github.com 在github.com