文 | 逐浪
在快节奏的现代生活中,传统搜索引擎的地位似乎正在受到挑战。吃饭、出行、看新闻、购物、聊天,这些日常活动已经逐步转向各自独立的APP,搜索引擎的使用频率逐渐降低。
传统搜索引擎的优势似乎已荡然无存,面临着尴尬的境地。然而,AI技术的崛起为搜索领域带来了新的变革方向。
OpenAI推出了ChatGPT的实时搜索功能,谷歌则计划将其“双子座”AI模型整合到搜索功能中,百度也积极利用文心大模型进行AI智能回答,日均调用量超过6亿次。
然而,尽管AI搜索的发展势头强劲,它是否能为用户生活提供足够“必要”的价值,仍然是一个有待商榷的问题。
被冷落的传统搜索引擎
百度曾长期占据中国互联网搜索领域的主导地位,但随着用户搜索行为的多样化,传统搜索引擎的用户正在逐渐流失。
年轻人们更倾向于在微博搜索明星动态、热点新闻,在抖音和快手消耗闲暇时间,在小红书寻找经验攻略。
钉钉总裁叶军曾在一场企业家论坛上谈到搜索变革,他表示,搜索场景已经被变革掉了,百度也得马上跟进,如果不跟进,大家也不会用百度了。
在PC时代,搜索引擎依赖爬虫技术抓取互联网上的网页,进行清洗和排序。而在移动互联网时代,各APP厂商不再将流量权交给搜索引擎,因此,移动互联网时代各APP内容孤岛化严重,信息不再“互联”。
流量的走向重塑了新的互联网格局。传统搜索引擎处境下滑的同时,各独立APP的搜索量与日俱增。
小红书、抖音、快手、微博等平台,都展示了搜索量的显著增长。搜索引擎的衰落,在某种程度上,是因为它们不生产内容,只是内容的搬运工,而搜索内容的需求已经被内容方满足。
生成式AI的崛起,让传统搜索引擎面临更大的威胁。人们不再需要通过搜索结果寻找信息,因为AI可以通过自然对话的方式,代替思考,直接提供答案。
传统搜索引擎的衰落,既是挑战也是机遇。对于搜索引擎来说,AI既是威胁也是希望。
微软与OpenAI合作,推出了由AI驱动的Bing搜索引擎和Edge浏览器。谷歌也推出了由生成式AI驱动的搜索引擎,称这是多年来最大的一次革新。
国内众多公司也加入了AI搜索的行列,昆仑万维推出了国内首款AI搜索引擎,百度将简单搜索升级为AI互动式搜索引擎,360公司发布了“360AI搜索”和“360AI浏览器”,知乎发布了AI搜索产品“知乎直答”,夸克升级了“超级搜索框”,推出以AI搜索为中心的一站式AI服务。
行业出现了“无AI,不搜索”的趋势,各大厂商纷纷为AI搜索赋予重任。
然而,尽管AI搜索带来了全新的体验,但其发展似乎并不顺利。
AI搜索的挑战
AI搜索引擎与传统搜索引擎有着显著的区别。传统搜索引擎像一个图书馆的目录卡,用户需要提供具体信息才能找到所需内容。而AI搜索引擎更像是一个图书管理员,能理解和索引视频、图片、语音等内容,还能实现AI写作、AI文件总结等操作。
然而,AI搜索的发展并不顺利。这一切的前提是搜索结果必须精准。然而,谷歌 AI搜索上线不久后就出现了许多笑话。
一位用户向谷歌AI搜索提问“我每天应该吃多少块石头”,得到的回答却是“根据加州大学伯克利分校地质学家的说法,人们每天应该至少吃一块小石头”。
在今年百度世界2024大会上,百度发布了检索增强的文生图技术iRAG,可以结合百度搜索的图片资源,消除大模型,生成各种超真实的图片,但媒体复刻发布会展示的“爱因斯坦与天坛合影”指令时,大模型仍然出现了错误幻觉:原本三层护栏,变成了四层甚至五层。
目前而言,AI搜索生成答案的准确性和可靠性依旧难以保证,容易出现事实错误,且生成的内容缺乏深度,无法提供有效的溯源。
AI的滥用还在加剧互联网信息的混乱,产生许多无效信息和虚假信息,混淆了正常搜索的结果。
江西南昌的一家MCN利用AI工具日产7000篇文章,文章内容真假混杂,甚至引发了网传西安有巨大爆炸声的谣言。
温州公安最近也抓捕了一位网络作者。该作者利用AI工具批量改写网络文章,发布到信息平台从而获得文章收益,最终造成了诸多不良的社会影响。
伴随着AI工具的普及,AI制造的无用、虚假信息的数量也越来越多。
清华大学新闻学院的报告称,近一年来,经济与企业类AI谣言,增速高达99.91%。谷歌研究人员也发现生成式AI造成的虚假信息正在互联网上泛滥成灾。
尽管目前AI引发的内容风险还没有上升到“威胁生存”的地步,但按照AI的发展趋势来看,这种伪造或篡改的信息会越来越多。
这将导致互联网的信息更加混乱,使得真实与虚假之间的界限模糊。甚至AI自己,也将在越发低质的语料库中停止进化与生长。
信息荒漠时代
随着AI生成的错误和无意义的信息不断累积,互联网的错误、无用信息占比将逐步增加。
清华大学新闻学院新媒体研究中心主任、跨学科知名学者沈阳表示,AI生成的内容急剧增加,大量自媒体文章的内容由AI自动生成,而AI幻觉产生的错误就夹杂在这些文章当中,这也会造成整个互联网的内容质量进一步下降,导致数据质量的整体下降。这种现象被称为“数据退化”。
AI的训练和学习需要大量的网络信息,但大量虚假和无意义的信息只会让AI陷入混乱,产生错误观念。
除了劣质内容的侵害,AI还面临优质底层信息的短缺。
研究公司 Epoch AI预测,到2028年,文字资料将会消耗殆尽。这些数据是人类在过去几个世纪里,创作的大量文字、视频。
有人试图用AI生成的信息训练AI,但结果并不理想。科学家发现,如果AI只学习其他AI生成的内容,那么经过几代训练后,AI将输出无意义的垃圾信息。
他们把这种现象称为“模型崩溃”。
当前正处于信息大爆炸时代,我们所有人都被大量的信息所包围,但对于AI而言,这是一个数据匮乏的时代。
对AI而言,谁能帮助AI摆脱信息匮乏的窘相,谁就掌握了AI发展的未来。为此,OpenAI、Anthropic、百度等公司都在积极开发更优质的合成数据,以克服挑战。但大多数学者都持悲观态度。
今年11月,有外媒报道,OpenAI下一代旗舰模型“猎户座”(Orion)的性能提升幅度,小于GPT-4相对GPT-3的提升。
其创始人奥特曼曾表示,可能不会把新模型命名为GPT-5。
多位专家劝说AI公司停止训练大模型,“如果当前趋势持续,人工智能很快就会耗尽其可用的训练数据。面对这种情况,AI公司可以选择停止追求规模更大、更复杂的模型。”
AI是当前互联网进步的主要动力之一,尤其是对搜索引擎而言,谁能突破AI的限制,谁就掌握了搜索市场的未来。只是,这杯庆功酒可能遥遥无期。