TikTok是未来的搜索引擎吗?
谷歌已深深的感受到来自TikTok的压力。

前段时间,谷歌搜索高级副总裁普拉巴卡尔·拉加万(Prabhakar Raghavan)在接受记者采访时就表示:“约40%的年轻人在寻找午餐的地方时,他们不会去谷歌地图或搜索,他们会去TikTok或Instagram。”而近期《纽约时报》在对年轻人做了一次社会调查后也给出了相似的答案,越来越多年轻人正摒弃谷歌,选择在TikTok上搜索信息。

不过谷歌明显渲染并夸大了TikTok的威胁。首先要明白当前互联网正在朝着富媒体化方向发展,更加视觉化的信息是网民所需要的信息,所以长期以来,富媒体平台YouTube是互联网上(美国)第二受欢迎的搜索引擎。拉加万和谷歌炒作其他搜索引擎威胁论的真正动机,或许是让这些领域的竞争使谷歌看起来不像是在搞垄断。

01 TikTok没有想象中强大
有博主对此对TikTok的搜索能力做了测试。

博主首先对“吃”做了相关测试,在吃午饭的点,在TikTok搜索了“我家附近的餐馆”这个短语,但没有得到任何有用的东西。然后博主又搜索了“弗吉尼亚州德尔雷的餐馆”,这是博主住的地方,在精确搜索之后,TikTok给出了博主满意的答案,在结果中有各式各样的美食探店视频,德尔雷海滩附近的咖啡馆、烧烤店、主食店应有尽有,并且还有这些店中不同食物介绍,必吃食物、避坑菜单等等,信息全面且更直观。反观通过谷歌地图,除了店面基本信息与文字点评之外,其它再难获得更有价值的信息,在美食搜索上,TikTok甩出谷歌几条街。

都说使用搜索引擎是一个技术活,美国的一项数据表示,约莫有70%的网民无法使用搜索引擎搜索到自己需要的信息,而剩下的三成网民则需要通过多种渠道才能获取到需要的信息。其实使用TikTok搜索其真正的优势在于搜索门槛的降低,使用与谷歌最基本的搜索功能相似的方法,却能快速、并且准确的访问到互联网上的其他内容。其实这点从谷歌的搜索关键词也能看出来,谷歌上最受欢迎的搜索是“Facebook”、“TikTok”和“亚马逊”这样的词,这些超级平台搜索信息的门槛都比谷歌搜索引擎低。

但是人们搜索的大部分内容都是具体的和交易性的,例如“USPS跟踪”和“明天的天气等等,而这些信息TikTok缺无法给你想要的答案。而谷歌搜索虽然难用,但它搜索出来的信息依旧是最全的。同时,TikTok搜索的信息质量波动也较大,这位博主在问“谁是美国第16任总统”问题时,在他的总统搜索中,第二个视频却是一位黑人,在这些回答中有不少类似的问题,存在许多糟糕的视频,所以TikTok搜索并没有想象中强大。

02 TikTok式的搜索是未来
搜索引擎,通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。再经过复杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后,这些结果将按照与搜索关键词的相关度高低(或与相关度毫无关系),依次排列。

以谷歌搜索引擎为例,谷歌使用两个重要功能来获取准确的查询结果: 首先,谷歌使用网页的链接结构来计算每个网页的排名,这称为PageRank(如果一个网页也多次被其他网页指向,则表示该网页更重要或质量更高。除了考虑页面链接的数量之外,Google还参考链接页面本身的级别以及该页面与其他页面的前向链接数,当然,“重要的” Web链接将具有更高的权重);其次,谷歌使用链接提供的信息进一步改善了搜索结果(解析查询关键字并将关键字转换为wordID,在短桶中找到每个关键字. 扫描文档列表开头的文档列表,直到找到与查询匹配的页面,桶文档列表已被检查,在长桶的长桶文档列表中找到每个关键字的起点,重复步骤),但在富媒体时代,谷歌搜索在对视频的搜索能力上以前的老算法就不太好使了。

而TikTok则在搜索算法中加入了大量的人工智能算法。在扒取、预处理、收录阶段,各家搜索引擎的算法与思路都是大同小异的,TikTok的不同之处在于对收集了的数据处理上加入了机器学习,当大量的数据集涌入TikTok后台系统后,内容分析、用户分析和场景分析等分析模拟学习自然就赶紧开工了。

同时,TikTok通过机器中的算法实验平台,以逻辑与卷积神经网络等多种机器学习算法为用户群体的贴标签,用来解读人们在使用过程中的思考方式,尽最大可能附和人们的行为模式。再摸清用户平日的喜好之后,然后结合搜索的关键词,最终把用户可能需要的信息推荐出来,即便没有相关答案,其推荐的无关信息也更讨喜,所以美国有越来越多的年轻人愿意用TikTok搜索。

人工智能与搜索引擎相结合是大势所趋,目前谷歌也正在往运用人工智能算法优化搜索结果。2021 年 5 月,谷歌发布了 MUM(Multitask Unified Model,多任务统一模型),这是一种用于搜索的自然语言处理技术,谷歌试图在查询里面就理解用户搜索的内容,从而让返回的关键词更匹配结果。



人工智能作画来了,人工智能写论文还远吗?

编者按:最近 GPT-3、DALL-E 这样的人工智能又一次推高了 AI 的人气。因为它们让普通人只需简单的提示就能创作出相当高水平的文字和画作。但是科学领域却没有这种大众化的人工智能工具,阻碍在哪里?能做出来吗?怎么做?本文进行了探讨。文章来自编译。



想创作一幅迅猛龙在摩天楼顶上工作的画作,而且是 1932 年的“摩天楼顶上的午餐”的那种风格?找 DALL-E。想创作一档由彼得·泰尔、埃隆·马斯克和拉里·佩奇三人出演的虚构单口喜剧节目?用 GPT-3。

想深入了解 COVID-19 方面的研究,并基于证据回答问题?学习如何进行布尔搜索、阅读科学论文,甚至可能还得弄到博士学位,因为没有针对大量科学研究出版物进行训练的生成 AI 模型。如果有这样的模型的话,获得有证据支持的、通俗易懂的科学问题的答案将是这样的模型最简单的好处之一。

用于科学的生成型人工智能可以帮助扭转科学创新减速的局面,让我们更容易找到新的想法。这样的模型还可以为肯定会失败的治疗假说提供数据支持,让那种论调悬崖勒马,抵消掉人类的偏见,并避免走进会浪费数十亿美元、浪费几十年时间的死胡同。最后,此类模型还可以通过对研究结果进行映射、权衡以及联系上下文,给出可信度分数,从而应对可重复性危机。

那么为什么还没有用于科学身上的 DALL-E 或 GPT-3 呢?原因在于,虽然科学研究是全世界最有价值的内容,但同时也是最难获得、最难理解的内容。本文将解释如何大规模地解锁科学数据,让生成式人工智能成为可能,以及这种人工智能将如何改变我们的研究方式。

科学研究数据很有挑战性的原因在哪里
研究出版物是全世界最重要的内容和信息库之一。它们将不同时间和学科的想法和发现联系在一起,并通过图书馆的网络永久保存起来。这些材料有证据、分析、专家剖析与统计关系的支持。它们非常有价值,但基本上都隐藏在 web 之外,而且使用效率也非常低。Web 上充斥着各种各样阿猫阿狗的视频,但前沿的癌症研究却近乎空白。比方说,Web of Science 是最全面的科学知识索引之一了,诞生至今已有几十年,但大多数读者甚至连听都没听说过它,就更不必说使用了。我们当中的大多数人都没法看到那些研究论文,就算给你看,那些文字也十分的晦涩难懂,而且被打包成了 PDF——这种格式是专为打印而设计的。

因为科学论文不容易获得,我们不能轻易地利用这些数据来训练像 GPT-3 或 DALL-E 这样的生成模型。如果研究人员提出一个实验,人工智能模型马上就可以告诉他们之前是不是已经有人做过(最好是还提供结果),这样的情形你能想象吗?然后,一旦他们从某个新颖的实验中获得了数据,人工智能就可以根据结果提出后续实验设想呢?最后,再想象一下如果研究人员可以上传他们的结果,然后由人工智能模型为他们编写结果的手稿的话,又可以节省多少时间。与科学版的 DALL-E 最接近的是 Google Scholar,但后者不是一个可持续或可扩展的解决方案。IBM Watson 也在着手实现此处描述的大部分工作,但他们的大部分工作都是在大型语言模型取得的最新进展之前做的,并且没有利用适当或足够的数据来配合他们的营销炒作。

要想解锁我说的那种价值,我们需要有长期投资、承诺和愿景。为此,我们需要将科学出版物当作要进行大规模组合和分析的基质。一旦消除了障碍,我们就可以利用科学来为需要大量数据的生成 AI 模型提供数据。这些模型有加速科学和提高科学素养的巨大潜力,比方说可以训练这些模型来产生新的科学思想,帮助科学家管理和浏览大量科学文献,帮助识别有缺陷甚至是假冒的研究,以及综合复杂的研究结果并将其转化为普通的人类语言等。

如何才能得到科学版 DALL-E 或 GPT-3?
如果你是科技圈的,向朋友展示 DALL-E、GPT-3 等生成 AI 模型的输出,就仿佛在向他们展示魔法一样。这些工具代表了 web 的下一代。它们源自对海量信息的综合,这种综合超越了简单的关联,而是开发出具有生成能力的工具。那么,我们如何才能在科学领域也创造出类似的神奇体验,让任何人都可以用通俗易懂的语言提出科学文献的问题,并得到有证据支持的,可理解的答案呢?我们如何才能帮助研究人员做出假设,然后不断完善和检验这些假设?在阿尔茨海默症研究当中,人们因为错误地假设遗传与抑郁症之间存在关联,从而浪费了数十亿美元,我们如何才能避免这种无效的假设呢?

这些问题的解决方案听起来也许像科幻小说,但有证据表明,当科学工作的用途不仅仅是部分之和时,我们就可以做出惊人的、不可思议的事情。事实上,通过利用蛋白质数据库(Protein Data Bank)当中的近 200000 种蛋白质结构,AlphaFold 就能够准确地预测出有记录在案的每种蛋白质(超过 2 亿个!)的结构。用类似于理解蛋白质结构的方式去研究论文自然是我们要迈出的下一步。

将论文分解成最小的组件
研究论文里面充满了各种有价值的信息,包括数字、图表、统计关系以及对其他论文的引用。将这些内容分解成各种组成部分,并大规模地利用这些组成部分,可以帮助我们训练机器去处理科学相关的不同类型的工作或课题。简单的问题可以通过对某种成分类型的训练来回答,但更复杂的问题则需要结合多种成分类型,并需要了解它们之间的关系。

一些可能的比较复杂的提示例子如下:

“告诉我为什么这个假设是错的”

“告诉我为什么我的处理办法行不通”

“生成新的处理办法”

“有什么证据支持社会政策 X?”

“这个领域最可靠的研究是谁发表的?”

“根据我提供的数据帮我写一篇科学论文出来”

有些团体正在朝着这一愿景迈进。比方说,Elicit 就将 GPT-3 应用到数百万篇论文标题和摘要上,去帮助回答研究人员提出的问题——这有点像科学版的 Alexa。系统会提取实体之间的统计关系,显示不同的概念和实体是如何链接的。 Primer 本身的重点并不是研究论文,但它确实在与 arXiv 合作,提供了一个信息仪表板,可供企业和政府用来综合和理解来自多个来源的大量数据。

访问所有的组件
不幸的是,这些团体的工作主要靠标题和摘要,而不是全文,因为约六分之五的文章都不是免费就可以获得的,或者弄到并不容易。对于拥有数据或论文的 Web of Science 和谷歌等团体来说,其许可和使用范围存在限制或是不明确的。就谷歌而言,目前我们还弄不清楚为什么他们没有公开宣布自己在 Google Scholar 针对全文科学研究训练 AI 模型的努力。令人惊讶的是,在导致全球陷入停顿的疫情大流行期间,这种情况甚至都没有发生改变。在这种情况下,谷歌 AI 团队挺身而出,为公众就查询有关 COVID-19 的问题提供了一种方法原型。但是,奇怪的是,他们当时是用了来自 PubMed 的可免费访问的论文,而不是来自 Google Scholar 的论文。

几十年来,有人一直在倡导要开放获取论文,而且这些论文的用途不应该只是看一遍就完。我本人已经亲自研究了近十年,在我攻读博士学位的最后一年曾推出过一个名为 The Winnower 的开放获取出版平台,然后在另一家初创企业 Authorea 致力于开发未来的文章。虽然这些举措都没有完全按照我希望的方式取得进展,但正是因为有了那些努力,我才得以开展目前在 scite 方面的工作,至少部分通过直接与出版商合作解决了访问的问题。

连接组件并定义关系
scite的目标是引入下一代引文——我们称之为智能引文(Smart Citations)——它会呈现出文献是如何引用以及如何讨论特定文章、研究人员、期刊或主题的,以及为什么要引用。通过与出版商的合作,我们得以直接从全文中提取出所用引文的相关句子。这些句子可以为理解“论文是如何被更新的文章所引用的”提供定性的见解。就有点像研究版的烂番茄(译者注:Rotten Tomatoes,是一家美国电影和电视评论线上聚合网站)。

为了做到这一点,需要能访问引文的全文,并与出版商合作,通过利用机器学习来大规模提取和分析引文陈述。因为有了足够多的文章可供启动我们的工作,我们得以开发出概念验证,并一一向出版商展示被我们的系统索引到的文章的可发现性增加了,而且我们还为他们提供了一个系统,去展示更好的指标,帮助做出更负责任的研究评估。

用关系数据来训练 AI 模型
从论文提取的要素和关系可用来训练针对研究的新型大型语言模型。GPT-3 虽然非常强大,但毕竟它不是为科学工作而开发的,而且在回答你可能会在 SAT(译者注:也称 “美国高考” ,是由美国大学理事会主办的一项标准化的高中毕业生学术能力水平考试)上看到的那种问题方面表现不佳。用数百万篇研究论文对 GPT-2(GPT-3 的早期版本)进行训练适配后,这种 AI 在特定的知识任务上的表现要比直接用 GPT-2 的效果更好。这凸显了用于训练模型的数据是什么非常重要。

有些团体最近在用 GPT-3 来撰写学术论文,虽然这颇为令人印象深刻,但那些论文声称要展示的事实或论点也许是非常错误的。如果这个模型连简单的 SAT 式的问题都不能回答正确的话,我们又怎么可以相信它能写出一篇完整的论文呢?诞生比 GPT-3 早了近 20 年的 SCIgen 表明,生成看起来很逼真的论文相对容易。他们的系统虽然简单得多,但生成的论文却能够被各种会议接受。我们需要的不仅是一个看起来科学而且实际上也很科学的模型,而且需要要有一个系统来验证机器和人类的声明。 Meta 最近引入了一个用于验证 Wikipedia 引用的系统,有的出版商直言,希望学术出版物也能拥有这样的系统。

当前进展
再强调一次,这样的系统要想取得成果,关键是要排除获取论文和资源的障碍,有了这些才有做出模型的可能。但凡可以大规模使用论文或信息的地方,我们确实就看到了工具和新模型在这些地方的蓬勃发展。谷歌专利团队用 1 亿项专利来训练一个帮助分析专利的系统,其实那就相当于一个 GooglePatentBERT。其他人则引入了像 BioBERTSciBERT 这样的模型,尽管事实上用来训练模型的数据大概只占特定学科领域约 1% 的科学文本,但这些模型已经在学术任务(包括我们 scite 的引文分类系统)中有了令人印象深刻的表现。

最近又发布了一个 ScholarBERT 模型,这个模型可以利用所有的科学文献来训练 BERT。他们克服了访问问题,但他们对如何解决问题却保持沉默,只是强调使用是“非消耗性的”。这个用例可能会为其他人在未经出版商明确许可的情况下使用文章打开大门,并且可能是创建科学版 DALL-E 的重要一步。不过,令人惊讶的是,ScholarBERT 在各种专业知识任务上的表现还比不上 SciBERT 等规模较小的科学语言模型。

重要的是,BERT 风格的模型比 GPT-3 等大型语言模型的规模要小得多,而且这种模型不支持通用提示和上下文学习,而这是 GPT-3 炒作的主要卖点。问题仍然存在:如果我们用训练 ScholarBERT 的相同数据来训练像 GPT-3 这样的大规模生成模型会是什么情况?如果我们能设法展示机器提供的答案是来自哪里的,或者将它们直接与文献(如智能引用)关联起来又会怎样?

为什么是现在?
幸运的是,现在对论文的访问正变得越来越开放,机器也变得越来越强大。我们现在可以用论文以及连接的存储库中的数据来训练机器,去回答问题,并基于研究合成出新想法。这可能会对医疗保健、政策、科技以及我们周围的一切产生变革性的影响。想象一下,如果我们能搜索的不只是文档标题,还能搜索答案,这对各个学科的研究和工作流程会产生什么样的影响。

将全球的科学知识从可访问性和可理解性的双重障碍中解放出来,这可以帮助推动 web 把放在点击、浏览、点赞和关注上的焦点转移到证据、数据以及真实性上面。制药公司显然有动力实现这一目标,所以才会有越来越多的初创企业用人工智能来识别潜在的药物目标——但我相信公众、政府和任何用谷歌的人,为了结果的可信性和节省时间,可能都会愿意弃用免费的搜索。世界迫切需要这样一个系统,而且马上就要。

译者:boxi。



TikTok在美国正在取代谷歌搜索引擎一哥之位?