# Navi

# 运作原理

Navi 是基于 MEDLINE 数据库中的文献,通过自建索引和机器学习得到的权重值,返回相关文献的,新一代文献搜索引擎,主要目的是服务于文献主题大数据分析和文献追踪两个服务。

Navi 在计算文献与关键词的相关性之后,会结合诸如被引、影响因子、发表时间及领域相关特征等进行加权排序,权重通过机器学习得到,并会周期性以用户反馈为基准进行矫正。结合现代搜索引擎的设计理念,平衡相关性和重要性,深度优化显示结果,以期能与 PubMed 进行互补。

Navi 的搜索分为相关性检索和强行匹配,在不使用高级语法的情况下,文献均以相关性检索的形式呈现,而使用了高级语法后,某些特定条目会使用强行匹配,即两个字段必须完全相同。

由于建立于普适的自然语言处理技术,缺少 MESH 自动扩展功能,在面对医学同义词扩展问题上不如 PubMed 行之有效,但对于快速检索于目标关键词相关的内容时,前几页的结果相关度在大部分情况下表现可能会更佳。

由于目前机器性能有限,仅对标题、摘要、关键词和 MESH 进行了索引和机器学习处理,能够满足基本的搜索要求,后续会视情况,将其他字段纳入索引。

示例: 搜索gastric cancer single cell 已知该目标应有 5 篇相关文献


figure10


Figure10. PubMed(Legacy) vs PubMed(New) vs Navi


PubMed(Legacy) PubMed(New) Navi
First Page Hit 2 2 3
First Page Rank 1 - 3 1 - 4 1 - 2 - 5
Hit within 3 pages 2 2 5
Rank within 3 pages 1 - 3 1 - 4 1 -2 -5 -16 - 30

Table1. PubMed(Legacy) vs PubMed(New) vs Navi

# 功能说明

# 1. 搜索词补全

  • 该功能基于机器学习实现

  • 同时具有补全和联想功能

# 2. 排序策略

  • Navi 新增按影响因子倒序排列

    • 建议在设定影响因子范围后再使用

    • 该功能实际意义不大,仅供目标文献范围较小的时候使用

# 3. 高级语法

  • 在不使用高级语法的情况下,引擎对关键词的处理类似网页搜索,空格被解析为或,Navi 对这些关键词与文献的标题、摘要、关键词和 MESH 进行相关性计算,在综合排序下会结合被引、发表年份、影响因子和领域相关特征进行排序。

  • 使用高级语法后,Navi 会根据条目的属性自动选择强行匹配或相关性匹配,其中需要注意的是 journal 和 journals,journal 执行的是期刊缩写的强行匹配(可以在这里查询),journals 计算的是相关性匹配,如检索 nature 会同时出现 nature medicine、nature communications 等。


Name Syntax Fields Example
Author Match `<target>`{author} author *(use space between first and last name) `John Doe`{author}
Location Match `<target>`{location} location *(use full name of location) `United States`{location}
Journal `<target>`{<field>} journal *(use medline Abbr of journal) `Nat Methods`{journal}
Keyword Match `<target>`{<field>} title, affiliations, keywords, abstract, journals, all `single cell`{title}

Table2. Advanced Syntax of Navi

# 4. 文献报告

  1. Navi 可以针对某一搜索词的结果生成文献报告

  2. 文献报告的结果包含各大指标的统计

  3. 结果仅供参考,不代表任何立场或观点

  4. 文献报告主要目的是帮助研究者快速了解该搜索词覆盖的文献范围

  5. 文献报告可以在搜索词效果较好的情况下展现某一领域的宏观特点

  6. 文献报告可以通过另一视角展示该主题下的文献,帮助研究者快速打开局面

示例:single cell的文献报告


figure11


Figure11. Paper Report

figure12


Figure12. View the Paper

更多示例(生成文献报告需要时间,请耐心等待)

  1. 机构示例
  2. 作者示例
  3. 地区示例
  4. 杂志示例

# 使用流程

Navi 的主要有以下两种使用场景

# 1. 快速检索

  • Navi 擅长呈现高质量且相关的文献,当突然对某一个主题感兴趣时,可以通过 Navi 呈现的前几页结果快速了解该主题的背景及现状

  • Navi 能够利用大数据分析策略,通过文献报告的形式,快速呈现某一个领域或主题相关的文献发表情况,为后续的检索提供线索

# 2. 高级匹配

  • Navi 通过自然语言处理的方法,对文献的作者、地区、机构等字段都做了特殊处理,在对这些字段进行检索时会较 PubMed 高效
  • 机构

    • 机构采取相关性匹配的检索方法

  • PubMed 的效果较差时,可以尝试 Navi

    • 例如上述的 gastric cancer single cell 结果,Navi 能够检索到更多相关的文献

    • PubMed 的表现有时不尽如人意,推测是一些较为新的概念缺乏 MESH 的支持,而这应该是 PubMed 高效检索的关键。在新版 PubMed 中,有时会看到大量关联性不大的文献,推测是新版 PubMed 也在逐步减少对 MESH 的依赖,转而使用一些基于 NLP 技术的新技术和新模型。

  • 不适用的情况

    • 需要对文献做深度检索,翻页量在 10 页以上时

    • 检索需要应用文献附加信息时,例如 clinical trials 注册号等时

# 工具总结

  1. Navi 通过对近年发展的自然语言处理技术的应用,将检索拓展到文献本身信息之外,将检索内容的重要性和相关性做了合理的平衡后,已经初步具备了可使用性
  1. MedicGo 的多数服务都依赖 Navi 的运行

    1. 搜索词自动补全

    2. 文献订阅和推送功能

    3. 文献报告功能

  1. Navi 仍是发展中的搜索平台,如果您有相关的意见或建议,均可联系我