FFD&BIG SEARCH

第十一届网络空间智慧搜索暨未来数据高峰论坛

暨2023北京网络安全大会分论坛

[2023/7/6 - 2023/7/8 , 北京]

ABOUT

网络空间智慧搜索暨未来数据高峰论坛

网络空间智慧搜索暨未来数据高峰论坛（Intelligent Search in Cyberspace & Forum of Future Data, FFD）是全球大数据和人工智能等领域著名专家学者交流的平台。历年来的诸多与会专家藉由此平台深入交流、大胆探索、博采众长，产生了许多对行业技术发展有重要影响的成果。

随着网络空间不断拓展和大数据时代的来临，方滨兴院士于2013年9月率先提出了“面向泛在网络空间的智慧搜索（大搜索）”概念，并于2014年组织了国内外相关领域的专家开展了下一代搜索引擎的研讨。2014年10月，第120期“网络空间智慧搜索基础研究”双清论坛在国家自然科学基金委的组织下成功召开。与会专家一致同意将“网络空间智慧搜索”称为“大搜索”，认为我国在面向泛在网络空间的大搜索研究上应抓住机会、力争突破、形成信息技术发展的引领。值此“大搜索”概念正式提出十周年之际，我们将于7月6日（周三）至8日（周五）在北京迎来第十一届网络空间智慧搜索暨未来数据论坛。本次论坛将继续邀请海内外数据科学、智慧搜索和人工智能等相关领域的著名科学家出席，一起交流与“大搜索”相关的研究成果和见解，回顾世界的、中国的“大搜索”相关技术十年历程，并探讨大数据和智慧搜索相关领域的未来发展可能性。

距离论坛

召开还有

[小时]

[分钟]

[秒数]

[Our Timetable]

SCHEDULE

论坛日程

9:00am - 18:00pm
注册报到

09:00am - 9:15am
会议荣誉主席方滨兴院士致辞、会议主办方致辞、会议承办方致辞
主持人: 安建平
主持人：安建平
9:15am - 09:40am
“防火墙”：为生成式应用的推广助力
演讲人: 方滨兴主持人: 安建平
主持人：安建平
09:40am - 10:05am
鹏城脑海大模型底座
演讲人: 高文主持人: 安建平
主持人：安建平

10:05am - 10:30am

The Age of ChatGPT: Challenges and Opportunities

演讲人: Philip S.Yu 主持人: 张彦春

The emergence of large language models, such as ChatGPT, has ushered in a new era of generative AI. With their ability to generate human-like responses, these models have unlocked vast opportunities for applications such as customer service, virtual assistants, and content creation, and fundamentally transformed the landscape of intelligent search. However, these opportunities are accompanied by unique challenges that need to be addressed to fully harness the potential of ChatGPT. While ChatGPT is a powerful tool, it lacks real-time awareness and may sometimes generate incorrect or nonsensical information. Another challenge is the potential misuse of AI-generated content. In this talk, we will delve into the challenges and opportunities presented by this new era of AI.

主持人：张彦春

10:30am - 10:45am
合影、茶歇
10:45am - 11:05am
从大搜索到多维关联认知模型MDATA
演讲人: 贾焰主持人: 张彦春
主持人：张彦春

11:05am - 11:25am

Knowledge Graph Construction, Reasoning, and Manipulation: A Case Study in Education Domain

演讲人: 李青主持人: 李凤华

In recent years, knowledge graphs (KGs) have attracted tremendous interest and attention from both industry and academia, as evidenced by the many types of KGs developed including encyclopedia KGs, commonsense KGs, and KGs for medical science, covering a wide range of applications domains like search engines, question-answering and recommendations. For different application domains, however, the ways of constructing, reasoning, and manipulating KGs are quite different. In this talk, I shall introduce a collaborative project of building a university curriculum platform (called K-Cube) based on educational KGs. Among various functions and components, K-Cube supports a novel course KG construction framework guided by a standard ontology. To reduce the redundancy, we learn a backbone based on related Wiki data items and hierarchy, thereby avoiding to use named-entity recognition. As part of the reasoning, we design a machine reading comprehension task with pre-defined questions to extract relations, thereby improving the accuracy. Furthermore, KG Views are devised to support more advanced applications such as deriving instruction plans, for which two-way synchronization is supported to accommodate editing changes on the source KG and/or the derived views. In addition, KG manipulation operations including visualization (in both 2D and 3D spaces), navigation, and utilization have been developed and are to be introduced through an experimental prototype of KCube we have implemented. The ample facilities of K-Cube greatly accommodate learning path/material recommendations, effective content exploration, and efficient course management, among other advantages.

主持人：李凤华

11:25am - 11:45am

LLM and Database Research

演讲人: 周晓方主持人: 李凤华

Large language models can improve productivity in many areas, including database research. In this talk, we will use examples to illustrate the potentials and limitations in the following areas: (1) natural language querying to databases; (2) data augmentation to generate more data following adhering to the schema and statistical properties of the existing databases; (3) data cleansing to identify data quality issuers; and (4) knowledge graph construction with entity extraction and resolution.

主持人：李凤华

12:00am
午餐
13:30pm - 13:47pm
四色猜想的数学证明
演讲人: 许进主持人: 张彦春
主持人：张彦春

13:47pm - 14:04pm

图结构稳定性计算的演化

演讲人: 林学民主持人: 李凤华

“图在大数据领域是一种重要的数据组织方式，被用于建模具有复杂连接性的数据，并在各种应用场景中有广泛的应用。在过去的十年里，学术界和工业界在图数据分析和管理方面投入了非常多精力。在今天的讲座中，我将介绍图计算中的一个子话题，图结构稳定性计算。回顾其发展。”

主持人：李凤华

14:04pm - 14:21pm

ChatGPT时代：教育和科研范式的变革与前景

演讲人: 熊辉主持人: 李凤华

Artificial Intelligence is rapidly transforming our world, and ChatGPT is at the forefront of this revolution. In this talk, we will introduce the nature of ChatGPT, explore its applications and capabilities, and investigate the employment prospects in various industries brought by ChatGPT, as well as its impact on future education and the development of humanity. We will also discuss the risks and opportunities that AI brings to humanity. While AI has the potential to significantly enhance our lives, from improving healthcare and education to advancing scientific research and boosting economic growth, there are serious concerns about the impact of AI on employment, privacy, security, and ethics. As AI continues to advance at an unprecedented pace, we must carefully consider these risks and opportunities and work to ensure that AI benefits all of humanity, not just a select few. Through this talk, we hope to provide insights into the complex challenges and exciting possibilities presented by AI, and spark meaningful discussions around how we can build a better future with AI for humanity.

主持人：李凤华

14:21pm - 14:38pm

数据系统自然语言交互的现状与挑战

演讲人: 王晓阳主持人: 李凤华

数据系统旨在为信息社会提供数据服务，但这些系统的使用需通过专门的语言，技术壁垒较高。近年自然语言处理能力的发展，使得用户以自然语言与数据系统进行交互成为人们的期望。近期研究人员使用深度学习技术产生交互模型，取得了一定的成功，大模型的引入也进一步提升了交互能力，但结果仍不足以达到实用的水平，究其原因在于对系统中的数据语义缺乏充分的理解。本报告对数据系统的自然语言交互任务现状与挑战进行一个简要分析，并介绍一个数据系统语义增强的自然语言交互方法，籍此提升数据系统的自然语言交互能力。

主持人：李凤华

14:38pm - 14:55pm

Decentralized Data Infrastructure for Web3

演讲人: 曹建农主持人: 李凤华

In the platform-less Web3 world, users' data will no longer be held by centralized platforms, so the values of the data will be returned to the users. However, being platform-less poses unique challenges, especially in revolutionizing the underlying data infrastructure. For example, how data can be stored without a centralized database; how users collaborate to support necessary operations of creation, reading, and update of data; how the decentralized data can be retrieved with privacy, integrity, and high efficiency; how the emerging web3 requirements be met, including validation of data ownership and tracing of usage records? In this talk, I will present the latest research and development of decentralized web3 data infrastructure and answer the above questions. More specifically, I will summarize the requirements of web3 data infrastructure, categorize the unique challenges, and propose a web3 system architecture to address the challenges. I will also introduce some of our recent research towards building the infrastructure of Web3, including collaborative edge computing and blockchain-based data sharing.

主持人：李凤华

14:55pm - 15:12pm

安全知识图谱与大规模图计算技术实践

演讲人: 王占一主持人: 李凤华

近年来知识图谱和基于深度学习的大规模图计算技术蓬勃发展，其效果在搜索、电商、社交等场景中已经得到充分验证。在网络安全垂直领域，威胁情报及终端恶意软件数据所呈现的关系天然适合用图来组织和表示，研究利用大规模图计算和图神经网络技术在百亿级安全知识图谱中进行分析和挖掘，有助于从海量安全数据中获取高价值情报信息、提前预知安全风险。本次报告议题聚焦于深度图神经网络技术在威胁情报挖掘和恶意软件行为分析两个场景的研究与实践，同时综合NLP、向量搜索等技术来发现未知安全威胁、提高人工分析效率。最后还将简单展望大语言模型与知识图谱的协同联动。

主持人：李凤华

15:12pm - 15:22pm
茶歇

15:22pm - 15:39pm

基于大语言模型的跨媒体搜索与推理

演讲人: 庄越挺主持人: 孙乐

搜索与推理作为跨媒体智能的两种重要表现形式，构成了网络空间信息处理和复杂跨媒体内容理解的能力。搜索为推理提供了广泛的信息基础，而推理则进一步整合和归纳搜索得到的多源信息，为用户提供更个性化和精准化的内容。近期，大规模预训练模型在跨媒体推理、自然语言处理等领域取得了重要的进展。大模型作为一种特殊的数据结构，通过模型参数学习的方式，从海量预训练数据中隐式学习与存储了丰富的世界知识，与信息搜索和推理存在密切的联系。本次报告将探讨大规模预训练模型在跨媒体搜索与推理中的前沿技术和实践，包括如何结合大模型实现细粒度语义对齐（如LOUPE）、个性化内容可定制的跨媒体综合推理系统（如HuggingGPT）。

主持人：孙乐

15:39pm - 15:56pm

Adversarial Attacks and Defenses in Deep Learning: from a Perspective of Cybersecurity

演讲人: 周万雷主持人: 孙乐

The outstanding performance of deep neural networks has promoted deep learning applications in a broad set of domains, including in the areas of intelligent search for ubiquitous cyberspace (Big search). However, the potential risks caused by adversarial samples have hindered the large-scale deployment of deep learning. In these scenarios, adversarial perturbations, imperceptible to human eyes, significantly decrease the model’s final performance. Many prior works have been published on adversarial attacks and their countermeasures in the realm of deep learning. It is difficult to evaluate the real threat of adversarial attacks or the robustness of a deep learning model, as there are no standard evaluation methods. Hence, with this talk, we attempt to offer the first analysis framework for a systematic understanding of adversarial attacks. The framework is built from the perspective of cybersecurity so as to provide a lifecycle for adversarial attacks and defences. In addition, we provided a case study to show the defense on a deep learning attack in this framework.

主持人：孙乐

15:56pm - 16:13pm

大图数据社区搜索的基础模型与方法

演讲人: 王国仁主持人: 孙乐

从图数据中搜索紧密连接的社区子图是图数据分析领域的一个基础性问题，其在社交网络分析、推荐系统、欺诈团伙挖掘，金融风险分析等领域具有重要应用。如何对现实应用中大图数据的社区结构进行建模，以及如何高效搜索大图数据的社区结构一直是学术界和工业界的研究热点。本次报告将主要介绍我们课题组在社区建模与搜索方法方面取得的最新研究进展，包括继承性稠密子图建模与搜索方法、时序社区建模与搜索方法、以及基于继承性稠密子图计数的高阶社区建模与搜索方法等工作。

主持人：孙乐

16:13pm - 16:30pm
大模型机理分析
演讲人: 张民主持人: 孙乐
主持人：孙乐

16:30pm - 16:47pm

检索增强的大语言模型

演讲人: 文继荣主持人: 孙乐

ChatGPT为代表的大语言模型在近年来引起了极大的关注，代表了人工智能在语言理解、知识表示、逻辑推理等能力上的重大突破。受此影响，和很多其它领域一样，信息检索也正在跨入“大模型时代”，以New Bing为代表的新一代生成式检索范式正在形成，以缓和生成结果的幻觉和实时性等问题。然而这种“检索+生成”的松耦合结合方式存在很多问题，如何构建原生的、无缝结合检索与生成的大模型是一个重要的开放问题。

主持人：孙乐

16:47pm - 17:04pm

大模型值得关注的重要特性

演讲人: 刘知远主持人: 孙乐

近年来以BERT、GPT为代表的预训练模型，使人工智能技术进入“预训练-微调”的全新范式，特别是最近ChatGPT引爆了全社会对大模型技术的关注。本报告重点介绍大模型与过去深度学习模型相比，在模型框架、微调适配以及推理计算等方面的重要特性，探讨大模型未来的研发应用范式。

主持人：孙乐

17:04pm - 17:21pm

PolarDB: 构建云原生一站式数据管理与服务

演讲人: 李飞飞主持人: 孙乐

在云计算时代，云原生分布式数据库因其弹性扩展、高可用、分布式等特性而获得了大量应用。为满足弹性扩展、弹性计算以及按需按量使用等企业级应用需求，云原生数据库需要探索新的体系架构，如通过分布式共享存储shared-storage来实现shared-everything的架构和存储计算分离、基于shared-nothing分布式架构来提供分布式查询和分布式事务处理。同时，金融级高可用、异地多活等技术挑战也是云原生数据库必须提供的关键能力。数据库系统在快速的向云原生化、平台化、一体化、智能化的四化方向演进。基于对以上技术挑战的不断探索和实践，我们自研了云原生数据库PolarDB，提供企业级云原生分布式数据库能力，提供一站式一体化的数据库能力。同时我们也自研了企业级云原生数据仓库AnalyticDB(ADB)。PolarDB和ADB经受了阿里巴巴双十一世界级的交易峰值挑战并在阿里云上取得了巨大的商业化成功。PolarDB同时也深度结合机器学习和安全加密等最新技术，提供面对未来下一代企业级应用从OLTP到OLAP再到HTAP的智能化、安全的云原生分布式数据库系统。

主持人：孙乐

17:21pm - 17:30pm
茶歇
17:30pm-18:00pm
Panel：大搜索与大模型
演讲人: 黄河燕、徐建良、陈恩红、张民、田志宏、张宏莉、石川主持人: 周斌
主持人：周斌
18:15pm
晚餐

9:00am - 9:20am

当DB遇到大模型：挑战与机遇

演讲人: 高云君主持人: 秦建斌

数据库（DB）技术在存储与处理能力方面具有优势，但深度挖掘能力不足；而人工智能（AI）方法在建模与学习能力方面具有优势，却存在性能瓶颈。因此，在当今大数据时代，DB与AI融合成为了学术前沿及热点。近年来，通用大模型（如ChatGPT等）的快速发展为DB与AI融合带来新的挑战与机遇。本报告先介绍DB与AI融合的研究背景及意义，而后阐述大模型带来的新挑战与机遇：1）大模型赋能的DB，以利用通用人工智能大模型解决数据库系统的典型任务；2）DB支持的大模型，以利用数据库技术优化通用人工智能大模型；最后概述报告人负责团队在这方面的研究进展。

09:20am - 09:40am

面向模型计算的数据系统

演讲人: 钱卫宁主持人: 秦建斌

信息技术高速发展正促进社会各领域的数字化转型。数据，就像交流电，是支撑数字化转型的新的能源（power）。数据管理系统是支撑基于Data Power应用的基础设施。传统的数据库系统针对的是“封闭世界”的数据管理问题，在系统架构、服务方式、实现技术方面不能满足新应用在数据全生命周期管理、应用适配、可靠性、可扩展性等方面的需要，尤其无法适应人工智能应用中的模型计算需要。报告将介绍我们在融合数据管理与模型计算，构建新型数据管理系统方面的探索。

09:40am - 10:00am

多模态大模型

演讲人: 聂礼强主持人: 秦建斌

本报告首先将总览现有语言大模型、视觉大模型与多模态大模型的发展历程与其惊人的通用人工智能潜力，其次将重点剖析当前多模态大模型的主流模型架构与预训练任务，最后介绍我们研发的九天多模态对话大模型的主要功能与实现方法。

10:00am - 10:20am

网络加密流量智能分析技术

演讲人: 沈蒙主持人: 秦建斌

近年来，网络加密流量的比例持续攀升，在保护网络用户通信数据安全的同时，也给网络管理带来新的挑战。网络流量在加密后，原有的重要信息与特征被隐藏，如何利用人工智能技术开展网络加密流量分析成为当前研究的热点问题。本报告将聚焦网络加密流量分析的难点与挑战，梳理加密流量智能分析的典型应用场景与代表性工作，并介绍本团队在相关领域的研究进展。

10:20am - 10:30am
茶歇

10:30am - 10:50am

Neutron图神经网络模型训练系统

演讲人: 张岩峰主持人: 蔡毅

图神经网络（Graph Neural Networks，GNN）将深度学习的学习能力和图结构的关联关系抽象能力结合起来，可以更好地利用网络结构进行精细建模和深度推理，成为人工智能领域的研究热点和各大企业未来布局的关键技术。由于GNN训练所涉及的计算复杂度非常高，加之社交网络、金融网络等真实图数据规模非常庞大，所以GNN训练非常耗时，急需支持大规模GNN训练的系统软件来支撑大规模GNN模型的训练。本报告将汇报东北大学大数据团队在构建大规模GNN训练系统的一系列工作，包括分布式GNN训练系统NeutronStar、动态GNN训练系统NeutronStream、单机GPU高效训练系统NeutronOrch、微批量采样训练系统NeutronOnce、GNN训练评测系统NeutronBench等工作。

10:50am - 11:10am

以信息为中心的未来互联网架构：十年回顾与展望

演讲人: 嵩天主持人: 蔡毅

深媒体、超现实、工业网络等未来应用对互联网数据传输的规模、效率及服务质量提出了新的挑战，推动互联网底层架构持续演进与发展。以信息为中心的未来互联网研究历经十年，已经从基础研究逐步走向试验部署。本报告回顾该领域重要研究进展，结合高效数据分发、高动态组播两个场景，阐述信息中心互联网协议在传输效率上的突出优势，并介绍本团队研究工作。

11:10am - 11:30am

从千亿模型 GLM-130B 到 ChatGLM 的一点尝试

演讲人: 东昱晓主持人: 蔡毅

GLM-130B 是一个中英双语预训练基座模型，拥有1300亿参数，模型架构采用通用语言模型 GLM，其22年8月开源版本已完成4000亿token预训练。斯坦福基础模型中心22年11月对全球30个大模型进行的评测报告显示 GLM-130B 在准确性和恶意性指标上与 GPT-3 175B (davinci) 接近或持平，鲁棒性和校准误差在所有千亿基座大模型中表现优异。自8月起，我们进一步向模型注入了文本和代码预训练，通过有监督微调等技术实现人类意图对齐，于23年2月开始内测 ChatGLM-130B 千亿对话模型，于3月开源 ChatGLM-6B 模型，截至5月份全球累计下载200万，连续两周Hugging Face趋势榜第一。报告将分享 GLM 团队与合作伙伴在千亿训练和 ChatGLM 研发过程的思考和尝试

11:30am - 11:50am

数据驱动的云-边-端协同计算机制

演讲人: 杨晨主持人: 蔡毅

本报告将介绍“云计算-边缘计算-端计算”三种计算范式如何协同与融合，支持各类计算与工业应用。首先，介绍数据驱动的云-边-端协同工业互联网架构，以及云-边数字孪生与大规模定制化生产等研究；然后，从模型、算力、数据和运行模式维度，分析提出多种云-边-端深度学习训练、推理与更新机制；最后，总结报告内容、指出未来研究方向。