科技日报记者 代小佩
11月15日,最高人民法院正式发布“法信法律基座大模型”,这是国内首个法律行业AI基座大模型,也是国家级法律人工智能基础设施。
据人民法院出版社总编辑余茂玉介绍,“法信法律基座大模型”是在清华大学千亿参数通用大模型基座上,投入3.2亿篇共计3.67万亿字的法律文献、裁判、案例、观点等数据语料,融入包含18万法律知识体系编码的“法信大纲”,经过为期数月的预训练、优化训练、监督微调和多轮测评后最终建成。
该模型有哪些技术创新点和应用前景?研发的最大技术难题是什么?未来将如何发展?对此,包括研发团队成员在内的多位专家学者回答了记者相关提问。
1、“法信法律基座大模型”有什么技术创新点?
清华大学计算机科学与技术系副教授刘知远:其技术创新主要体现在探索如何遵循司法规律,将我国司法审判业务需求与大模型技术相结合,让大模型“先通后专,通专结合”,最终实现对法律业务的可靠支撑。
服务法律业务的大模型不仅需要理解社会常识、了解行业惯例、精通法律知识,更要具备人类的价值观,并与中国特色社会主义核心价值观保持一致,这样的模型才能更好地服务于司法业务实践。模型从“通才”到“专才”的转变,类似于人类知识学习过程,即先接受广泛的基础教育,再接受法律专业培训,最后获取特定任务的实践经验。
2、如何看待“法信法律基座大模型”的应用前景?
清华大学科研院院长、互联网司法研究院院长刘奕群:这是未来数字法院建设的重要基础设施,具有赋能并重塑审判业务流程的巨大潜力。
其对法院系统之外的政法系统乃至各行业的人工智能赋能推广都具有重要的示范意义。通过对业务流程进行细致拆解和重构,可以采用不同方式将法律基座大模型的能力与法官的专业经验、技能相结合,实现“以人为主、人机协同”的创新赋能模式,为一线法官的各项实务工作有效赋能,使其获得切实的获得感。
3、研发过程中遇到的最大技术难题是什么?
人民法院电子音像出版社副社长石鹏:最大的难题就是大模型的通用训练技术方法如何与法律行业相匹配和适应。比如法律数据的专业性、结构性、时效性等特点如何体现,如何提升法律知识理解应用和逻辑思维能力的问题,如何利用已有的法律知识体系和图谱来增强训练的问题,如何进行法律专业性和内容安全性评测的问题等等。
我们在研发过程中采用各种路径和方法,逐一攻克难题。一是组织法律专业人员构建高质量的训练数据和指令集,并进行体系化模型迭代。二是通过引入最高法院“法信”平台全流程法律资源标注机制和历时十余年搭建的18万法律知识体系编码“法信大纲”,来增强模型的知识理解和应用能力,采用法律知识体系结构建模并记录关联关系和知识,提高模型在法律领域的专业性和准确性。三是在构建微调数据时,精心设计了法律领域的数据集,并实施了大量的知识工程。四是构建了法律大模型的评测方法和评价标准。
4、国际上类似的法律人工智能技术发展情况如何?
清华大学计算机科学与技术系副教授刘知远:实际上,我们走在法律大模型研发的前列。清华自然语言实验室一直专注于法律人工智能领域,2021年就开源了首个中文法律大语言模型 Lawformer。同时,我国拥有最为先进的司法信息化系统以及系统化的数据储备,例如“法信”法律大数据平台。通过法律知识体系编码“法信大纲”,对万亿字量级的法律专业语料进行了高质量专业标注,为模型研发提供了宝贵的“燃料”。
近年来,国际前沿研究中以快慢系统(GPT-o1)、思维链为代表的关于模型推理能力的相关工作值得我们进一步探索。
中国政法大学数据法治研究院教授张凌寒:目前,我国的法律基座大模型主要面向国内市场,国际化程度较低,对国际市场的需求和法律法规的理解还不够深入。同时,在一些关键技术标准和国际规则制定方面,与发达国家相比仍存在一定差距。
我们需要加强国际合作,与国际组织、外国政府和企业建立合作关系,积极参与技术标准制定,提高模型的国际认可度。同时,培养熟悉国际法律环境的专业人才,推动国际交流,树立国际品牌。
5、对我国法律基座大模型的未来有哪些展望?
清华大学计算机科学与技术系副教授刘知远:未来,法律基座大模型应在极大提升法律工作者工作效率的同时,更好地实现工作的规范化以及统一法律适用。
此外,随着大模型智能体技术的发展,每一位法律工作者都可以拥有专属的智能体助理,承担机械的重复性劳动以及简单的创造性工作。
在不久的将来,法律智能体还会呈现多角色分工与多智能体协同。当事人、律师、法官、法律学者都能够通过专属自身角色的智能体助手,构建出一个更高质量、更高效的群体智能工作协同网络。