期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于多轮LLM和犯罪知识图谱的多被告人法律判决预测
1
作者 王东升 《计算机科学》 北大核心 2025年第8期308-316,共9页
一些研究利用先进的大模型(LLM)技术理解法律事实,预测被告人的罪名、刑期等判决结果。为进一步深入研究,选择了更为复杂的多被告人法律判决预测任务,它比单被告人预测更困难。具体地,将与LLM的交互由单轮升级为多轮,以此提高LLM对案件... 一些研究利用先进的大模型(LLM)技术理解法律事实,预测被告人的罪名、刑期等判决结果。为进一步深入研究,选择了更为复杂的多被告人法律判决预测任务,它比单被告人预测更困难。具体地,将与LLM的交互由单轮升级为多轮,以此提高LLM对案件的理解能力。此外,构建了描述案件的两类犯罪知识图谱,其中犯罪关系知识图谱刻画了被告人之间的帮助关系,量刑情节知识图谱展示了案件的核心犯罪情节。通过犯罪知识图谱,设计了一个检索系统为LLM提供类案判决的参考。在多被告法律判决预测实验中,所提方法的预测结果优于对比方法,这表明多轮LLM交互和犯罪知识图谱的设计是有效的。 展开更多
关键词 多被告人 法律判决预测 大语言模型 犯罪知识图谱
在线阅读 下载PDF
TCST-UT:卫藏方言藏汉语音翻译数据集
2
作者 黎鑫 刘佳洛 +3 位作者 多杰朋毛 看卓措 戚肖克 赵小兵 《中国科学数据(中英文网络版)》 2025年第3期523-534,共12页
在大模型时代,多语种语言资源建设具有极为关键的意义。然而,目前公开的藏汉语音翻译数据集资源极为匮乏,这严重制约了藏语在多语种语言资源建设中的发展。为此,本研究充分参考国际语音翻译数据集规范,采用半自动标注方式构建了大规模... 在大模型时代,多语种语言资源建设具有极为关键的意义。然而,目前公开的藏汉语音翻译数据集资源极为匮乏,这严重制约了藏语在多语种语言资源建设中的发展。为此,本研究充分参考国际语音翻译数据集规范,采用半自动标注方式构建了大规模卫藏方言藏汉语音翻译数据集。首先,基于公开的卫藏方言藏语自动语音识别数据集(M2ASR),利用Gemini-1.5-pro大模型将语音对应的藏语转录文本翻译成汉语。随后,专家对翻译结果进行严格审核与校正,最终整理成高质量的卫藏方言藏汉语音翻译数据集。本数据集包含58,767条藏语语音-藏语文本-汉语文本三元组,音频数据来自147个不同说话人,总时长为72.08小时,藏汉文本对数据文件大小为22 MB。本数据集不仅为藏汉语音翻译研究提供了基础数据,同时也为其他低资源语言的语音翻译数据集构建提供了一定的经验。 展开更多
关键词 藏汉语音翻译 数据集 半自动标注 低资源语言
在线阅读 下载PDF
藏汉语音翻译数据集 被引量:3
3
作者 赵小兵 刘佳洛 +2 位作者 周毛克 江雪 戚肖克 《中国科学数据(中英文网络版)》 CSCD 2024年第4期21-29,共9页
语音翻译研究的前沿取决于可用数据集的质量和多样性。目前在探索少数民族语言的语音翻译时,由于缺乏公开的数据集,相关研究面临着诸多限制。为此,本文构建并公开藏语语音到汉语文本的语音翻译数据集。本数据集来源于微信公众平台以及... 语音翻译研究的前沿取决于可用数据集的质量和多样性。目前在探索少数民族语言的语音翻译时,由于缺乏公开的数据集,相关研究面临着诸多限制。为此,本文构建并公开藏语语音到汉语文本的语音翻译数据集。本数据集来源于微信公众平台以及已公开的藏语语音识别数据集。通过网络爬虫和机器翻译辅助采集数据,并进行人工切分与标注,最终交由专家审核和校正后得到高质量的藏汉语音翻译数据集。本数据集包含样本7270条,大小为965 MB。本数据集为探索低资源藏汉语音翻译技术提供了一定的数据基础,有助于推动相关技术和算法的进步,也为语音翻译系统在少数民族语言环境下的应用提供了实质性的支持。 展开更多
关键词 语音翻译 藏汉 少数民族语言 低资源 数据集
在线阅读 下载PDF
基于法条知识的事理型类案检索方法 被引量:1
4
作者 李林睿 王东升 范红杰 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第7期1357-1365,共9页
现有类案检索研究忽略了模型应当蕴含的法律逻辑,无法适应实际应用中案件相似标准的要求;类案检索任务的中文数据集较少,难以满足研究需求现状.为此提出基于法律逻辑、有较强可解释性的类案检索模型,构建以谓语动词为基础的案件事理图谱... 现有类案检索研究忽略了模型应当蕴含的法律逻辑,无法适应实际应用中案件相似标准的要求;类案检索任务的中文数据集较少,难以满足研究需求现状.为此提出基于法律逻辑、有较强可解释性的类案检索模型,构建以谓语动词为基础的案件事理图谱.将各类罪名对应的法条知识融入所提模型,将提取的不同要素输入以神经网络为基础的评分器以实现准确、高效的类案检索.构建针对类案检索任务、以易混淆罪名组为主要检索案由的Confusing-LeCaRD数据集,所提模型在LeCaRD数据集和Confusing-LeCaRD数据集上的归一化折损累计增益分别为90.95%和94.64%,在各项指标上均优于TF-IDF、BM25和BERT-PLI模型. 展开更多
关键词 类案检索 法条知识 法律逻辑 事理图谱 深度学习
在线阅读 下载PDF
基于扭曲风险度量的鲁棒投资策略
5
作者 闫雪晨 李璐 王雅实 《应用概率统计》 CSCD 北大核心 2024年第1期122-138,共17页
投资组合策略在很大程度上取决于损失的基本分布.因此当损失的分布信息只能通过有限的数据样本来观察时,投资组合策略模型的稳健性是至关重要的.假设损失的基本分布具有已知的均值和方差且位于一个以经验分布为中心,以Wasserstein距离... 投资组合策略在很大程度上取决于损失的基本分布.因此当损失的分布信息只能通过有限的数据样本来观察时,投资组合策略模型的稳健性是至关重要的.假设损失的基本分布具有已知的均值和方差且位于一个以经验分布为中心,以Wasserstein距离为半径的球内,本文建立了一个基于扭曲风险度量的稳健投资组合策略模型,并将其转化为更简便的等价形式.此外,本文运用模拟和实证研究证明了该模型的有效性. 展开更多
关键词 扭曲风险度量 投资组合策略 鲁棒模型 Wasserstein距离
在线阅读 下载PDF
M2CST-Mongo:面向新闻领域的蒙汉语音翻译数据集
6
作者 赵小兵 江雪 +2 位作者 刘佳洛 特尼格尔 戚肖克 《中国科学数据(中英文网络版)》 CSCD 2024年第4期1-9,共9页
数据集是训练和评估语音翻译系统的基础,对语音翻译激发创新研究,推动领域进步具有至关重要的作用。然而,目前蒙汉语音翻译语料相对稀缺,难以提供足够规模和多样性的数据支持翻译模型的训练,发展蒙汉语音翻译技术面临困境。为了缓解这... 数据集是训练和评估语音翻译系统的基础,对语音翻译激发创新研究,推动领域进步具有至关重要的作用。然而,目前蒙汉语音翻译语料相对稀缺,难以提供足够规模和多样性的数据支持翻译模型的训练,发展蒙汉语音翻译技术面临困境。为了缓解这一问题,本研究面向新闻领域构建了蒙汉语音翻译数据集。首先,参考既往语音翻译数据集研究思路,将公开的蒙古语语音识别数据集转换成语音翻译数据集。进行数据处理后交由专家评审检验,通过对本数据集的校正、分析,从而得到高质量的蒙汉语音翻译数据集。本数据集面向新闻领域,包括政治、经济、文化等话题,总时长为106.5小时,来自258个说话人,包含音频样本47,935条,文本包含蒙古语和汉语,大小为19.6 MB。数据集充分考虑到字母的平衡,保证数据的可用性。本数据集的建立为探索低资源蒙汉语音翻译提供了一定的数据基础,推动蒙汉语音翻译技术的发展,促进蒙汉文化交流。 展开更多
关键词 蒙汉语音翻译 新闻领域 低资源 数据集
在线阅读 下载PDF
TibNER:藏文命名实体识别数据集
7
作者 周毛克 俄见才让 +2 位作者 道吉才旦 戚肖克 赵小兵 《中国科学数据(中英文网络版)》 CSCD 2024年第4期10-20,共11页
结构化的语言资源是自然语言处理的重要基础。目前,由于缺乏公开的大规模数据集,藏文命名实体识别研究进展缓慢,成果积累较少。基于此,本文利用实体词典半自动地构建并公开了藏文命名实体识别数据集(TibNER)。为保证数据集质量,对自动... 结构化的语言资源是自然语言处理的重要基础。目前,由于缺乏公开的大规模数据集,藏文命名实体识别研究进展缓慢,成果积累较少。基于此,本文利用实体词典半自动地构建并公开了藏文命名实体识别数据集(TibNER)。为保证数据集质量,对自动标注结果进行了人工校审。TibNER包含20096个句子,平均句长为44.2069个音节,标注的实体类型包括人名、地名、组织机构名,三类实体总数达43678。为了验证数据集的有效性,本文在三个主流的序列标注模型上进行对比测试,最优模型的F1值达到80.60%。经研究,本数据为低资源语言提供了数据构建经验,同时为藏文命名实体识别等任务提供了一定的数据基础。 展开更多
关键词 藏语 命名实体识别 实体词典 数据集
在线阅读 下载PDF
一种基于PCA的文本特征混合选择方法 被引量:9
8
作者 张扬武 李国和 +2 位作者 王立梅 宗恒 赵晶明 《计算机应用与软件》 北大核心 2019年第10期23-29,80,共8页
由于文本分类中的特征空间高维稀疏,传统单一的降维方法难以满足实际大数据分类需求。针对这种情况,提出一种两阶段的混合特征选择方法。第一阶段计算每个特征词的信息增益率并进行排序,然后根据设定的阈值进行特征词的选择。第二阶段... 由于文本分类中的特征空间高维稀疏,传统单一的降维方法难以满足实际大数据分类需求。针对这种情况,提出一种两阶段的混合特征选择方法。第一阶段计算每个特征词的信息增益率并进行排序,然后根据设定的阈值进行特征词的选择。第二阶段利用主成分分析方法将第一阶段输出的仍保持高维特性的高维特征空间映射到低维新特征空间。实验结果表明,与单一的传统方法比较,混合特征选择方法实现了二次降维,不但减少了计算开销,还提高了分类性能。 展开更多
关键词 降维 文本分类 主成分分析 信息增益率 特征选择
在线阅读 下载PDF
我国智慧法院体系工程的模式框架和创新实践 被引量:8
9
作者 许建峰 孙福辉 +3 位作者 陈奇伟 王赢飞 于佳 刘振宇 《中国工程科学》 CSCD 北大核心 2022年第4期105-120,共16页
智慧法院体系作为大规模复杂信息系统,其开发工作是世界性工程难题;本文旨在从方法论视角出发,阐述中国智慧法院体系工程的理论构建与工程应用。论述了体系工程的概念和关键任务需求,分析了智慧法院体系工程面临的技术难点,提出了针对... 智慧法院体系作为大规模复杂信息系统,其开发工作是世界性工程难题;本文旨在从方法论视角出发,阐述中国智慧法院体系工程的理论构建与工程应用。论述了体系工程的概念和关键任务需求,分析了智慧法院体系工程面临的技术难点,提出了针对大规模自治信息系统的“双轨并行、六环联动”渐进式协同体系工程模式框架;基于通用信息模型、信息度量、信息系统动力构型等理论,构建了信息系统体系的关键评判指标;针对体系设计需求,引入基于信息关系的体系设计工具方法,获得了智慧法院体系参考模型,作为智慧法院系统研发与体系集成的顶层参照;相对全面地展示了我国智慧法院体系工程中的自治系统研发、骨干系统研发推广、协同体系集成等实体建设内容。在全国范围推广应用智慧法院信息系统体系,保障了人民法院司法业务模式的升级与重塑;基于关键评判指标开展的持续质效分析及针对性改进,进一步完善了相应的体系能力,为信息时代的司法文明建设提供了关键支撑。 展开更多
关键词 智慧法院 体系工程 司法信息化 信息理论 渐进式协同
在线阅读 下载PDF
面向法律裁判文书的生成式自动摘要模型 被引量:11
10
作者 周蔚 王兆毓 魏斌 《计算机科学》 CSCD 北大核心 2021年第12期331-336,共6页
当前面向中文内容的自动摘要模型应用于法律裁判文书时,主要采用抽取式方法进行摘要。但由于法律文本比较冗长、结构化程度较低,抽取式摘要的精准度和可靠性有所欠缺。为了获得法律裁判文书的高质量文本摘要,文中提出了一种生成式多模... 当前面向中文内容的自动摘要模型应用于法律裁判文书时,主要采用抽取式方法进行摘要。但由于法律文本比较冗长、结构化程度较低,抽取式摘要的精准度和可靠性有所欠缺。为了获得法律裁判文书的高质量文本摘要,文中提出了一种生成式多模型融合的自动摘要方法。在Seq2Seq模型的基础上,引入注意力(attention)机制,同时通过Bert预训练和强化学习等方法,结合选择门技术,提出了BASR(Bert Based Attention Seq2Seq Reinforced Model)模型。将50 000篇法律裁判文书作为语料,以小额诉讼和简易程序类型的裁判文书为代表性研究对象,实验结果证明新模型有较好的效果,在ROUGE评价中相比传统的Seq2Seq+Attention模型取得了均值5.81%的性能提升。 展开更多
关键词 裁判文书 自动摘要 模型融合 Seq2Seq 注意力机制 强化学习
在线阅读 下载PDF
关于法律人工智能数据和算法问题的若干思考 被引量:9
11
作者 丛颖男 王兆毓 朱金清 《计算机科学》 CSCD 北大核心 2022年第4期74-79,共6页
人工智能技术的不断发展使其在司法方面的应用逐渐增多,并引起广泛关注。具体来说,人工智能已经在合同审查、智慧法院等应用场景中崭露头角,相比传统人工,人工智能的高效率表现展示了其在司法领域的巨大应用潜力。但在其他应用场景,如... 人工智能技术的不断发展使其在司法方面的应用逐渐增多,并引起广泛关注。具体来说,人工智能已经在合同审查、智慧法院等应用场景中崭露头角,相比传统人工,人工智能的高效率表现展示了其在司法领域的巨大应用潜力。但在其他应用场景,如智能司法裁判,虽然国内外有一定尝试,并取得了一些成果,但仍面临着数据样本量不足、算法与待解决实际问题匹配度不够的问题,以及算法过程不够透明等方面的质疑。文中围绕现有法律人工智能的相关工作,探索了人工智能可能带来的司法流程上的巨大变革,并对人工智能目前在智能裁判中遇到的数据和算法方面的问题是否会对司法的公正性产生影响进行了探讨,最后对上述问题的解决方案以及司法人工智能的未来发展路线略抒拙见,以期人工智能技术在我国司法领域有更为系统性的应用,助力社会主义法治建设。 展开更多
关键词 人工智能 法律 数据分析 AI算法
在线阅读 下载PDF
一种替代性纠纷在线仲裁系统 被引量:6
12
作者 周蔚 罗旭东 《计算机科学》 CSCD 北大核心 2020年第S01期583-590,共8页
互联网仲裁近年来成为数字经济领域法律纠纷的一种重要解决机制,实现了"线上争议、线上解决"。然而,现有互联网仲裁系统并不能满足高要求的正当程序及充分保障当事人合法权利,符合仲裁法律程序的仲裁系统仍然缺位。沿着法律... 互联网仲裁近年来成为数字经济领域法律纠纷的一种重要解决机制,实现了"线上争议、线上解决"。然而,现有互联网仲裁系统并不能满足高要求的正当程序及充分保障当事人合法权利,符合仲裁法律程序的仲裁系统仍然缺位。沿着法律人工智能(AI and Law)领域对在线争议解决(Online Dispute Resolution,ODR)的研究提出仲裁系统的技术方向,文中对兼容线上线下仲裁系统功能建模、关键环节算法演示以及软件即服务(Software as a Service,SaaS)架构设计,提出了一种替代性纠纷在线仲裁系统。该系统以正当程序、线上线下仲裁流程衔接及当事人权利最大化保障作为系统目标,应用了人工智能和区块链技术。通过在中国海事仲裁委员会(CMAC)试运行该系统,仲裁机构公信力提升,以及基于仲裁价值链的仲裁业务流程再造得到了体现。 展开更多
关键词 互联网仲裁 仲裁系统 法律人工智能 在线争议解决 价值链
在线阅读 下载PDF
基于层级集成的个性化空间音频技术 被引量:4
13
作者 卢金燕 戚肖克 《计算机应用研究》 CSCD 北大核心 2022年第4期1075-1079,共5页
个性化的头相关传输函数(head-related transfer function,HRTF)可以有效改善空间音频质量。针对个性化HRTF难以精确获得的问题,提出了一种基于层级集成的个性化空间音频生成方法。该方法通过三个模型逐层建立个性化HRTF中的定位信息。... 个性化的头相关传输函数(head-related transfer function,HRTF)可以有效改善空间音频质量。针对个性化HRTF难以精确获得的问题,提出了一种基于层级集成的个性化空间音频生成方法。该方法通过三个模型逐层建立个性化HRTF中的定位信息。首先,采用高斯混合模型建立用户无关的共用模型。然后,采用自编码器获得与用户有关的HRTF的隐表示,利用深度神经网络在人体生理参数与HRTF的隐表示之间建立非线性映射,得到用户有关的个性化模型。为了尽可能恢复个性化HRTF细节信息,对上述模型降维过程中的残差进行线性建模,得到残差模型。对于目标用户,任意空间位置处的个性化的HRTF可以通过集成三个层次下的模型获得,用于生成三维空间音频。最终,实验结果表明,提出的算法可以有效降低HRTF频谱损失,提升对个性化HRTF的预测性能。 展开更多
关键词 头相关传输函数 个性化 定位感知 自编码器 空间音频
在线阅读 下载PDF
光子晶体多组元缺陷态问题研究
14
作者 王立群 严佳新 +2 位作者 卢欣 石丽伟 张肖利 《人工晶体学报》 CAS 北大核心 2022年第6期986-995,1011,共11页
缺陷态光子晶体可以用于制作良好的谐振器、偏振器、滤光器等光学器件,具有重要的应用价值。本文发展了光子晶体缺陷态问题的PG有限元界面问题计算方法,有效地处理了各种不同组元体系、几何结构、界面形状、材料属性以及模态的光子晶体... 缺陷态光子晶体可以用于制作良好的谐振器、偏振器、滤光器等光学器件,具有重要的应用价值。本文发展了光子晶体缺陷态问题的PG有限元界面问题计算方法,有效地处理了各种不同组元体系、几何结构、界面形状、材料属性以及模态的光子晶体缺陷态问题。数值结果表明,二组元结构单点缺陷对带隙的影响较小,只是使局部范围内的波继续传播而产生一条缺陷带,多点缺陷使一些特定范围内的波可以传播而产生多条缺陷带,线缺陷产生的影响较大,可以使整个禁带消失。结合线缺陷与点缺陷,波导结构中的侧点缺陷可以有效地应用于光子晶体阻带内诱导窄通带或在波导的通带内诱导非常窄的阻带。三组元结构引入了不均匀介质、复杂介质形状以及不同几何结构的缺陷态。通过计算与分析发现Ω_(3)区域的介质形状对结果影响比较有限,表面层越不光滑禁带越窄,n型缺陷态在TM模中的高频区域更容易产生禁带。对于TE模来说,n型与v型的缺陷态更容易产生禁带。 展开更多
关键词 光子晶体 缺陷态 多组元 能带结构 PG有限元法 非贴体网格
在线阅读 下载PDF
基于点线特征的解耦视觉伺服控制方法
15
作者 卢金燕 戚肖克 《计算机应用》 CSCD 北大核心 2022年第8期2556-2563,共8页
针对机器人的自动对准问题,提出一种基于点线特征的解耦视觉伺服控制方法。所提方法以点和直线作为图像特征,并利用图像特征的交互矩阵解耦姿态控制和位置控制,实现六自由度对准。首先利用直线及其交互矩阵设计姿态控制律,以消除旋转偏... 针对机器人的自动对准问题,提出一种基于点线特征的解耦视觉伺服控制方法。所提方法以点和直线作为图像特征,并利用图像特征的交互矩阵解耦姿态控制和位置控制,实现六自由度对准。首先利用直线及其交互矩阵设计姿态控制律,以消除旋转偏差;然后利用点及其交互矩阵设计位置控制律,以消除位置偏差;最后实现机器人末端目标的自动对准。在对准控制过程中,基于执行的相机运动量以及相机运动前后特征的变化量,可实现对深度的在线估计。另外,还设计了监督器对相机的运动速度进行调节,从而确保特征一直处于相机视野当中。在Eye-in-Hand机器人平台上,分别用所提方法和传统的基于图像的视觉伺服方法实现了机器人的六自由度对准。所提方法经过16步实现了机器人的自动对准,对准结束时机器人末端位姿的最大平移误差为3.26 mm,最大旋转误差为0.72°。相较于对比方法,该方法的控制过程更加高效,控制误差收敛更快,对准误差更小。实验结果表明,所提方法可以实现快速高精度的自动对准,能够提高机器人操作的自主性和智能化水平,有望应用于目标跟踪、拾取和定位、自动化装配、焊接、服务机器人等领域。 展开更多
关键词 视觉伺服 视觉控制 交互矩阵 解耦控制 六自由度对准
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部