开题答辩人:刘世界,2022级博士研究生(海事语言及应用方向)
导师:张滟教授
开题时间:2024年4月11日19:30
开题地点:上海海事大学行政楼148
线上链接(腾讯会议):949-183-889
答辩成员(按姓氏首字母):
陈扬教授 上海海事大学交通运输学院(交通运输工程)
邓耀臣教授 大连外国语大学英语学院(外国语言文学)
黄立波教授 西安外国语大学外国语言文学研究院(外国语言文学)
施欣教授 上海海事大学交通运输学院(交通运输工程)
王华树教授 北京外国语大学高级翻译学院(外国语言文学)
答辩秘书:钟锐
题目:基于深度学习的海事领域术语自动抽取及分析研究
内容摘要:海事术语作为海事领域专业知识的语言载体,在促进海事科技进步、深化国际海事交流合作中扮演着不可或缺的角色,规范、准确的海事术语是我国构建海事海洋话语体系、提升国际海事事务话语权的重要基础。术语自动抽取(ATE)技术作为一种文本挖掘中的上游任务,为规模化获取特定领域术语提供了有力支撑,在机器翻译、本体构建、信息检索、自动索引、知识图谱构建、自动文本总结、文本分类及情感分析等方面应用广泛。综观国内外相关研究,术语自动抽取在技术、数据集规模、优化方法、领域、语种等方面都取得了长足发展,但在海事领域中仍然存在诸多亟待关注的问题。首先,现有ATE研究主要聚焦于教育、生物医药、能源等资源丰富的领域,对海事领域关注不足。其次,由于缺乏大规模、高质量的标注语料,直接将通用领域的术语抽取模型应用于海事领域,难以充分适应海事语言特点。再次,海事领域涉及航运、造船、海洋工程、海事法规等多个子领域,术语体系复杂多样,术语呈现出缩略语多、术语嵌套及非连续(分裂)术语繁杂、术语变体频繁等特点。这些特点对术语抽取方法的鲁棒性和泛化性提出了更高要求。此外,粗粒度术语标注虽可支持术语边界识别,但难以直接服务于术语知识挖掘和本体构建。最后,面向海事领域的术语标注规范亟待完善,以提升术语标注和抽取的专业性、规范性。
基于此,本研究旨在探索切实可行的海事领域术语自动抽取方法,致力于提升术语自动抽取的精度、效率和实用性,为海事领域知识工程建设提供关键支撑。具体而言,本研究涵盖以下四个研究目标:首先,构建一个高质量的海事领域术语标注数据集,形成两种模式的标注数据。其次,完成并评估基于深度学习的海事领域术语自动抽取模型,经标注数据集训练后达到较好的性能(精确率、召回率和F1值)。再次,探索细粒度术语标注在支持领域本体构建方面的独特优势,挖掘术语标注信息与本体知识的融合路径,实现术语抽取和本体构建的协同增强。最后,建立海事领域术语抽取的技术规范和评测体系,包括术语标注规范、模型训练和评估流程、性能评价指标等,推动细粒度术语标注、语言学分析、知识集成、深度学习模型等技术在海事领域术语工程中的规模化应用。
本研究属于交通运输工程、外国语言文学和计算机科学(深度学习)的交叉研究范畴,研究的开展有望丰富海事领域的语言资源,为该领域术语知识的自动化获取和智能化应用提供新的思路和方法,助力海事领域知识的挖掘、组织与应用,推动海事领域的跨语言交际和话语体系构建。