查看原文
其他

技术应用 | 语料处理之语料采集与清洗

冯程 陆大津 翻译技术教育与研究
2024-09-09

语料处理的基础知识

语料处理引入语料处理案例—Sister Carrie 中译本对比分析Sister Carrie 及1962年版译文《嘉莉妹妹》(裘柱常,石灵)和1999年版译文《嘉莉妹妹》(王克非,张韶宁)                                                                        

原文与两本译文的实词//词汇密度对比

原文与两版译文 type/token ratio (TTR)类符/形符比(形次比)

原文与两版译文的平均句长

两版译文“被”字出现频率

两版译文叠词的使用

To sum up:

语料分析实现了语言学和翻译的结合,从语言学的科学框架分析翻译时源语和目标语的异同,帮助译者掌握更地道的表达和结构。微观-宏观客观-主观(文化)分析语料处理定义
  • 语料采集(collecting)、清洗(cleaning)、降噪(denoising)
  • 语料对齐(alignment)、转换(conversion)
  • 语料分词(tokenisation)、还原(lemmatisation)、赋码(POS tagging)
  • 语料分析(analysis)
语料与语料库的关系

    • 语料库分类:
    • Monolingual
    •   1.How do native speakers use the word "should"?
        2.What is the appropriate allocation?
        婚姻权利- matrimonial right?The right to marriage ?
    • Bilingual
    • Multilingual

思维导图-以流程和工具为主线








语料采集与清洗
案例描述


本次需要采集和清洗第十四届夏季达沃斯经济论坛的语料,用于课后口译训练,并将重要的语料录入语料库。其中,语料分为文本型(PDF、图片等)和音频型(口译员同声传译的音频)。需解决的难点:
  • 如何根据语料的类型,选择采集工具;
  • 如何清洗语料的错误格式、单词拼写错误等;
解决步骤1. ABBYY FineReader采集文本语料

a. 打开ABBYY FineReader的首页后,根据语料的类型选择不同的转换形式。采集图片语料,需要选择“在OCR编辑器中打开”(如图1-1)。

图1-1 ABBYY FineReader


在OCR编辑器中打开“若采集PDF语料,则需要在选择“转换为Microsoft® word”(如图1-2)。

图1-2 ABBYY FineReader“转换为Microsoft® word”


b.图片语料采集的流程:①语料导入:打开ABBYY FineReader后,在对应的文件夹中导入图片语料(如图1-3)。

图1-3 导入图片语料


②语料提取:导入OCR编辑器后,可以提取图片语料中的单词,并在编辑区域修改(如图1-4)。

图1-4 OCR编辑器页面


③语料导出:编辑完成后,可以根据语料清洗的需要,把图片语料保存为对应的大致格式(如图1-5)。如果需要按照特定格式保存,也可以将编辑后的图片语料另存为(如图1-6)。

图1-5 图片语料的保存格式


图1-6 图片语料另存为的具体格式


c.PDF语料采集的流程:①PDF语料导入:打开ABBYY FineReader后,在对应的文件夹中导入PDF语料(如图1-7)

图1-7 导入PDF语料


②PDF语料转换与导出:导入ABBYY FineReader后,可以转换为Microsoft Word 格式,保留格式分为精确副本、可编辑副本、格式化文本、纯文本(如图1-8)。确定保留格式后,可以根据实际要求,决定是否勾选保留PDF文档的图片、页眉、页脚以及页码(如图1-9)。

图1-8 选择PDF语料的转换格式


图1-9 导出PDF语料


2. 网易见外采集音频语料


a.打开网址:https://sight.youdao.com/,登录网易见外平台的主页(如图2-1)。

图2-1 网易见外主页


b.点击主页的“音频转写翻译”后,进入“音频转写翻译”板块,并在该板块下方的“立即试用”登录(如图2-2)。需要注意的是,如果没有账号,需要先注册,才能登录。

图2-2 登录“音频转写翻译”板块


c. 登录成功后,进入个人的工作台。点击工作台右上角的“新建项目”,选择“语音转写”即可(如图2-3)。


图2-3 新建项目中的“语音转写”


d.提交音频时,需要命名项目,上传文件,选择文件语言(英/中)和输出类型(文本/字幕)(如图2-4)。

图2-4 语音转写


e.提交后,等待一段时间,即可获得相应文稿。等待的时间视文件大小和类型而定,一般视频的转写速度会比音频慢。文稿转写完毕后,可以直接打开,并根据音频修改。最终,音频语料以Word格式导出(如图2-5)。图2-5 音频语料的文稿导出



3. 库酷清洗语料

a.打开库酷的首页,导入需要清洗的语料(如图3-1)。在使用之前,需要注册个人账号。

图3-1 在库酷软件中导入语料


b.在库酷软件中,语料的清洗主要分析基本操作和高级操作(图3-2)。基本操作主要是关于文本格式的调整,高级操作主要与文本导出有关。

图3-2 基本操作和高级操作


c.语料清洗的基本操作演示:①内容清理:清理空白行——可以将多余的空行去掉,便于编辑(如图3-3)。

图3-3 清理空白行后的文本


②转换:半角转全角——需要选择中文文本,才能将英文标点符号转换成中文的(如图3-4)。

图3-4 半角转全角后的文本


③分行/合并:合并中文回车分行——需要选择中文文本,把断行的文本合并(如图3-5)。

图3-5 合并中文回车分行后本


④转换上下对照的语料:中/外→外/中——切换中英双语对照的顺序(如图3-6)。

图3-6 中英对照变为英中对照


e.高级操作可以设置导出的文本格式,设置分隔的字符、段落标记等(如图3-7)。图3-7 高级操作的页面布局



4. ChatGPT清洗语料a. 鉴于库酷软件的语料清洗功能无法自动修改英语单词的拼写错误,因此尝试使用Poe平台(如图4-1)上的ChatGPT清洗语料。Poe平台网址:https://poe.com/。

图4-1 Poe平台首页


b. 把需要清洗的语料复制到对话框,并在语料结尾输入第1个指令“请清洗以上语料,调整格式”(如图4-2)。

图4-2 将语料和指令输入对话框


c.清理的结果是,中文的空格、标点等格式错误已经改正。但是原语料的英文缺失(如图4-3)。

图4-3 第1个指令的清洗结果


d.补充第2条指令“请保留中英文双语对照格式”后,得到的语料中文格式正确,英语语料中的特殊字符和拼写错误都已经修正(如图4-4)。

图4-4 第2条指令的清洗结果


e. 补充第3条指令“请将以上内容转换成txt文本”,根据语料库的格式要求,导出清洗后的语料(如图4-5)。图4-5 导出清洗后的语料


5. 注意事项


  • 语料采集:需要根据语料的类型,选择合适的采集工具。PDF、图片以及扫描过的文本型语料可以用ABBYY FineReader采集。如果图片的清晰度不高,可以先用扫描工具处理后,再用OCR编辑器提取文字。音频或视频等类型的语音材料需要借助语音或者视频转写工具,例如网易见外、讯飞输入法等。

  • 语料清洗:使用库酷清洗语料时,可以清洗语料中的部分错误格式,但是无法自动修改错误的词汇拼写,或删除特殊的字符,比如^,~,*,#等。ChatGPT可以根据指令,修改拼写错误和删除特殊字符,但是无法同时修改大规模语料。

特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。

- END -



原创来源:北外CAT课程展示-冯程  陆大津

编辑:李丹

审核:王贇  宁静 梁士虎  李丹

资讯推荐


语料处理软件简介-刘世界


▶ 技术与工具

高级译员的秘密武器——语料库大全集

国内外常见语料工具一览

国内外常见术语管理工具

翻译必备术语库和语料库合集(附网址)

翻译必备的计算机翻译辅助软件(附网址)

AntConc:实用的本地语料库检索工具

TREX:有海量例句、丰富语料的在线词典

Netspeak:一款免费的单词搭配检索工具

WantWords反向词典,内含开发团队公开文档

Cymo Booth:同声传译员的专属虚拟同传间

MateCat:一款免费的在线CAT工具

Visuwords:可视化在线词典,帮你一键构造记忆宫殿

Linggle:语料+搭配检索工具(实操演示)

Ludwig: 地道英文写作辅助神器,告别中式英语

Reverso:辅助写作与翻译神器


▶ 国际语言服务动态

| 翻译公司篇 | TransPerfect简介

| 翻译公司篇 | 全球第2名 RWS如文思

| 翻译公司篇 | “收购狂魔”Keywords Studios

| 咨询机构篇 | Nimdzi Insights简介

| 咨询机构篇 | Slator 简介

| 咨询机构篇 | CSA Research 简介

| 行业机构篇 | 国际翻译家联盟FIT

| 行业机构篇 | 美国翻译协会ATA

| 行业机构篇 | 加拿大联邦翻译局 Canada's Translation Bureau

| 翻译院校篇 | 明德大学蒙特雷国际研究学院(MIIS)

| 翻译院校篇 | 格拉斯哥大学

| 翻译院校篇 | 埃塞克斯大学

| 翻译院校篇 | 利兹大学

| 热点追踪 | ChatGPT的伦理问题(上)

热点追踪 | ChatGPT的伦理问题(下)

| 热点追踪 | GPT-4面世——AI引领语言行业革新


专访

李长栓:ChatGPT在翻译中的崭新角色

袁煜:挑战自我,迈出舒适区

王均松:人工智能时代的翻译:技术驱动的变革与未来展望

王树槐:GPT与小说翻译批评:GPT与文学翻译之二

王树槐:GPT与诗歌翻译批评:GPT与文学翻译之一

苏秋军:AIGC背景下的MTI学科建设

王华树:译者数字素养研究亟需加强,打造翻译人才新优势

沈澍:AIGC是敌是友?翻译领域的机遇与挑战

宁静:长缨在手,敢缚苍龙

崔启亮:机器翻译对语言服务企业有多大作用?

韩林涛:文科生如何学习机器翻译?

魏勇鹏:机器翻译质量评估为什么重要?

徐彬:熟练掌握翻译技术,就能做出漂亮的活儿

曹首光:如何打造一款受欢迎的机器翻译产品? 

李梅:机器翻译对未来翻译教育有何影响?

周兴华:高校翻译教师如何学习翻译技术?

丁丽:译后编辑人员与译者身份是否对等?

卢家辉、陈晨:口译员在远程口译中面临的主要问题


▶ 行业洞察

2021年语言服务行业回顾与展望

2022年全球百强语言服务商榜单

2022年翻译行业将迎来哪些新变化

后疫情时代,语言服务行业如何发展转型?

何钦:中国电影对外译介的现状与思考

冯志伟:关于机器翻译行业发展的三点建议

张霄军:伦理视角下,机器翻译的能与不能

黄友义:如何突破中外文化差异,让世界更了解中国?

韩林涛:与ChatGPT共舞


▶ 教育创新

李长栓:MTI论文千篇一律,如何破局?

王华树 刘世界:数字人文视域下译者数字素养研究:内涵、问题与建议

王华树 刘世界:人工智能时代翻译技术转向研究

王华树 刘世界:智慧翻译教育研究: 理念、路径与趋势

曹达钦 戴钰涵:人工智能时代高校翻译技术实践环境建设研究

李梅:如何给“技术小白” 开设计算机辅助翻译课程?

实践导向的MTI人才培养模式——以对外经济贸易大学为例

数字化口译教学资源建设:欧洲经验与启示

如何将翻译项目管理模式应用到CAT教学课堂中?


修改于
继续滑动看下一个
翻译技术教育与研究
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存