图:芬兰语方言在与计算机交互时会带来很多麻烦,因为有些方言是无法避免的。(图片:亚历山大·达维多夫)
芬兰语方言在与计算机交互时会带来很多麻烦,因为有些方言是无法避免的。一个研究小组建立了人工智能模型,可以自动检测、规范化和生成芬兰语方言。
计算机可以用 23 种方言说话
在计算创造力的范式中,他们开发了一种将标准芬兰语转换为 23 种芬兰语子方言之一的方法。计算机不仅应该能够理解方言芬兰语,还应该能够用方言表达自己。
– 使用我们的方法,机器人等智能系统可以在lopussa 上说akku(电池电量低),例如使用 Etelä-Karjala 方言akku o lopussa、Etelä-Satakunta 方言 akku ol lopus 或 Länsi-Uusimaa 方言 akku o lopus, Hämäläinen 说。
例如,谷歌翻译的常用算法无法翻译方言芬兰语句子Oisko sulla jotai esimerkkei siit(你碰巧有这样的例子吗)产生完全错误的“英语”翻译Oisko sulla 类似的东西,只是因为谷歌翻译专为标准芬兰语而设计。使用任何支持芬兰语的 AI 工具(如 Apple Siri 或 macOS 中的听写)都可以观察到相同的现象。
从语音和文本中检测方言
研究表明,在依赖纯文本时检测方言是一项艰巨的任务。当模型也可以访问音频时,方言识别会更容易,因为许多方言都标有独特的语音属性。因此,研究人员发表的最新研究涉及从语音音频和文本中检测方言。
– 将方言规范化为标准文本的过程有很多好处。Khalid Alnajjar 说,它允许使用标准芬兰语的工具分析方言材料,当我们想从方言材料中找到某些东西时,我们也可以使用标准化版本作为搜索项。
研究人员提醒,理解方言的问题很复杂,没有任何模型可以像人类那样理解自然语言。但是创建的模型为研究开辟了更多有趣的方向,例如方言偏离规范的程度以及不同语言变体之间的句法差异是什么。
– 借此,我们可以改善芬兰自然语言处理解决方案的现状,并构建为个人量身定制的 AI 模型。Niko Partanen 说,例如,我们已经在一个人的语音识别方面取得了令人印象深刻的结果,即使是在濒危语言中也是如此。
该研究小组还为芬兰使用的瑞典语方言(Hämäläinen 等,2020b)和芬兰历史方言(Hämäläinen 等,2021b)开发了一种类似的标准化方法。
方言生成器可以在线测试,方言规范器和生成器代码已经在Github上公开发布。方言识别码也可以在Github上找到。
资料来源:赫尔辛基大学