“What are the places worth visiting in Shanghai?(上海有哪些值得去游玩的地方)”“上海外滩交关好白相,夜景邪气漂亮。还有南京路、城隍庙,也牢值得去白相相。”……在展示现场,“小沪”用一口地道的上海闲话回答一位外国客人的询问,引来围观者热烈的掌声。虽然首次亮相的表现十分出色,但“小沪”距离能真正上市应用还有艰难的路程要走。主创团队介绍,沪语是吴方言的代表,使用人口众多,但从信息计算的角度说,仍然是一种低资源的语言,最大的难点就在于要建设一个高质量的数据集。目前正是因为能够采集到的书写标准且语法规范的沪语自然语料还比较少,限制了模型性能的进一步提升。所以,团队成员正在攻关开发语音识别和人工转写系统,构建更大规模的高精度沪语语料库,将来让“小沪”能听懂、会说出上海人几乎所有的日常用语。 图说:“小沪”形象由上海大学上海美术学院教授何晶晶设计 上海大学是上海话的研究重地,积累了优质和丰富的沪语语料。著名语言学家、沪语研究专家钱乃荣教授编撰了《上海话大辞典》,发明了上海话输入法。丁迪蒙副教授是著名的沪语朗读专家,此次加盟大模型团队,为“小沪”的上海话发音校正把关。同时,上海大学还配备了语音学实验室,建立了开发沪语AI集成的专家团队。研发“小沪”的上海大学文学院中文学科团队目前正在全力构建高质量文本数据集,广泛采集书写规范、语法规范的沪语文本数据集,为的是沪语模型表达更加精准和地道,减少发音歧义。