设万维读者为首页 万维读者网 -- 全球华人的精神家园 广告服务 联系我们 关于万维
 
首  页 新  闻 视  频 博  客 论  坛 分类广告 购  物
搜索>> 发表日志 控制面板 个人相册 给我留言
帮助 退出
 
思芦随笔  
思想之芦  
我的名片
思芦
注册日期: 2013-09-24
访问总量: 3,022,113 次
点击查看我的个人资料
Calendar
我的公告栏
本博客不欢迎滚刀肉
最新发布
· 四年前旧作:卷土才俊在江东
· 推荐一种新的Medicare保险
· 国家为何失败,中国制度是优势还
· 存在即合理?错!黑格尔背了黑锅
· 屋檐滴水(空调冷凝水)问题的解决
· 莱特湾海战: 英勇小兵拯救四星上
· 退休生活:自己动手修空调
友好链接
· 阿妞不牛:阿妞不牛的博客
· 高伐林:老高的博客
· 四同:四同的博客
· 施化:施化的博客
· 山蛟龙:山蛟龙的博客
· 体育老师:体育老师的博客
· 席琳:席琳的博客
分类目录
【深度观察】
· 国家为何失败,中国制度是优势还
· 存在即合理?错!黑格尔背了黑锅
· 中国文化在外来文化侵略下,呈倒
· 评点中国与美国的奥运奖牌争霸赛
· 用脚投票和用嘴投票
· 撕下中共执政的最后一块合法性遮
· 评《西方为何领先》, 兼谈东方为
· 愚蠢的国家战略是如何出笼的?
· 中俄列名政权杀人最多,对世界和
· 新基因研究颠覆了进步主义的平等
【人在旅途】
· 中欧四国自驾游:信息体会总汇篇
· 寻访另类布拉格, 解密自由智慧之
· 布拉格,历史的门槛和英雄之城
· 捷克世遗小城美在金秋
· 德奥匈捷四国五城游之萨尔茨堡
· 魔法森林步道、后湖和高山公路
· 艰难的2023回国之旅
· 奥国的桥,德国的堡,秋色的美
· 在奥地利阿尔卑斯山区徒步
· 在最美风景的阿尔卑斯高山公路自
【神州观察】
· 用脚投票和用嘴投票
· 撕下中共执政的最后一块合法性遮
· 习近平的合法性焦虑与中共的第三
· 千年大计碰上了百年不遇
· 红色江山朽而不倒的秘密
· 鼠头变鸭脖,压力下改口有错吗?
· 中西间谍的两种命运,想起金无怠
· 习近平的普氏铁床治国术
· 端中国碗吃中国粮,先吃上了中国
· 艰难的2023回国之旅
【汗滴家园】
· 屋檐滴水(空调冷凝水)问题的解决
· 退休生活:自己动手修空调
· 梨子的滋味:换微波炉磁控管
· 洗碗机三修记
· 降低噪声,保温节能的窗户DIY
· 房客的水管工修理清单,搞定!
· 55小时大停电的劫后余生
· 液晶电视开膛手术起死回生记
· DIY:门框的整旧如新
【健康生活】
· 推荐一种新的Medicare保险
· 健康之友-益生菌的种类、作用和
· 长寿及老年痴呆的一些近期研究
· 我的烟酒茶聚散情缘
· 谈谈老年健保Medicare中的坑
· 自做酸奶的几个小诀窍
· 告别老干妈,自制辣椒酱
· 工业N95口罩也可抵御新冠病毒
· 早饭前锻炼,减肥效果最好
· 哪种减肥更有效,低碳还是低脂?
【说文论艺】
· 答山货郎兼议蒋介石与错杀
· 恳请小编手下留情,不要推荐我的
· 评点中国与美国的奥运奖牌争霸赛
· 电影《第二十条》,中共为何害怕
· 谁是真正的不完美受害人?
· 评毛泽东诗的文学水平
· 贪也罢,反也罢,都是以人民的名
· 中西文化比较:语言中反映的思维
· 大选感事
· 从《无悔追踪》到《九三年》革命
【历史探幽】
· 莱特湾海战: 英勇小兵拯救四星上
· 中国文化在外来文化侵略下,呈倒
· 评《西方为何领先》, 兼谈东方为
· 第二次世界大战复盘:名将与昏招
· 电影《奥本海默》中的史实谬误
· 欧洲中世纪和中国元代的初夜权
· 圆明园: 被刻意隐瞒的另一半故事
· 中国和西方文明的交流与撞击
· 被正史讳莫如深的古巴和越战秘辛
· 漫话英国的民族和君主,兼谈奴化
【往者可追】
· 鼠头变鸭脖,压力下改口有错吗?
· 纪念父亲:中国移动通信的先行者
· 胜利大逃亡-留美历程纪实
· 记我的英语老师-老美司考特
· 吃的记忆:文革时代下馆子
· 禁书、读书、偷书、窃书和顺书
· 回忆78级大学生的毕业分配
【插队轶事】
【信息技术】
· 让电脑和万维网页提速的小技巧
· 与防火长城斗智斗勇:回国安全翻
· 介绍几个在中国翻墙/科学上网的
· 比尔盖茨离婚那天, 我的电脑死了
· 推荐几款手机上的必备应用
· Windows应用的安装和卸载
· 手机系统升级,暗屏模式省电护眼
· 解决电脑扬声器音量小的问题
【学海拾贝】
· 对个人尊严,国家认同等的随想
· 伟大复兴,强国梦及其他
· 灯下漫笔 (七)
· 活在当下,把握现在
· 我写故我思,我思故我悦
· 灯下漫笔(六)
· 灯下漫笔 (五)
· 灯下漫笔(四)
· 灯下漫笔(三)
· 灯下漫笔(二)
【财务自由】
· 推荐一种新的Medicare保险
· 通货膨胀率下降了, 要不要买I-债
· 亲历体验:人民币挑战美元的失败
· TIPS: 比I-债券更好的抗通胀投资
· 固定利率提高后的I-债券投资
· 美国I-Bond债券的投资策略
· 美国通货膨胀创新高,工薪族如何
· 夫妻合领社会保险金的最大化策略
· 个人退休账户IRA的分配和交税
· 谈谈老年健保Medicare中的坑
【吃的艺术】
· 会吃鱼的吃鱼头,鱼头要吃鳕鱼舌
· 香鲜色味俱全的红油辣酱
· 制作健康饮料Kefir的简易方法
· 吃的记忆:文革时代下馆子
· 一条改变世界的鱼:鳕鱼趣事
· 吃的记忆:文革时代下馆子
· 咸香酥脆的挪威果仁薄脆饼
· 五味夜话:海鲜吃的就是鲜字
· 吃的艺术和艺术的吃
· 域外美食-挪威炖羊肉和炖菜秘笈
【美国生活】
· 四年前旧作:卷土才俊在江东
· 用脚投票和用嘴投票
· 人生能几“日全食”?
· 最高法院的裁定不是亚裔的胜利
· 55小时大停电的劫后余生
【思维火花】
· 从古希腊智慧中汲取的生活艺术
【读书札记】
· 国家为何失败,中国制度是优势还
· 莱特湾海战: 英勇小兵拯救四星上
· 盎格鲁圈代表的是真正的西方文明
· 评《西方为何领先》, 兼谈东方为
· 第二次世界大战复盘:名将与昏招
· 愚蠢的国家战略是如何出笼的?
· 中俄列名政权杀人最多,对世界和
· 新基因研究颠覆了进步主义的平等
· 基因探密:我们是谁,从哪里来?
· 中文的突围,从打字机到人工智能
存档目录
11/01/2024 - 11/30/2024
10/01/2024 - 10/31/2024
09/01/2024 - 09/30/2024
08/01/2024 - 08/31/2024
07/01/2024 - 07/31/2024
06/01/2024 - 06/30/2024
05/01/2024 - 05/31/2024
04/01/2024 - 04/30/2024
03/01/2024 - 03/31/2024
02/01/2024 - 02/29/2024
12/01/2023 - 12/31/2023
11/01/2023 - 11/30/2023
09/01/2023 - 09/30/2023
08/01/2023 - 08/31/2023
07/01/2023 - 07/31/2023
06/01/2023 - 06/30/2023
05/01/2023 - 05/31/2023
04/01/2023 - 04/30/2023
03/01/2023 - 03/31/2023
02/01/2023 - 02/28/2023
01/01/2023 - 01/31/2023
12/01/2022 - 12/31/2022
11/01/2022 - 11/30/2022
10/01/2022 - 10/31/2022
09/01/2022 - 09/30/2022
08/01/2022 - 08/31/2022
07/01/2022 - 07/31/2022
06/01/2022 - 06/30/2022
05/01/2022 - 05/31/2022
04/01/2022 - 04/30/2022
03/01/2022 - 03/31/2022
02/01/2022 - 02/28/2022
01/01/2022 - 01/31/2022
12/01/2021 - 12/31/2021
11/01/2021 - 11/30/2021
10/01/2021 - 10/31/2021
09/01/2021 - 09/30/2021
08/01/2021 - 08/31/2021
07/01/2021 - 07/31/2021
06/01/2021 - 06/30/2021
05/01/2021 - 05/31/2021
04/01/2021 - 04/30/2021
03/01/2021 - 03/31/2021
02/01/2021 - 02/28/2021
01/01/2021 - 01/31/2021
12/01/2020 - 12/31/2020
11/01/2020 - 11/30/2020
10/01/2020 - 10/31/2020
09/01/2020 - 09/30/2020
08/01/2020 - 08/31/2020
07/01/2020 - 07/31/2020
06/01/2020 - 06/30/2020
05/01/2020 - 05/31/2020
04/01/2020 - 04/30/2020
03/01/2020 - 03/31/2020
02/01/2020 - 02/29/2020
01/01/2020 - 01/31/2020
12/01/2019 - 12/31/2019
11/01/2019 - 11/30/2019
10/01/2019 - 10/31/2019
09/01/2019 - 09/30/2019
08/01/2019 - 08/31/2019
07/01/2019 - 07/31/2019
06/01/2019 - 06/30/2019
05/01/2019 - 05/31/2019
09/01/2013 - 09/30/2013
发表评论
作者:
用户名: 密码: 您还不是博客/论坛用户?现在就注册!
     
评论:
中文的突围,从打字机到人工智能
   

中文的突围,从打字机到人工智能

读了被中国媒体大捧的《中文打字机》,比较失望。这本书的作者是斯坦福大学教授Thomas Mullaney(墨磊宁)。全书少学术,多历史,价值不高。仅仅是中文打字机的叙事史,缺乏深刻的洞察和分析。作者停留在基于政治正确的评价,用社会达尔文主义大帽子抨击一切对立主张,拒绝对文化优劣和对语言本质的评价。西方的一些学者喜欢站在两个文化的接缝上,左右逢源,投机取巧。

达尔文进化论的核心观点是物竞天择,适者生存。这个观点在社会学上,认为文化有优劣,落后的文化会被淘汰,并没有错。我们反对优生学和种族灭绝的同时,也不应该保护被进化淘汰的落后文化。而作者认为:“语言在表达人类思想的能力上是无差别的,至少每种语言都有能力或潜力来表达其使用者想要表达的东西”。不承认文化差别,不承认象形文字和字母文字的差别,会对文化和文明的发展存在影响,表明了作者的多元文化主义立场。

本书反映了一种矛盾心态。中国和世界接轨还是让世界适应中国。当中国不适应世界体系时,是改造中国,还是改造世界现有的体系。中国和外部世界总是格格不入。中国人永远处于接轨还是自成体系的矛盾中。如果中国不适应,就认为不是中国有问题,而是现有系统有问题,是伪普世。中国对世界不适应,就说世界对中国有围剿。我不能融入你,是你的问题。你要对我的不能融入负全责。谁叫你先发,我后发呢?

在计算机发明之前,发明和英文打字机等效的中文打字机是不可能的任务。或者是打字速度,或者是覆盖内容,或者是成本,或者是复杂性方面,中文打字机不能做到和英文打字机的等效。这是因为中文主要是表意的语素文字,相对于26个英文字母,基本汉字就有三四千。英文打字工作一般是秘书兼职,而中文打字员几乎都是专业的,因为后者对操作的技能有很高的要求,英文打字机很普及,能够便携,而中文打字机笨重,基层单位几乎没有。插队时,北京供电局是我们公社的厂社挂钩单位,供电局的一个姓吕的中文打字员派驻我们村。当时搞批林批孔运动,我被选到不脱产的公社理论队伍。县里交下任务,让写一篇《历史上劳动人民的反孔斗争》。要求两万字,一星期交稿。写完后,要打印上交到县里。公社没有中文打印机,吕师傅把我的文章带回单位打出来后,需要校对。我专门回到北京,住在前门附近的电力局招待所。那是我第一次看见中文打字机,庞大笨重,可以说是一台活字书写机器。我改了错字后,吕师傅在蜡纸打印稿用修改液涂抹掉错字,并在铅字盘添加了常用汉字之外的一些铅字,在打印机上修改。文革时,红卫兵组织林立,都搞宣传。主要的方式就是大字报和手工刻印的传单,很少人用中文打字机。那时写一手漂亮的毛笔字和钢笔字是很吃香的。

汉语和汉字不是一回事儿。在通过复合词造出新词、词序自由度高,语法简单等方面,汉语和英语相似,都发展比较成熟。这里主要比较书面汉语和字母文字。中国语言学家周有光认为文字有三个阶段:原始(形意)时期,古典(意音)时期和字母(表音)时期。汉字处于古典时期。文字的进化进程是:符形从图符到字符到字母,语段从语词到音节到音素,表达法从表形到表意到表音。汉字是当今世界上唯一的语素文字,一个活化石。

为什么中文没有向拼音文字转化?主要原因是:第一,汉字的发展历史短,汉字比楔形文字晚两千多年。当甲骨文出现时,地中海已经发展出字母文字;第二,秦始皇的大一统,书同文的结果是各种口语的人使用统一的文字,导致文字和口语分离。缺乏不同文字的交流和互相学习的环境,错失了向字母系统发展的机会;第三,汉字覆盖的方言太多,发音差别过大,向表音文字发展阻碍大;第四,底层文盲多,文字只是部分有闲阶层的需要。没有动力向简化发展。而拉丁字母的起源--腓尼基文字是商人们发明的,他们需要一种简化的符号记账和贸易,不可能去学习复杂的楔形文字;第五,古代汉语发展出很多优秀的文学作品,而这些文字遗产成为字母化的负担。因为字母化意味着断层;第六,汉语普通话410个音节,约1300多个读音。常用汉字有三四千个。造成同音多字,向表音文字进化比较困难。

中国的口语与书面语处于严重分裂状态;这种分裂影响了中国在逻辑、哲学、法律和科学等领域的发展和进步,仅有文学和书法不受影响,保持了畸形的繁荣。因为书写成本高,中文力求简约。与大多数字母文字相比,中文具有更强大的信息容量和压缩能力。同样的内容,汉语比英文要减少30%以上的页面。同时汉字数量庞大、笔画复杂、意音断裂、多音多意、语境微妙,使汉语成为世界上几乎最难以掌握的文字。至今偏远农村仍有很多人是文盲。大量中国人能识一些基本汉字,但不能阅读和写作,处于半文盲状态。语言是工具,中国人成长过程中,掌握工具的时间远远超过使用字母文字的人群,相对减少了学习知识的时间。

非拼音的汉字是至今中国的方言多且差异大的原因。由于字母文字的读音和口语是一致的,字母文字带动了统一方言的标准化;因此使用字母文字的民族和国家,口语基本上是统一的。日本和朝鲜使用了字母文字以后,口语基本上统一了。表音文字的蒙古文和满文促进了中国北方口语向北方官话统一;而用汉字的中国南方,方言多而差异大。

非字母的中文,在中国现代化进程中受到不断地挑战。打字机困境只是第一个,汉字由于在输入输出,编码和检索等方面,效率较字母文字明显低下,成为了教育及信息化上的瓶颈。幸亏后来有了计算机和汉字输入方法,解救了中文。虽说还有一些问题,但中文基本度过了第一个挑战。

人工智能可能是中文要面临的第二个现代化挑战。汉语的歧义多和高度依赖语感使计算机的语言识别和理解比字母文字更困难。中文没有大小写,单字间没有空格,不容易像英文一样区分单词,专有名词和缩写,容易产生歧义。比如“乒乓球拍卖完了”到底是“乒乓球拍”卖完了,还是“乒乓球”“拍卖”完了?下面几幅图是百度AI软件文心一言生成的图片,就是由于不能正确解析中文单词产生了歧义。当然这不是很难的问题,应该可以解决。还有许多类似的问题。这个实例是用来说明:许多在英文不是问题的问题,在中文就可能是问题,对人工智能提出了更高更难的要求。




图片来自网络


 
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2024. Creaders.NET. All Rights Reserved.