预警,看这个答案之前,狗哥提醒各位把眼镜片擦干净一点,不然很容易怀疑自己眼睛有问题。
我们先来看看入门程度的相似汉字,告诉你什么叫「傻傻分不清楚」。
【难度 ★★★】
【姬】读音为jī,一般指古代对妇女的美称,也指旧时以歌舞为业的女子,还是一个姓,如我们都熟悉的「姬无命」。
【姫】读音为zhěn,谨慎的意思,右边是「臣」字。
这两个字放在一起比较,还是能看出区别的。但若只出现右边的「姫」字,怕是有许多人要误念成「jī」了。
【采】读音为cǎi,摘取的意思。
【釆】读音为biàn,是「辨」的古字,看起来像兽爪,义为辨别。
这两字不同的地方就是,「釆」字「撇」下面就是「米」,而「采」是由「爫」和「木」组成,放大后很容易区别,而印刷体的区分就较为困难了。
【壸】读音为kǔn,指古代宫中的道路,借指宫内,也有广的意思。
【壶】读音为hú,一般指陶瓷或金属制成的一种有把有嘴的器具,通常用来盛茶、酒等液体。
两字的区别就是一横,「壸」字下是「亚」,「壶」字下是「业」,总体而言区分不算太难。
【垚】读音为yáo,形容山高 ,多用于人名。
【壵】读音为zhuàng,是「壮」的繁体字。
这两字的区别就在于是三个「土」堆起的高山,还是三个「士」叠成的壮汉了,基本上还算一般难度。
接下来,难度升级!瞧瞧什么叫「不傻也分不清楚」。
【难度 ★★★★】
乍一看,不就是妹妹这个词吗?
错!
【妹】读音为mèi,多指比自己年纪小的女子。
【妺】读音为mò,一般指妺喜,传说中国夏王桀的妃子,用于人名。
「妹」字右边是「未」,「妺」字右边是「末」,有多少人曾经读错「妺喜」?请大胆站出来!
恕我直言,右边这字像编的,然而并不是。
【夂】读音为zhōng时,同「终」;读音为zhǐ时,表从后至。
【夊】读音为suī,古同「绥绥」,慢慢行走的样子。
呵,怕了吗。
【裏】,读音为lǐ,部首是衣,是「里」的繁体字。
【裹】读音为guǒ,包、缠绕的意思。
「裏」字中间是「里」,「裹」字中间是「果」,两字都属于形声字的范畴,都是从「衣」形,然后各有各的声。
【币】读音为bì,形声字。从巾,敝声,从巾表示与布帛有关。本义是古人用作礼物的丝织品,现指钱币,交换各种商品的媒介。
【帀】读音为zā,同匝,指环绕一周。
其实区别就在于,巾上到底是一撇还是一横。
【畲】读音为shē,畲族是我国少数民族,主要分布于福建省、浙江省。「畲」字还有火耕地的意思,指粗放耕种的田地。
【畬】读音也为shē,指刀耕火种。古同「畲」,也可以作为姓氏。
读音相同,意义区别不大,一个是「佘」字头,一个是「余」字头。
接下来,是「反正我不仅分不清楚,也写不清楚」系列。
【难度 ★★★★★】
【汆】读音为cuān,是一种烹饪方法,把食物放到沸水中煮一下,随即取出。
【氽】读音为tǔn,意思是漂浮,一般在用在方言里。
「入」字头和「人」字头的区别。
【胄】读音为 zhòu,是一个「由」字下加一个「月」字组合而成,指的是帝王或者贵族的后裔。
【冑】的读音也是 zhòu,它是一个「由」字下面加一个「冃」(mào)字组合而成,指的是古代兵士作战时所戴的帽子,即头盔。
这两个字读音相同,感觉就是其中一个长得胖一点吧。
【口】读音为kǒu ,人和动物吃东西和发声的器官,也指出入通过的地方。
【囗】读wéi的时候,古同「围」;读guó的时候,古同「国」。
可能就是一个大框框和小框框的区别吧。
给你一个苦笑自己体会。
顺便问问,现在下班去挂眼科还来得及吗?
壸壶 鍚錫 冑胄 杮柿
我去年没事干干过这个, 计算字体聚类.
㬺幐(U+3B3A, U+5E50) 墫壿(U+58AB, U+58FF) 鬬鬭(U+9B2C, U+9B2D) 晚晩(U+665A, U+6669) 凉凉(U+51C9, U+F979) 我以后也要用这个词.
先随手创建一个文件夹, 然后新建一个notebook.
选择CJK区 "㐀(U+3400)" 到" 龥(U+9FA5)"共27558个字.
有汉字有繁体字, 可能有异体字, 这个范围应该没有日语字...
字号25号, 字体使用混合字体 YaHei Consolas Hybrid, 对中文来说就是微软雅黑
all = StringPartition [ FromCharacterCode [ Range @@ ToCharacterCode [ "㐀龥" ]], 1 ]; toImg = Rasterize @ Style [ # , FontSize -> 25 , FontFamily -> "YaHei Consolas Hybrid" ] & ;
然后用异步渲染把字都渲染出来.
并行策略选择了 Coarsest Grained, 适用于每个单元执行时间相近的情况.
虽然我也不知道并行快还是不并行快......
但是这样写就算内核突然崩溃了下次不用从头跑, 比较安全...
$ now = Now $ here = DirectoryName @ NotebookFileName []; Exporter [ num_ ] := Block [ { name = $ here <> ToString @ num <> ".png" }, If [ FileExistsQ @ name , Return []]; Export [ name , toImg @ FromCharacterCode [ num ]] ]; ParallelMap [ Exporter , Range @@ ToCharacterCode [ "㐀龥" ], Method -> "CoarsestGrained" ]; Now - $ now
然后去上课, 上完课回来肯定就好了
渲染完洗一下内存, 再全部读进来, 关了重开也行...
然后随手选个聚类算法呗, 参数靠魔法...
瞎算了几次, 发现一个比较稳的方法.
可以分批次训练, 每批2000个字,聚类半径设为10.
一起跑实在太慢了, 然后考虑到制字表的时候也是相似的字放在一起的, 应该不会出现大问题...
或者可以用快速聚类, 大约1分钟, 进行一个初步的空白区域大小划分.
然后再细致的对划分二次聚类, 毕竟聚类这个复杂度是超线性的, 划分一下虽然要算多算一次, 但还是有加速效果的...
$ now = Now $ here = DirectoryName @ NotebookFileName []; all = Association [ # -> Import [ # ] &/@ FileNames [ "*.png" , $ here ]]; pat = Select [ FindClusters [ all , Method -> { "NeighborhoodContraction" , "NeighborhoodRadius" -> 10 }], Length @ # > 1 & ]; try1 = Select [ FindClusters [ Association [ # ], Method -> { "NeighborhoodContraction" , "NeighborhoodRadius" -> 10 }], Length @ # > 1 & ] &/@ Map [ # -> all [ # ] & , pat ,{ 2 }]; DeleteDuplicates /@ Map [ all , Flatten [ try1 , 1 ],{ 2 }] Now - $ now
然后去上另一节课, 上完差不多就能出图了, like this!
效果不够好, 基本上都是偏旁不同, 那就三次聚类呗, 现在已经只有1690个字了....
try2 = Select [ FindClusters [ Association [ Map [ # -> all [ # ] & , Flatten [ try1 ]]], Method -> { "NeighborhoodContraction" , "NeighborhoodRadius" -> 4 }], Length @ # > 1 & ]; Map [ all , try2 , { 2 }]
缺字会被垒到一起, 很迷, 还有就是异体字太多
我本来是想用机械智障造字....
构造一个GAN, 生产者生产随机像素, 监督者来判别这个字存不存在...
然而...好像效果不咋的, 都没法通过我这个人的图灵测试, 毕竟.......
有噪点的都是新造的字啊....GG
并不是太难区分。
但我就是看了半天愣没看出来,还以为zealer中国自己举报自己……
賣(mài,卖)和賣(yù,卖【在偏旁中】)字。
大家在小时候学习认字的时候,有没有觉得“读”“续”“渎”这些字很奇怪?
它们看上去像是形声字,可是它们的声旁却是“卖”字,和这些字的读音怎么也不像啊?即使是发音演变,也不可能差这么多啊?
事实上,“賣”字在古代有两个读音,它们分别来自两种不同的字源。
读mài的字,来自“出”+“买”,是个形声兼会意字。
读yù的字,来自“坴”+“贝”,为形声字,前者是“睦”的右半边。查阅维基字典知,这个字同“鬻”,意思也是“卖出”,长得也很像“賣”,因此在演变过程中,自然而然地会受到“賣”字的影响,上半部分逐渐类化成了“士”+“四”,遂即与“賣”字趋近相同。
一些字读音似“賣(yù)”的,用它标注了声旁,如“續”“讀”等,在简化过程中被视作“賣(mài)”,类推简化为“卖”,从而有了今天看到的样子。
“賣(mài)”字和“賣(yù)”字在某些字体中显示的完全一样,在某些字体中能发现区别,在于中间部分是“罒”字还是“ ”字。
另外,有些汉字因为字义相近且字形相差不大,而逐渐类化为同一字的情形很多。
相关链接:
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有