pigletfly
V2EX  ›  问与答

如何区分中国人名和日本人名?

  •  
  •   pigletfly · Jan 5, 2014 · 4172 views
    This topic created in 4540 days ago, the information mentioned may be changed or developed.
    日本人名已经翻译为中文,如:筱原尚人,木村哲郎.试了下结巴分词,不是太好,有遇到类似需求的没,有什么好的思路可以尝试
    9 replies    1970-01-01 08:00:00 +08:00
    binux
        1
    binux  
       Jan 5, 2014   ❤️ 1
    1、字数
    2、姓 出现概率
    3、名 出现概率
    4、从日本人名如何翻译的入手
    sinxccc
        2
    sinxccc  
       Jan 5, 2014
    先弄个常见中国姓氏表和常见日本姓氏(苗字)表吧,应该足够应付大多数情况了。
    FrankFang128
        3
    FrankFang128  
       Jan 5, 2014 via Android
    百家姓加字数,就够了吧
    efi
        4
    efi  
       Jan 5, 2014
    是不是可以不经过样本训练,直接从统计数据构造一个bayes分类器
    lsj5031
        5
    lsj5031  
       Jan 5, 2014
    也很难的吧……

    比如 林 秀贞, 宗 义智之类的……

    精确度要求不算太高的话楼上的办法挺好
    Semidio
        6
    Semidio  
       Jan 5, 2014
    说实话这个只能手动区分,事实上即使手动很多不查具体资料也区分不出来。
    比如: 林未纪,江守彻这些名字即使在中文中也没有任何维和。
    msg7086
        7
    msg7086  
       Jan 5, 2014
    其实还有很多是韩文汉字……
    frittle
        8
    frittle  
       Jan 5, 2014
    如果日本姓名是用日文输入法输入的,而中国姓名是用简体字输入的话,很多姓名可以用汉字区分。含有有繁体字或日本汉字(异体字)的姓名、或含有名字重字时使用的「々」字,就肯定是日本名字了。

    中国现在已经出现越来越多奇葩的自创复姓(例如爹的单姓+娘的单姓,这种我还可以理解,还有一些乱七八糟的),会增加机器区分的难度。
    ling0322
        9
    ling0322  
       Jan 5, 2014
    使用一个最大熵模型就可以了哦,特征选取
    B 名字的第一个字
    B1 名字的第二个字
    E1 名字的倒数第二个字
    E 名字的倒数第一个字
    M 名字的其他的字
    L 名字的长度
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5508 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 106ms · UTC 07:37 · PVG 15:37 · LAX 00:37 · JFK 03:37
    ♥ Do have faith in what you're doing.