Follow

昨天晚上激情写了个小程序,读取原版小说文本,用nltk库找到原词(去复数和时态),统计词频。把特别高频肯定认识的词干掉,把只出现过一次的词也干掉。再和美国当代英语语料库COCA的20000常用词比对,基本上一本小说只剩下不到1000的生词。

把这个词表导入欧陆的生词本稍微扫一遍,可以极大提升阅读原版小说时的体验。

@yun5s 非常实用了!感觉可以发家致富

Sign in to participate in the conversation
驴肉火烧Mastodon

1. 驴肉火烧是一个开放的长毛象(Mastodon)实例,在法律允许的前提下保证言论自由。 2. 驴肉火烧的服务器位于德国,站长定居加拿大,站长保证不会主动泄露大家数据,但来自某些地区的象友请务必注意隐私保护。 3. 申请时会默认关注管理员,注册成功后可取消关注。 4. 请勿使用网易系邮箱注册,注册后14天内无任何操作(发嘟、换头像或关注)的账号将被删除。