中文分词组件免费版

[ 2005-07-06 02:29:33 | 作者: yuhen ]
字号: | |
=============================================
Rainsoft Word Segment for Microsoft .NET 1.1
Copyright (c) RainTrail Studio. China
All Rights Reserved! 2000 - 2005
http://www.rainsts.net
Support: qyuhen@hotmail.com
=============================================

中英文分词组件。完全C#托管代码编写,独立开发。

技术特点
=========

1. 识别率接近90%。

虽然和专业分词系统相比有一定的差距,但对于搜索引擎等小型分词需求而言足够了。

2. 多元歧义自动识别。

对于前后歧义有较好的识别效果。
如:
长春市长春节致词 -- 长春/市长/春节/致词/
长春市长春药店 -- 长春市/长春/药店

3. 常用及敏感词过滤功能。

通过一个简单的属性设置就可以完成针对常用词、标点和敏感词汇的过滤。系统内置了常用无意字词和标点的过滤。当然针对文章等分词时可以屏蔽过滤功能。

4. 控制符过滤功能。

可以设置属性值,在分词结果中保留回车换行等控制字符,从而保留原来的显示结构。

5. 内置10万多条基本词库。

系统内置包含10万多条优选词汇的基本词库,并提供编程接口任意扩充。

6. 全角字符识别能力。

如:IBM和HP都是世界级的PC制造商。-- IBM/和/HP/都/是/世界级/的/PC/制造商/。

7. 轻量级的分词组件,仅1个DLL文件,无需安装注册,发布简便。

代码演示
=========
using Rainsoft.WordSeg;

WordSegV1 seg = new WordSegV1();
string s = seg.Segment("长春市长春节致词" , '/');
Console.WriteLine(s);

相关问题
=========

1. 为什么我创建分词对象会出错?

须安装 Microsoft .NET Framework 1.1 Service Pack 1,否则将出错。
http://www.microsoft.com/downloads/details.aspx?FamilyID=a8f5654f-088e-40b2-bbdb-a83353618b38&DisplayLang=zh-cn

2. 为什么第一次分词时比较慢?

在第一次创建分词对象时,需要花7~15秒左右将数据载入内存。

3. 为什么我创建的自定义分词会丢失?

您必须调用 seg.Words.Save() 方法保存。如果一次添加多个分词,只需在最后调用一次保存方法。

4. 这个组件适合什么样的应用?

这只是个轻量级的组件,和专业分词系统相比,功能和准确性都不是很完善,建议用于搜索引擎等
需要简单分词应用的环境。

5. 免费版有什么限制?

免费版具备所有基本功能,但分词算法和分词库无法定制,而且不提供升级和技术支持服务。另外,
仅供个人免费试用,不要应用于商业环境。

下载分词演示程序
下载免费分词组件

附:V2 版已完成。
下载 V2 演示程序 (RAR, 1.04MB, Microsoft .NET Framework 2.0)

---------------

V3 免费版已经发布。下载
[最后修改由 yuhen, 于 2007-08-23 15:16:13]
评论Feed 评论Feed: http://www.rainsts.net/feed.asp?q=comment&id=48

浏览模式: 显示全部 | 评论: 29 | 引用: 0 | 排序 | 浏览: 167910
引用 yuhen
[ 2005-07-05 14:40:17 ]
过段时间会推出最新的专业版本,不过不是免费的。
[最后修改由 yuhen, 于 2005-07-05 14:40:39]
引用 lIOn*
[ 2005-07-05 20:18:21 ]
可以给专业版本我用一下吗?
引用 yuhen
[ 2005-07-05 21:21:04 ]
我正在开发V2版分词算法,可能还要一段时间。不过这个免费版的功能已经和某些出售的同类软件差不多了。你可以比较一下分词速度和准确性。
引用 yuhen
[ 2005-07-05 21:25:20 ]
专业版计划支持繁体分词。呵呵
另外再增加更多和分词应用相关的功能,比如拼音输出、词性标记和拼写检查等。
引用 lIOn*
[ 2005-07-05 23:05:09 ]
支持~~~
引用 green*
[ 2005-07-07 14:31:16 ]
[razz] [redface] [redface] 我做的搜索引擎用免费版吧,加上你的版权~haha,不给我回信就算你同意了,clwgh@slof.com ,,,www.boy169.com
[最后修改由 green, 于 2005-07-07 14:32:16]
引用 yuhen
[ 2005-07-07 17:23:16 ]
[smile]
引用 lIOn*
[ 2005-07-10 11:52:19 ]
为什么我输入“doc?ment”时,它会将“doc?ment”分为“doc”和“ment” 那么是否会与dotlucene的高级搜索有冲突?谢谢
引用 yuhen
[ 2005-07-11 01:04:10 ]
因为在英文语法习惯中,"*" 和 "?" 作为标点符号,和空格一样是作为分词标志的。
你可以在分词前,用 "@"、"."、"_"、"%" 这些连词符号Replace "*" "?",分完以后替换回来。

我会在下一个版本中改进对于英文特殊书写习惯的处理。
[最后修改由 yuhen, 于 2005-07-11 01:06:53]
引用 dcding*
[ 2005-08-01 23:08:50 ]
不知道你这个中文分词的速度如何?
我也写了个中文分词小程序,准确率还可以,效率不是很高--由于不是采用的匹配法。
地址: http://toptea.org/cs/blogs/dcding/archive/2005/07/25/44.aspx
主要特性:
1.采用了非匹配方式进行分词,所以天生具有很高的准确率和召回率;

2.采用了多种方式的消歧方式;

3.支持输出结果词性标注;

4.对中文姓名支持自动识别(仅限双字和三字词);

5.支持中英数字混合分词(包括中文数字,比如 三十三;

6.当然支持全角和半角了。

有兴趣的朋友看看。
引用 yuhen
[ 2005-08-02 07:20:15 ]
引用至 dcding
不知道你这个中文分词的速度如何?
我也写了个中文分词小程序,准确率还可以,效率不是很高--由于不是采用的匹配法。
地址:
http://toptea.org/cs/blogs/dcding/archive/2005/07/25/44.aspx
主要特性:
1.采用了非匹配方式进行分词,所以天生具有很高的准确率和召回率;
2.采用了多种方式的消歧方式;
3.支持输出结果词性标注;
4.对中文姓名支持自动识别(仅限双字和三字词);
5.支持中英数字混合分词(包括中文数字,比如 三十三;
6.当然支持全角和半角了。
有兴趣的朋友看看。
我试了一下您的分词,做得不错。 [smile] 准确性可能还要进一步提高。 [smile]
[最后修改由 yuhen, 于 2005-08-02 07:25:41]
引用 wotihuang*
[ 2005-08-15 21:06:30 ]
我下载了试用版的,但不知道vb.net 如何来调用这个组件呢?
引用 wuweiwei*
[ 2005-09-13 13:20:05 ]
引用至 dcding
不知道你这个中文分词的速度如何?
我也写了个中文分词小程序,准确率还可以,效率不是很高--由于不是采用的匹配法。
地址:
http://toptea.org/cs/blogs/dcding/archive/2005/07/25/44.aspx
主要特性:
1.采用了非匹配方式进行分词,所以天生具有很高的准确率和召回率;
2.采用了多种方式的消歧方式;
3.支持输出结果词性标注;
4.对中文姓名支持自动识别(仅限双字和三字词);
5.支持中英数字混合分词(包括中文数字,比如 三十三;
6.当然支持全角和半角了。
有兴趣的朋友看看。
引用 wuweiwei*
[ 2005-09-13 13:20:41 ]
能给dll研究研究吗?
wuwei8896@163.com
引用 懒狗*
[ 2005-12-03 17:24:33 ]
可以开源吗

lbsfans@msn.com
引用 coco33*
[ 2006-02-28 14:45:01 ]
我刚路过就随便来瞧瞧。。__不错,谢谢分享!
引用 coco33*
[ 2006-02-28 14:51:28 ]
我刚路过就随便来瞧瞧。。__不错,谢谢分享!
引用 西湖书生*
[ 2006-04-17 22:15:57 ]
能简单介绍一下采用的算法吗?
不胜感激~!
引用 流浪随风*
[ 2006-08-02 15:55:04 ]
我用的时候为什么报错呢?
System.Xml.XmlException: 根级别上的数据无效

环境:window2003+.net frames 1.1.4322
引用 yuhen
[ 2006-08-02 16:48:26 ]
引用至 流浪随风
我用的时候为什么报错呢?
System.Xml.XmlException: 根级别上的数据无效
环境:window2003+.net frames 1.1.4322
安装 .net framework 1.1 sp1。
引用 guest0087878*
[ 2006-09-01 14:38:35 ]
这样的分词还有问题:

“把手”,“这个门的把手坏了好几天了”
“请把手抬高一点儿”

用本组件分词的结果:
这个/ 门/ 的/ 把手/ 坏/ 了/ 好几/ 天/ 了/ ,/
请/ 把手/ 抬高/ 一点儿/ 。
引用 ggg*
[ 2006-09-12 22:10:04 ]
访问被拒绝:“Rainsoft.WordSeg”。
说明: 执行当前 Web 请求期间,出现未处理的异常。请检查堆栈跟踪信息,以了解有关该错误以及代码中导致错误的出处的详细信息。

异常详细信息: System.IO.FileLoadException: 访问被拒绝:“Rainsoft.WordSeg”。

为什么会出现这种情况
引用 yuhen
[ 2006-09-13 01:07:15 ]
引用至 ggg
访问被拒绝:“Rainsoft.WordSeg”。
说明: 执行当前 Web 请求期间,出现未处理的异常。请检查堆栈跟踪信息,以了解有关该错误以及代码中导致错误的出处的详细信息。
异常详细信息: System.IO.FileLoadException: 访问被拒绝:“Rainsoft.WordSeg”。
为什么会出现这种情况
你最好给出详细调用信息。
引用 ggg*
[ 2006-09-13 07:38:18 ]
using Rainsoft.WordSeg;

WordSegV1 seg = new WordSegV1();
string s = seg.Segment("长春市长春节致词" , '/');
Response.Write(s);

就这样调用的.我用在WEB项目中.
引用 yuhen
[ 2006-09-13 07:53:06 ]
引用至 ggg
using Rainsoft.WordSeg;
WordSegV1 seg = new WordSegV1();
string s = seg.Segment("长春市长春节致词" , '/');
Response.Write(s);
就这样调用的.我用在WEB项目中.
或许跟你的访问权限设置有关。
引用 ggg*
[ 2006-09-13 08:22:37 ]
当我把系统重新启动后又可以了.不过我在把项目编译后上传到服务器又出现了访问被拒绝:“Rainsoft.WordSeg”。这样的错误
引用 yuhen
[ 2006-09-13 08:59:04 ]
引用至 ggg
当我把系统重新启动后又可以了.不过我在把项目编译后上传到服务器又出现了访问被拒绝:“Rainsoft.WordSeg”。这样的错误
我没有遇到这个问题,由于没有现场调试信息,很难判断。你换其他机器试试看,然后检查一下权限设置有什么不同。
[最后修改由 yuhen, 于 2006-09-13 08:59:39]
引用 lieying*
[ 2007-09-11 19:15:02 ]
lieying2911@126.com
谢了!
引用 434*
[ 2007-11-08 21:05:00 ]
ew

发表评论
表情图标
[smile] [confused] [cool] [cry]
[eek] [angry] [wink] [sweat]
[lol] [stun] [razz] [redface]
[rolleyes] [sad] [yes] [no]
[heart] [star] [music] [idea]
UBB代码
转换链接
表情图标
悄悄话
用户名:   密码:  
验证码 * 请输入验证码