Python-pinyin

Latest version: v0.1.0

Safety actively analyzes 630305 Python packages for vulnerabilities to keep your Python projects secure.

Scan your dependencies

Page 7 of 17

0.26.0

+++++++++++++++++++++++

* **[Changed]** 不再自动调用 jieba 分词模块,改为自动调用内置的最大匹配分词模块来分词。
(via `102`_)

0.25.0

+++++++++++++++++++++++

* **[New]** 内置一个最大匹配分词模块,使用内置的词语拼音库来训练这个分词模块,
解决自定义词语库有时可能不生效的问题(因为这个词语在 jieba 等分词模块中不是可用词)。(via `81`_)


获取拼音或自定义词库后使用:

.. code-block:: python

>>> from pypinyin import pinyin, load_phrases_dict
>>> load_phrases_dict({'了局': [['liǎo'], ['jú']]})
>>> pinyin('了局啊') 使用 jieba 分词
Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/s6/z9r_07h53pj_d4x7qjszwmbw0000gn/T/jieba.cache
Loading model cost 1.175 seconds.
Prefix dict has been built succesfully.
[['le'], ['jú'], ['a']]

>>> from pypinyin.contrib.mmseg import seg, retrain
>>> retrain(seg) 没有使用 load_phrases_dict 时可以不调用这个函数
>>> pinyin(seg.cut('了局啊')) 使用内置的最大匹配分词
[['liǎo'], ['jú'], ['a']]
>>>

单独使用:

.. code-block:: python

>>> from pypinyin.contrib.mmseg import seg
>>> text = '你好,我是中国人,我爱我的祖国'
>>> seg.cut(text)
<generator object Seg.cut at 0x10b2df2b0>
>>> list(seg.cut(text))
['你好', ',', '我', '是', '中国人', ',', '我', '爱',
'我的', '祖', '国']
>>> seg.train(['祖国', '我是'])
>>> list(seg.cut(text))
['你好', ',', '我是', '中国人', ',', '我', '爱',
'我的', '祖国']
>>>

0.24.0

++++++++++++++++++++++++

* **[New]** 支持类似 pyinstaller 的打包工具对使用 pypinyin 的程序进行打包,
不会出现跟打包前不一样的输出(比如: `92`_ )(via `93`_ )。

0.23.0

++++++++++++++++++++++++

* **[New]** 使用 `phrase-pinyin-data`_ v0.5.0 的词语拼音数据。

0.22.0

++++++++++++++++++++++++

* **[New]** 支持 IronPython (via `86`_). Thanks `LevyLession`_

0.21.1

++++++++++++++++++++++++

* **[Bugfixed]** 修复在 Python 2 下通过 pip install 安装 wheel 格式的安装包后, 无法正常使用的问题。(Python 2 下没有自动安装依赖包)

Page 7 of 17

© 2024 Safety CLI Cybersecurity Inc. All Rights Reserved.