Merge pull request #116 from Laga/master
authorSteven Tobin <redacted>
Thu, 17 Dec 2020 22:48:38 +0000 (22:48 +0000)
committerGitHub <redacted>
Thu, 17 Dec 2020 22:48:38 +0000 (22:48 +0000)
Add second, more extensive German wordlist

1  2 
README.rst

diff --cc README.rst
index 5b11f3181d134038211fbff14ef579076585e4c8,161caa602b1a60c04ef6c9366a122775b45e1298..4490fc62dc0b73b5b38340d2f2276486eeacbe2e
@@@ -134,9 -134,10 +134,10 @@@ Additional language
  - Spanish: a modifed version of archive.umich.edu in the `/linguistics` directory. It includes ~80k words. Less than 5 char. and latin-like words were deleted using regex. This list is public domain, see `here <http://www.umich.edu/~archive/linguistics/00readme.txt>`_.
  - Finnish: a modified version of the Institute for the Languages of Finland `XML word list <http://kaino.kotus.fi/sanat/nykysuomi/>`_. Profanities and expressions containing spaces were removed using regex. The resulting list contains ~93k words. The list is published under GNU LGPL, EUPL 1.1 and CC-BY 3.0 licenses.
  - Italian: generated from dumps of the Italian-language Wikipedia, which is released under the Creative Commons Attribution-Share-Alike 3.0 licence.
- - German: based on `this GPL v3 list <https://github.com/dassencio/langcmp/blob/master/wordlists/top10000de.txt>`_. Single and double character words have been removed.
+ - German (ger-anlx): based on `this GPL v3 list <https://github.com/dassencio/langcmp/blob/master/wordlists/top10000de.txt>`_. Single and double character words have been removed.
+ - German (eff_large_de.wordlist): based on `this public domain dictionary <https://sourceforge.net/projects/germandict/>`_. Converted to UTF-8. 
  - Norwegian: a modified version of `Norsk Ordbank in Norwegian BokmÃ¥l 2005 <https://www.nb.no/sprakbanken/show?serial=oai%3Anb.no%3Asbr-5&lang=en>`_, 2018-06-28 update, which is released under the `CC-BY 4.0 license <https://creativecommons.org/licenses/by/4.0/>`_. Regex has been used to alter the list for cleanup and removal of words with impractical characters. The resulting list contains ~137k words.
 -- French: Cleaned version of `this list <https://packetstormsecurity.com/files/download/32007/french.gz>`_. Public domain.
 +- French: One cleaned version of `this list <https://packetstormsecurity.com/files/download/32007/french.gz>`_ (public domain), and one filtered to remove potentially offensive words.
  - Portuguese: Converted variant of the LibreOffice / Firefox poturguese dictionary (from `this link <https://raw.githubusercontent.com/titoBouzout/Dictionaries/master/Portuguese%20(European).dic>`_. GPL and BSD licenced.
  
  Additional language word lists are always welcome!
git clone https://git.99rst.org/PROJECT