維基百科:標註/revscoring doc
外觀
可見https://github.com/wikimedia/revscoring/blob/master/revscoring/languages/english.py
基於python的正則規則,準備用於Special:最近更改內破壞傾向和質量評判過濾器,效果見en:Special:RecentChanges。注意:r
表示不轉義,可能用到的元字符為*+?[]()
。
本頁面內的所有規則均為手動製造,來源為以下列出的文章和之前機器學習的數據。目前,規則尚未被使用,您可以自行補充或修改以下規則,可能需要簡單學習使用正則表達式,或將要添加的內容簡單描述並註釋。
(In a nutshell, ENG) These rules are made by humans, not robots.
參見:
- WP:AVOID
- WP:AWW
- WP:APT 格式手冊的一部分
- 查看這些模板的鏈入頁面 Special:鏈入頁面/Template:Advert Special:鏈入頁面/Template:who Special:鏈入頁面/Template:which Special:鏈入頁面/Template:fact 等。
目前的問題:
- 簡體與繁體轉換是否需要?
badword_regexes
[編輯]不應出現的詞語,可以是髒話或明顯破壞
# r"" # English r"[fF]uck", # r"妈屄", r"妈逼", # 宣传与广告 r"本台", r"本公司", r"代[刷练抢]", r"强势回归", r"超值", r"一条龙", r"一夜情", r"(世界|国际)一流", r"用户(第一|满意|至上)", r"核心(价值|团队|宗旨)", r"服务(小姐|范围|项目|理念)", r"时彩", r"总代理", r"[偷盗破窃][qQσ扣]", # 仍可扩充 # 歧视 r"小日本", r"台湾狗", r"五毛", r"共产中国", r"流氓国家", r"支那", r"人渣", r"我去", # 翻译与文言 r"提出的在", r"据报", r"曰",
informal_regexes
[編輯]不應出現在條目,但在討論中經常出現的詞語
# r"", r"互煮", r"23+", r"em+", r"谢谢", r"提删", r"求助",
words_to_watch_regexes
[編輯]需要關注的詞語,可能是違反方針指引或用語過於主觀
# r"", # 地域中心 r"[我外]国", r"[本外][港地]", r"当局", # 时间 r"最近", r"[今去前昨上近]几?个?[天日周月年]", r"过去.*[天周月年]", r"刚+", r"刚才", r"一会儿", # 情绪化 r"强烈", r"只不过", r"只是", r"就算", r"尽管如此", r"[实本]质[上地]", r"基本[上地]", r"显然", r"显而易见", r"可笑", r"指出", r"有感", # 主客体模糊 r"专家", r"(部分|一些|许多|少部分)(人|学者|声音)", r"(有些|一些|局部|大部分|少部分)(国家|地区|省份|州)", # 华而不实 r"最(重要|关键|特别|好|坏|完美|出色|突出)", r"最.*影响力", r"荣获", r"[高多低]达", r"据.*称", # 破坏嫌疑 r"官方网[址站]",