?classifier
classifier發(fā)音
英:[?kl?s?fa??(r)] 美:[?kl?s??fa??]
英: 美:
classifier中文意思翻譯
n. 分級器;分選工;[語]量詞
classifier常見例句
1 、CBIR (Content-based Image Retrieval),Relevance Feedback,Model of Image Retrieval,Vision Feature,Bayesian Classifier,Sematic NetWork,Query Interface,Retrieval Engine.───01基于內(nèi)容圖像檢索,相關(guān)反饋,圖像檢索模型,視覺特征,貝葉斯分類器,語義網(wǎng)絡(luò),查詢接口,檢索引擎
2 、The result of experiment indicates that it is an effective way to realize a text classifier with the combination of corr...───實驗結(jié)果表明,通過結(jié)合相關(guān)系數(shù)法、覆蓋算法以及維數(shù)調(diào)節(jié)方法,可實現(xiàn)一個效果較好的文本分類器。
3 、The character只 in the function of a classifier looks like a bird in the grasp of a hand.───在甲骨文、金文和小篆中,均象是用手抓住一只小鳥,其本意一只鳥。
4 、With an Euclidean distance based classifier,each nonoverlapping window of the texture image is then assigned to its corresponding category.───利用基于歐幾里得距離的分類器,每個紋理圖像不相重疊的圖像窗被確定到屬于它的那一類。
5 、In UML 2 the subsystem classifier is a specialized version of a component classifier.───在UML 2中,子系統(tǒng)分類器是組件分類器的一個特別版本。
6 、The results indicate that it can achieve over 98% accuracy on per-flow classification with the SVM classifier.───實驗結(jié)果表明支持向量機分類器可以達到98%以上的流分類準(zhǔn)確率。
7 、In expressions, the rhetoric of hue stresses on appropriateness; the rhetoric of classifier measure word on selectiion and the rhetoric of punctuation marks on properness.───在言語表達中,色彩修辭重在得體,量詞修辭重在選擇,而標(biāo)點符號修辭則重在適宜。
8 、It's complicated. I... I mean, it's classified.─── 很復(fù)雜 我是說 這是保密信息
9 、FMM neural network is chosen as the classifier with modified training algorithm.───對5種噴氣飛機模型的識別結(jié)果表明,該算法具有較高的正確識別率。
10 、What are Learning Classifier Systems?───什麼是分類元系統(tǒng)?
11 、One-class classifier with negatives is based on one-classifier,by leading into a few costful abnormal samples to reinforce the classification.───帶野值的單類分類器是在單類分類器的基礎(chǔ)上,通過引入少量珍貴的異常樣本(野值),以加強分類器的性能。
12 、Based on Bayesian optimal classifier, combining with rough set and fuzzy set, a new transformer fault diagnosis and maintenance mode is presented in the paper.───基于粗糙集、模糊集和貝葉斯最優(yōu)分類器,提出一種變壓器絕緣故障診斷與維護的綜合決策模型。
13 、And I told you they were classified.─── 我告訴過你這些文件都是保密的
14 、Dispersion is a premium condition that actualizes ideal classification because the material must be dispersed completely before they enter the classifier.───分散是分離的前提條件,進入分級機的粉體必須充分分散;
15 、Classifier networks are becoming the basis of machine vision systems.───分類器網(wǎng)路正成為機器視覺系統(tǒng)的基礎(chǔ)。
16 、An adaptive wavelet network classifier for vibration fault diagnosis of steam turbine-generation is proposed based on theory of adap tive wavelet network (AWN).───基于自適應(yīng)小波網(wǎng)絡(luò)理論,構(gòu)造了一個應(yīng)用于汽輪發(fā)電機組振動故障診斷與識別的自適應(yīng)小波網(wǎng)絡(luò)分類器。
17 、According to MOR,they were tested using 10-fold cross validation with two real world data sets,and compared with Bayesian network classifier based on MPE.───在兩個真實數(shù)據(jù)集上以MOR用10層交叉驗證對貝葉斯網(wǎng)絡(luò)信用評估模型進行了測試,并與最小錯誤概率準(zhǔn)則MPE的貝葉斯網(wǎng)絡(luò)分類器的結(jié)果進行了對比。
18 、This thesis tries to apply new techniques of multiple classifier fusion to the area of identification of the marrow cells, and make efforts to meliora.───因此,本課題將模式識別領(lǐng)域中新發(fā)展起來的多分類器融合技術(shù)應(yīng)用到骨髓細胞的分類識別中,并在融合理論的改善上作了一些探索性的研究。
19 、In the related resources section, there are links that can be explored for a deeper understanding of these types of classifier networks.───在相關(guān)資源區(qū)里,有一些連結(jié)可以幫助各位更了解這些類型的分類器網(wǎng)絡(luò)。
20 、Their interaction brings up the abundant use of "one classifier for mult...───四者彼此交互作用,導(dǎo)致"一量多物"的大量使用。
21 、On this basis, classifier is made in order to separate the docking aircraft from other moving objects.───在此基礎(chǔ)上設(shè)計了分類器,區(qū)分泊位飛機與泊位場景中其他運動物體。
22 、The test of improving the quality of aluminum hydroxide as artificial onyx filler by fluidic classifier is introduced.───介紹了利用射流分級技術(shù)改進氧化鋁瑪瑙填料質(zhì)量的試驗情況,采用正交試驗法優(yōu)化確定分級的工藝參數(shù)。
23 、Mainly presentes the application conditions of KMLF tilting narrow Upflow Classifier in the area of classification, desliming and concentrating in mineral separation industry.───介紹了KMLF型斜窄流分級機在選礦分級領(lǐng)域中的應(yīng)用情況。
24 、Compared with the standard SVM algorithm, the experiments show our new classifier can both improve the classification accuracy and reduce the bias.───實驗表明,新的基于SVM的分類器與傳統(tǒng)SVM相比較,在分類準(zhǔn)確率上有很大提高,同時偏差有所降低。
25 、Classification needs to construct a model(also called classifier)which makes a map of records in Database with a peculiar class label.───分類是要構(gòu)造一個數(shù)學(xué)模型(分類器),該模型能把數(shù)據(jù)庫的記錄映射到某一個特定的類別。
26 、The classifier is a classification facility of superfine powder according to the principles of inertia grading , fast grading and Coanda effect.───射流分級機是集慣性分級、迅速分級和微細顆粒的附壁效應(yīng)(coanda效應(yīng))等原理于一體進行超細分級的分級設(shè)備。
27 、But she could have been a forwarder of classified materials; she could have taken stuff off of classified systems and dumped it down.─── 但是她可能會轉(zhuǎn)發(fā)機密材料 她可能會把材料從機密系統(tǒng)里調(diào)出 然后將其轉(zhuǎn)存
28 、This paper regards decision tree as basic classifier, and introduces the least square technology for linear fusion.───以決策樹作為基本分類器,引入最小二乘技術(shù)進行多分類器線性融合。
29 、In fact, a classifier is a more general concept, which includes data types and interfaces.───事實上,分類器是一個更為一般的概念,它包括數(shù)據(jù)類型和接口。
30 、What I'm about to tell you is classified.─── 我將要告訴你們的純屬機密
31 、Mining classification rules is a procedure to construct a classifier through studying the training dataset.It is a very important part of Data Mining and Knowledge Discovery.───分類規(guī)則挖掘則是通過對訓(xùn)練樣本數(shù)據(jù)集的學(xué)習(xí)構(gòu)造分類規(guī)則的過程,是數(shù)據(jù)挖掘、知識發(fā)現(xiàn)的一個重要方面。
32 、To sum up, the event noun has a strong tendeacy of combination with the medium [+ timeliness] classifier subcategory.───總體來看,事件名詞傾向于選擇時間不強也不弱,即時間性居中的動量詞、時量詞或名量詞小類。
33 、"The classifier is adjustable to produce a wide range of particle size distributions.───其分級器可以進行調(diào)節(jié),以生產(chǎn)粒度分布范圍大的顆粒。
34 、There are two class screwing gear reducer and electromotor in the base of main machine.The powder classifier is equipped on the top of grinding chamber.───主機機座內(nèi)裝有二級螺旋齒輪減速器與電動機,渦輪式選粉機裝在磨腔殼體上部。
35 、There is a reason why they're classified.─── 它們被歸為機密是有原因的
36 、It was classified. I couldn't tell you.─── 這是機密 我不能告訴你
37 、We conclude that the perceptron act not only as a classifier, it performs classifier with gradient feature.───因此,單層感知機不只做單純的分類,它能做有層次的分類。
38 、The processing result is compared with the result from LoG-Laplacian operator.At the part of image recognition , effective characteristics are chosen to design classifier .───在圖像識別部分,選擇對結(jié)焦分類判別有效的特征構(gòu)成特征向量,建立判別函數(shù),并確立決策面方程,進而完成了分類器設(shè)計。
39 、Classifier networks are used to inspect, sort, identify, and discriminate minute details in biological or machine systems that human beings cannot discern.───分類器網(wǎng)絡(luò)可用來檢視、分類、確認與區(qū)別在生物或機器系統(tǒng)中一些人類無法察覺到的微小細節(jié)。
40 、You can adopt gillh, which will log you in as gillh , and log you out from your existing classifier (if any).───您可以采用gillh,那樣您即為 gillh 登入,而從您現(xiàn)在用的云形狀分級器登出(如果有的話)。
41 、The paper introduces the principle and structural characteristics of the turbo cyclone of a new classifier, and optimizes and studies the structural parameters of the cyclone.───介紹了新型分級設(shè)備渦輪旋流器的基本原理和結(jié)構(gòu)特點,并對設(shè)計的渦輪旋流器的結(jié)構(gòu)參數(shù)進行了優(yōu)化研究。
42 、You can adopt catastrophic, which will log you in as catastrophic , and log you out from your existing classifier (if any).───您可以采用catastrophic,那樣您即為 catastrophic 登入,而從您現(xiàn)在用的云形狀分級器登出(如果有的話)。
43 、A decision-making model and a numerical approach of partner selection were proposed based on multiple classifier fusion rules.───應(yīng)用多分類器融合規(guī)則,建立了供應(yīng)鏈伙伴選擇的決策模型和方法。
44 、Then two above recognition model are fused at decisional level, the model and method of cutting tool state recognition based on classifier fusion is proposed.───再對上述兩種識別模型進行決策層融合研究,提出了基于分類器融合的刀具狀態(tài)識別模型和方法。
45 、Target of classification is to find out a classification function or model (also called classifier). The model can map a single record in database to a pre-assumed class.───分類的目的是學(xué)會一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。
46 、According to [+ timeliness], the action classifier and timeliness classifier can constitute a continuum of seven kinds at four levels.───如果用[+時間性]的有無與高低來衡量,傳統(tǒng)區(qū)分的動量詞、時量詞其實可細化為7個等級的連續(xù)統(tǒng),并由低至高形成4個層級。
47 、LV Classifier is a new concept separator, which has been developed for vertical mill modification, to improve the gas and material flow in the vertical mill.───lv 選粉機是一種全新概念的物料分離設(shè)備,它能提高了立磨中的氣流及物流速度,并且在立磨的改造中得到了廣泛的應(yīng)用。
48 、The work capitalized on public hand-classified network dataset and used it to train and tested the supervised SVM traffic classifier.───使用公開的人工標(biāo)注數(shù)據(jù)集作為訓(xùn)練集和測試集,通過有監(jiān)督學(xué)習(xí)構(gòu)建支持向量機流量分類器。
49 、And the feature fusion coefficients can not only improve the discrimination of the system, but also amend the fuzzification of the classifier system.───在此基礎(chǔ)上,決策融合系數(shù)的加入不但可以提高系統(tǒng)的識別率,而且有效降低系統(tǒng)分類、識別決策的模糊性。
50 、You can adopt anb, which will log you in as anb , and log you out from your existing classifier (if any).───您可以采用anb,那樣您即為 anb 登入,而從您現(xiàn)在用的云形狀分級器登出(如果有的話)。
51 、Thus, the proposed RVM classifier is more advantageous for real-time processing fault detection.───因此,該方法非常適合于在線故障檢測等實時性要求很高的領(lǐng)域。
52 、It allows you to show how a class or another classifier is internally composed.───它允許你顯示一個類或另外的一個分類器如何在內(nèi)部構(gòu)成。
53 、You can adopt caocao, which will log you in as caocao , and log you out from your existing classifier (if any).───您可以采用caocao,那樣您即為 caocao 登入,而從您現(xiàn)在用的云形狀分級器登出(如果有的話)。
54 、Classification is an important sub-branch of Data Mining, which aims to build the classifier used to predict the class label of new coming data.───分類(Classification)是數(shù)據(jù)挖掘領(lǐng)域的一個重要研究分支,分類首先要構(gòu)造分類器,并對依據(jù)分類器對新數(shù)據(jù)進行類別預(yù)測。
55 、The two me thods were also applied to Kenli County, but the result of unsupervised classifi cation is better than that of supervised classification.───墾利縣由于地處濱海鹽漬土地區(qū),光譜差異性小,因而非監(jiān)督分類的結(jié)果優(yōu)于監(jiān)督分類的結(jié)果。
56 、A one-class classifier is fitted to detect the “ill-represented” data objects by enclosing all “good” dataobjects in a hypersphere.───建立了一個用于檢測非正常數(shù)據(jù)對象的一類分類器,檢測數(shù)據(jù)對象是否在正常值超球體范圍內(nèi)。
57 、Extracting initial strongly negative data set from positive data and unlabeled data is a base for constructing a PU-oriented text classifier by two stage frame method.───利用正樣例集合和未標(biāo)識樣例集合獲取初始的最強反例集合是使用兩步框架方法構(gòu)造一個面向PU問題文本分類器的基礎(chǔ)。
58 、These eigenvalues should be compared with the orthonormal circular and triangular eigenvalues which are prepared in advance.A euclid-distance classifier is designed for comparing.───將相應(yīng)子區(qū)域的特征值與事先準(zhǔn)備好的環(huán)形和三角形路標(biāo)特征值用歐式距離分類器進行比較判別。
59 、As the third-generation dynamic air classification equipment, turbo air classifier has high classification precision and good classification performance.───作為第三代動態(tài)空氣分級設(shè)備,渦流空氣分級機具有分級精度高、分級性能好的特點。
60 、A novel nonparametric classifier called NNL classifier is introduced to detect double-talk.───一種稱為NNL分類器的新的非參數(shù)分類器被用來檢測雙端通話。
61 、Using pseudowords we can overcome data sparseness problem in supervised WSD and fully verify the experimental effect of word sense classifier.───使用偽詞可以避免有指導(dǎo)的詞義消歧方法中的數(shù)據(jù)稀疏問題,充分驗證詞義分類器的實驗效果。
62 、Introduces an improved Bayesian classifier,which uses the skipping window technology to reform the reaction time and facilitate the control of the intrusion detection system.───介紹了一個改進的貝葉斯分類器,其中利用了滑動窗口技術(shù)改善入侵檢測的實時性能和可控制性能。
63 、WNN can be seen as a classifier to distinguish the corrupted or uncorrupted pixels from others in both approaches.───在兩種方案中,WNN都可以看作是一個區(qū)分污染與未污染像素的分類器。
64 、LCS can't scan all the state space when condition attributes contain continuous values, so continuous learning classifier system is one of the major aspects in LCS research.───當(dāng)環(huán)境輸人包含連續(xù)屬性時,經(jīng)典LCS無法遍歷整個狀態(tài)空間。
65 、What we're about to ask you is classified.─── 我們將要問你的事情屬于機密
66 、The air from the classifier bag filter will be sent either to the chimney or partially or totally recycled to the classifier air inlet.───分類囊式集[濾]塵器排出的空氣將被排進煙囪或者部分或全部地送到分類空氣入口進行回收利用.
67 、Replacing a classifier by a cyclone in classification is a tendency.───在磨礦分級作業(yè)中,采用旋流器替代分級機進行分級是發(fā)展的趨勢。
68 、To sum up, the event noun has a strong tendency of combination with the medium [+timeliness] classifier subcategory.───總體來看,事件名詞傾向于選擇時間不強也不弱,即時間性居中的動量詞、時量詞或名量詞小類。關(guān)鍵詞 語料庫;語義特征;時間性;
69 、The airflow pre-dispersion equipment was installed in a turbo air classifier before the raw materials were classified.───在物料進入渦流空氣分級機前采用了氣流預(yù)分散裝置,使物料懸浮分散并輸送到分級機中。
70 、Experimental results show that the proposed approach is more accurate in image semantic classification than other ones, such as SVMs classifier using color and textural features.───實驗結(jié)果表明,本文提出的方法在圖像語義分類的準(zhǔn)確性方面要優(yōu)于諸如采用色彩特征和紋理特征的支持向量機分類器的其它方法。
71 、You can adopt Darren, which will log you in as Darren , and log you out from your existing classifier (if any).───您可以采用Darren,那樣您即為 Darren 登入,而從您現(xiàn)在用的云形狀分級器登出(如果有的話)。
72 、In order to evaluate the classification efficiency of a classifier, this paper introduces the concepts of classification cut size and collection cut size.───為了評價分級機的分級效果,本文引入了分級粒徑和收集粒徑的概念。
73 、Generate mass of pseudo radar signals to overload the ESM classifier.───產(chǎn)生大量的假雷達信號,使ESM分類器過載;
74 、BAN,i. e. BN augmented Na?ve-Bayes,is an augmented Bayesian network classifier,whose accuracy is easy to improve by the Boosting technique.───BAN(BN augmented Na?ve-Bayes)是一種增強的貝葉斯網(wǎng)絡(luò)分類器,通過提升很容易提高其分類性能.
75 、Furthermore, the experimental results show that the classifier presents a new method for the EMG control of the multi-DOF prosthetic hand.───實驗結(jié)果表明,該分類器為多自由度肌電假手的控制提供了一種有效的方法。
76 、This is a classified operation, has been from the beginning.─── 這是機密事務(wù) 從一開始就是
77 、You can adopt dbelam, which will log you in as dbelam , and log you out from your existing classifier (if any).───您可以采用dbelam,那樣您即為 dbelam 登入,而從您現(xiàn)在用的云形狀分級器登出(如果有的話)。
78 、You can adopt Jack Spratt, which will log you in as Jack Spratt , and log you out from your existing classifier (if any).───您可以采用Jack Spratt,那樣您即為 Jack Spratt 登入,而從您現(xiàn)在用的云形狀分級器登出(如果有的話)。
79 、On the basis of switch and relay protecting information of substation, an approach to substation fault diagnosis is proposed based on rough sets theory and bayesian classifier.───以變電站的開關(guān)繼電保護信息為基礎(chǔ),提出了一種基于粗糙集理論和貝葉斯分類器的變電站故障診斷方法。
80 、which I can't, because It's classified.─── 而我不能說 因為... 這是機密
81 、The experimental results show that the Bayesian classifier can be successful in categorization for Chinese journals efficiently and correctly.───實驗結(jié)果表明,該分類器對中文期刊的分類具有很好的高效性和準(zhǔn)確性。
82 、When it is used between ball mill mated with magnetic liner and classifier, the underflow ratio and grinding efficiency are increased.───應(yīng)用于使用磁性襯板的球磨機與分級機之間,可提高返砂比和磨礦效率。
83 、Combining this idea with standard SVM classifier and adding a mixed data sets near the interface, a new SVM learning algorithm is proposed for classification of small data sets.───在標(biāo)準(zhǔn)SVM分類器訓(xùn)練方法中融入這種思想,給分類面附近加入混合數(shù)據(jù),提出了一種新的基于SVM的分類器設(shè)計方法,并將這種方法應(yīng)用于小樣本數(shù)據(jù)的分類問題中。
84 、The effect of the structure of the rotors with openings in the bottom plate and without openings on the classification characteristics of a turbo air classifier was investigated.───分級精度是衡量分級機性能的重要指標(biāo),取決于分級機的結(jié)構(gòu),轉(zhuǎn)籠的轉(zhuǎn)速、風(fēng)速、喂料速度以及物料性能等因素。
85 、Stump Network text classifier is compared with naive bayes text classifier and TAN(tree augmented naive bayes) by an experiment.───將該方法與樸素貝葉斯文本分類器和TAN(tree augmented naive bayes)文本分類器進行實驗比較。
86 、You can adopt cloudboy, which will log you in as cloudboy , and log you out from your existing classifier (if any).───您可以采用cloudboy,那樣您即為 cloudboy 登入,而從您現(xiàn)在用的云形狀分級器登出(如果有的話)。
87 、Because neural networks have a very strong ability in pattern recognition, an NN classifier is used in the multi-parameter recognition of fault signals.───充分利用了神經(jīng)網(wǎng)絡(luò)極強的模式分類能力,用神經(jīng)網(wǎng)分類器對故障信號進行多參量識別。
88 、As to classifier designation, first simple Euclidian distance classifier is used, then back-propagation network is utilized. At last a data fusion scheme is realized.───在分類器設(shè)計方面,最初采用了簡單的加權(quán)歐氏距離判別法,然后利用了BP(Back-Propagation)網(wǎng)絡(luò),之后提出了一個數(shù)據(jù)融合的混合實現(xiàn)方案。
89 、Yeah, you don't have to classify him.─── 沒必要給所有人都貼上標(biāo)簽
90 、This example demonstrates how to use WEKA s SVMs classifier in Matlab.───(譯):這個例子演示了如何使用WEKA縣支持向量機分類器在Matlab 。
extratreeclassifier和randomforestclassifier的區(qū)別
主要區(qū)別:
1、randomForest應(yīng)用的是Bagging模型,extraTree使用的所有的樣本,只是特征是隨機選取的,因為分裂是隨機的,所以在某種程度上比隨機森林得到的結(jié)果更加好
2、隨機森林是在一個隨機子集內(nèi)得到最佳分叉屬性,而ET是完全隨機的得到分叉值,從而實現(xiàn)對決策樹進行分叉的。
randomforest的隨機包含的意思是:
樣本隨機/特征隨機 /參數(shù)隨機 /模型隨機(ID3 ,C4.5)
extratree隨機包含的意思是:
特征隨機 /參數(shù)隨機 /模型隨機(ID3 ,C4.5) /分裂隨機
分類器輸入?yún)?shù)的條件
1、線性分類器(Linear Regression)
1.1貝葉斯分類器
樸素貝葉斯(Naive Bayes)分類器,以垃圾郵件分類為例子,需要特征之間滿足條件獨立的假設(shè);
局限性:
(1)要求自變量和因變量之間滿足線性關(guān)系;
(2)樸素貝葉斯要求特征之間滿足條件獨立,不能學(xué)習(xí)特征之間的相互作用。
滿足條件以后,根據(jù)最大后驗概率(MAP)準(zhǔn)則:maxθ P(y|x)=P(x|y)*P(y)/P(x) <=> maximizing Πi=1mp(x(i),y(i)),計算出三個參數(shù):Øi|y=1 =p(xi=1|y=1),Øi|y=0 =p(xi=1|y=0),Øy =p(y=1).
有了這些參數(shù)以后,對新的一個特征為x的樣本進行預(yù)測,只要簡單計算:p(y=1|x) = p(x|y=1)*p(y=1)/p(x) = (Πi=1n p(xi|y=1))*p(y=1)/[(Πi=1n p(xi|y=1))*p(y=1)+(Πi=1n p(xi|y=0))*p(y=0)].
1.2 Logistic Regression分類器
Logistic Regression Cost Function: minθ 1/m ∑i=1m [ y(i)*cost1(θTx(i))+(1-y(i))*cost0(θTx(i)) ] +λ /(2m) *∑nj=1 θ2j ( cost1(θTx(i))=-log hθ(x(i)), cost0(θTx(i))=-log(1-hθ(x(i))) )
hθ(x(i))=1/(1+e-θTx(i))=g(z)
成本函數(shù)的第一項,損失項,是為了使得模型預(yù)測的誤差最小,而第二項規(guī)則化項則是為了使得模型盡可能簡單。
從logistic回歸的成本函數(shù)表達式可以看出,第二項作為regularization items(懲罰項),其中的θ對成本函數(shù)的作用與第一項中θ的作用是相反的,添加了懲罰項后,由參數(shù)λ調(diào)節(jié)控制,前后兩項相互制約,使得θ既不能過大也不能過小,最終平衡到一個合適的值,使得訓(xùn)練集和測試集效果接近。但是從logistic的假設(shè)函數(shù)hθ來看,如果數(shù)據(jù)不是線性可分,則效果還是不好的。
局限性:
(1)自變量對疾病的影響是獨立的,但實際情況及推導(dǎo)結(jié)果不同;
(2)訓(xùn)練集的樣例數(shù)目要有200例以上才可不考慮參數(shù)估計的偏性;
(3)logistic分類器說到底是線性分類器,如果數(shù)據(jù)不是線性可分的,還是不能用logistic回歸
2、 SVM classifier
SVM分類器既可以作為線性分類器,也可以作為非線性分類器,這主要取決于它的核函數(shù)。
如果不使用kernel(saying:'linear kernel'),則它是一個線性分類器;如果使用其他的核函數(shù)(e.g. Gaussian kernel),則是一個非線性分類器,具有非線性判決邊界。
更具體地說,核函數(shù)的作用,是在輸入樣本線性不可分的情況下,通過函數(shù)映射將輸入樣本映射到另外一個高維空間并使其線性可分。
SVM作為線性分類器主要用在特征數(shù)目n很大,樣本數(shù)據(jù)m很小的情況。因為如果你的訓(xùn)練樣本很少,再采用復(fù)雜的分類函數(shù),就會很容易出現(xiàn)過擬合。SVM作為非線性分類器主要用在特征數(shù)目很少,樣本數(shù)目非常多的情況。因為如果你有非常多的訓(xùn)練樣本,就可以采用非線性判決邊界,去獲得更加準(zhǔn)確的分類效果。
Logistic Regression Cost Function: minθ 1/m ∑i=1m [ y(i)*cost1(θTx(i))+(1-y(i))*cost0(θTx(i)) ] +λ /(2m) *∑nj=1 θ2j ( cost1(θTx(i))=-log hθ(x(i)), cost0(θTx(i))=-log(1-hθ(x(i))) )
SVM Cost Function: minθ C*{ ∑i=1m [ y(i)*cost1(θTf(i))+(1-y(i))*cost0(θTf(i)) ] + 1/2 *∑nj=1 θ2j } ( cost1(θTf(i))=-log hθ(x(i)), cost0(θTf(i))=-log(1-hθ(x(i))) )
對比logistic回歸和SVM的成本函數(shù),發(fā)現(xiàn)它們在形式上是一樣的,不同之處其實僅僅在于假設(shè)函數(shù)hθ。logistic回歸的判斷依據(jù)是θTx(i)>>0, y=1;θTx(i)<<0, y=0;即其分類依據(jù)是要讓成本函數(shù)整個的要盡可能??;而SVM分類器判別依據(jù)是:θTx(i)>=1, y=1;θTx(i)<=-1, y=0;即只要判為1的點和判為0的點都距離boundary有1的單位間隔就好了,所以SVM分類器又叫做“最大間隔分類器”。
而SVM不同于logistic的假設(shè)函數(shù)hθ,成就了它非線性分類的優(yōu)勢。
在上面的成本函數(shù)中,第二項體現(xiàn)了SVM被稱為“l(fā)arge margin classifier”(最大間隔分類器)的原理(根據(jù)計算內(nèi)積的原理推導(dǎo),約束條件是假設(shè)函數(shù)成立(即y=1時,θTx(i)>=1,此時cost1=0;y=0時,θTx(i)<=-1,此時cost0=0),此時第一項為0,只剩第二項。實際上還是取決于假設(shè)函數(shù)hθ(x(i)));第一項中的假設(shè)函數(shù)hθ(x(i)),以及核函數(shù)X--->f的映射,決定了SVM non-linear classifier的性質(zhì);第一項中的常數(shù)C,相當(dāng)于logistic回歸 regularization項中的參數(shù)λ,起到調(diào)節(jié)參數(shù)個數(shù)(即特征個數(shù)),防止過擬合的作用。
局限性:
(1)由于SVM的核函數(shù)本質(zhì)上的作用還是為了生成新的特征,因此,對于特征數(shù)目遠遠大于樣本數(shù)目的數(shù)據(jù)來說,先進行特征篩選是非常有必要的,否則,會很容易出現(xiàn)過擬合;
(2)核函數(shù)的選擇需要依靠經(jīng)驗;
3、線性分類器與非線性分類器的區(qū)別
(1)線性分類器:
對于線性可分數(shù)據(jù),用一條直線可以完成分類:
對于線性不可分的數(shù)據(jù),線性分類器的最優(yōu)方法是使平方誤差最?。?/p>
(2)非線性分類器:
對于非線性分類,則要經(jīng)過一些特殊的變換,將樣本轉(zhuǎn)換成線性可分的形式,這期間可能用到非線性核函數(shù),或者非線性分類器;又或者人工知道如何進行轉(zhuǎn)換的話,先將樣本映射到線性可分的空間中,再使用線性分類器:
如上圖所示,因為非線性分類器能夠生成非常復(fù)雜的分類界面,因此它們常常有更準(zhǔn)確的分類結(jié)果。不過前提是樣本數(shù)目足夠多,以不至于造成過擬合。
非線性分類器有決策樹、神經(jīng)網(wǎng)絡(luò)等。
4、決策樹分類
決策樹分類器的優(yōu)點:
首先,決策樹方法能夠生成可以理解的規(guī)則;
其次,決策樹算法的計算量相對來說不是很大;
第三,決策樹算法可以處理連續(xù)和離散數(shù)據(jù);
第四,決策樹可以清晰地顯示出屬性的重要程度。決策樹是通過計算信息熵選擇分裂屬性的,而信息熵正是該屬性重要性的度量標(biāo)量。
1)ID3算法:使用信息增益(衡量屬性對樣例的區(qū)分能力)來選擇哪個屬性作為分類的測試節(jié)點。
基本思想:
自頂向下的貪婪搜索遍歷可能的決策樹空間構(gòu)造決策樹(此方法是ID3算法和C4.5算法的基礎(chǔ));
從“哪一個屬性將在樹的根節(jié)點被測試”開始;
使用統(tǒng)計測試來確定每一個實例屬性單獨分類訓(xùn)練樣例的能力,分類能力最好的屬性作為樹的根結(jié)點測試(如何定義或者評判一個屬性是分類能力最好的呢?ID3算法使用的是信息增益,or 信息增益率)。
然后為根結(jié)點屬性的每個可能值產(chǎn)生一個分支,并把訓(xùn)練樣例排列到適當(dāng)?shù)姆种Вㄒ簿褪钦f,樣例的該屬性值對應(yīng)的分支)之下。
重復(fù)這個過程,用每個分支結(jié)點關(guān)聯(lián)的訓(xùn)練樣例來選取在該點被測試的最佳屬性。
這形成了對合格決策樹的貪婪搜索,也就是算法從不回溯重新考慮以前的選擇。
2)C4.5算法
C4.5算法是ID3的一種改進算法,其相比于ID3有以下優(yōu)點:
用信息增益率來選擇屬性。ID3選擇屬性用的是子樹的信息增益,這里可以用很多方法來定義信息,ID3使用的是熵(entropy,熵是一種不純度度量準(zhǔn)則),也就是熵的變化值,而C4.5用的是信息增益率。對,區(qū)別就在于一個是信息增益,一個是信息增益率。
在樹構(gòu)造過程中進行剪枝,在構(gòu)造決策樹的時候,那些掛著幾個元素的節(jié)點,不考慮最好,不然容易導(dǎo)致overfitting。
對非離散數(shù)據(jù)也能處理。
能夠?qū)Σ煌暾麛?shù)據(jù)進行處理
點評:
form Wind:決策樹使用于特征取值離散的情況,連續(xù)的特征一般也要處理成離散的(而很多文章沒有表達出決策樹的關(guān)鍵特征or概念)。實際應(yīng)用中,決策樹overfitting比較的嚴(yán)重,一般要做boosting(Boosting是一種提高任意給定學(xué)習(xí)算法準(zhǔn)確度的方法。)。分類器的性能上不去,很主要的原因在于特征的鑒別性不足,而不是分類器的好壞,好的特征才有好的分類效果,分類器只是弱相關(guān)。
那如何提高 特征的鑒別性呢?一是設(shè)計特征時盡量引入domain knowledge,二是對提取出來的特征做選擇、變換和再學(xué)習(xí),這一點是機器學(xué)習(xí)算法不管的部分(我說的這些不是針對決策樹的,因此不能說是決策樹的特點,只是一些機器學(xué)習(xí)算法在應(yīng)用過程中的經(jīng)驗體會)。