Please download to get full document.

View again

of 5
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.

Влияние типа данных на результаты классификации объектов

Category:

Politics

Publish on:

Views: 6 | Pages: 5

Extension: PDF | Download: 0

Share
Related documents
Description
Вестник ВГУИТ,, 03 УДК :577.5 Аспирант Е.А. Саввина (Воронеж. гос. ун-т. инж. технол.) кафедра информационных и управляющих систем, тел. (473) Влияние типа данных на результаты классификации
Transcript
Вестник ВГУИТ,, 03 УДК :577.5 Аспирант Е.А. Саввина (Воронеж. гос. ун-т. инж. технол.) кафедра информационных и управляющих систем, тел. (473) Влияние типа данных на результаты классификации объектов В работе показано влияние типа данных на классификацию объектов, выявлены наиболее информативные признаки для разных классов качества, результаты классификации подтверждены дискриминантным анализом. Ths wor shows the nfluence of the type of ata on the classfcaton of obects an reveale the ost nforatve sgns for fferent classes of qualty, the results of the classfcaton are confre by scrnant analyss. Ключевые слова: двухэтапный кластерный анализ, дискриминаный анализ, коэффициент корреляции Пирсона. Качество белого хлеба из пшеничной муки зависит от качества рецептурных компонентов и точности соблюдения норм технологического процесса. При одних и тех же параметрах протекания технологического процесса возможно получение хлеба различного качества, в зависимости от качества ингредиентов, основным из которых является мука. Поэтому задача прогнозирования качества готовой продукции по информации о рецептурных компонентах весьма актуальна. Исходная цель работы: определить взаимосвязь между показателями муки и качеством хлеба, выявить наиболее информативные признаки, построить алгоритм классификации данных. В ходе выполнения работы была сформирована база данных, состоящая из 80 анализов, характеризующих качество белого хлеба по семи количественным признакам. Каждый анализ описывался органолептическими показателями качества муки (влажность, массовая доля и качество клейковины и т.д.) и показателями качествами хлеба (влажность, кислотность и пористость). В соответствии с классификацией, предложенной Пономаревой Е.И. данные были разделены на 4 группы. Первая группа (класс высшего качества) 0 наблюдений (5,0 %); вторая (класс хорошего качества) 4 (7,5 %); третья (класс 3 плохого качества) 6 (3,5 %); четвертая (класс 4 очень плохого качества) 0 (5,0 %). Для принятия решений об отнесении хлеба к определенному классу необходимо отобрать наиболее информативные признаки. Савина Е.А., Выявление наиболее информативных признаков осуществлялось в три этапа. На первом этапе использовался корреляционный анализ. На втором этапе формировалась классификационная система признаков методом двухэтапного кластерного анализа. На третьем этапе строилась дискриминантная функция. Одним из методов определения типов сходства является коэффициент корреляции Пирсона, который рассчитывается: r xy ( x ( x x) ( y x) ( y y) y), () где x - значения, принимаемые переменной Х, y - значения, принимаемые переменной Y, x - средняя по Х, y - средняя по Y. Кластерный анализ позволяет группировать «однородные» или «близкие» объекты в классы по какому-либо признаку. Наиболее распространены иерархическая кластеризация и -средними. Недостатком иерархических методов кластеризации является то, что модель предлагает несколько вариантов разбиения или объединения данных в кластеры, выбор результирующей модели остается за человеком. Кластеризация -средними, или «метод ближайшего соседа» основан на том, что число кластеров задается изначально. Затем элементы перераспределяются по кластерам, улучшая качество модели. Недостатком данного метода является то, что необходимо применять процедуры несколько раз для различного числа кластеров, не всегда разбиение оптимально для заданной задачи. Вестник ВГУИТ,, 03 Модель двухэтапного подхода (TwoStep Cluster) позволяет кластеризовать различные группы по отдельности, а после этого объединять полученные результаты в конечную структуру кластеров. Двухэтапный кластерный анализ используется как основной инструмент для сокращения размерности данных при создании кластеров или подгрупп данных, более удобных для анализа. Последующий многомерный анализ выполняют над кластерами, а не над отдельными наблюдениями. Для измерения расстояния между объектами используется Евклидова метрика: l ( x x ), () где l - расстояние между объектом и l, а x -и x - это -е свойства объектов соответственно и l. На первом этапе двухэтапного кластерного анализа рассчитывается межкластерная дисперсия, логарифмическая функция правдоподобия и первоначальное количество кластеров через критерии Акаике и Байеса. Дисперсия ξ в кластерах v(,s): p q ξ n ( log( δ + δ ) π log( π )) (3) состоит из двух частей: p n ( log( δ + δ ) - мера дисперсии непрерывных переменных х в пределах кластера q и π log(π ) мера дисперсии категориальных переменных. Кластеры с минимальным расстоянием (, s) будут объединены на каждом шаге итерации. Логарифмическая функция правдоподобия для шага с -кластерами вычисляется по формуле:. L ξ (4) Число кластеров в двухэтапном кластером анализе может быть задано автоматически. Информационный критерий Акаике (AIC): AIC L + r, (5) где r - число параметров или Информационный критерий Байеса BIC L + r log n. (6) Информационные критерии (5) и (6) определяют максимальное число кластеров. На втором этапе кластерного анализа рассчитывается расстояние для - кластеров: R( ), (7) где расстояние, в котором кластер слит с кластером ( ). Минимальное расстояние между кластерами: L L (8) В следующем этапе анализа был использован дискриминантный анализ. Данный метод заключается в разработке методов решения задач различения (дискриминации) объектов наблюдения по определенным признакам. Процедуры дискриминантного анализа позволяют не только интерпретировать различия между существующими классами, но и проводить классификацию новых объектов в тех случаях, когда заранее неизвестно, к какому из существующих классов они принадлежат. Методы пошагового дискриминантного анализа предполагают проверку (в начале каждого шага) всех дискриминантных переменных на соответствие двум условиям: необходимой точности вычисления (толерантности) и превышению заданного уровня различения (использование статистик F-ввода и F-исключения). Статистика F-ввода оценивает улучшение различения благодаря использованию данной переменной по сравнению с различением, достигнутым с помощью отобранных переменных. Статистика F-исключения определяет значимость ухудшения различения после удаления переменной из списка уже отобранных. Переменная с наибольшим значением F-исключения дает наибольший вклад в различение. Каноническая дискриминантная функция вычисляется по формуле: F ( x) a x + a x, (9) где a, a коэффициенты функции, х, х - дискриминантные переменные. Коэффициенты дискриминантной функции a определяются таким образом, чтобы 69 Вестник ВГУИТ,, 03 средние значения функций f ( x ) и f ( x), как можно больше различались между собой, т.е. чтобы для двух множеств (классов) было максимальным выражение: f ( x) f ( x) n a x n a x, (0) Вектор коэффициентов дискриминантной функции определяется по формуле: A S ( X X ), () * где S - объединенная ковариационная * матрица признаков: S ( / / ) * X X X X n + n +, () где X матрицы отклонений наблюдаемых значений исходных переменных от их средних величин в группах. Константа детерминации для классификации рассчитывается по формуле: С ( f + f ), (3) С помощью корреляционного анализа в общей выборке было установлено, что признаки коррелируют на уровне значимости 0,05 с классом качества хлеба. Информативных признаков, коэффициент корреляции для которых превышает 0,7, выявлено не было. На основании проведенного корреляционного анализа можно утверждать, что выделение классов,, 3, 4 в общей выборке невозможно, из-за отсутствия специфических признаков в классах. Кластерный анализ, проведенный на основе 7 признаков показал следующие результаты. Для получения приемлемых результатов классификации необходимо построение иерархической схемы, показанной в работе [3]. Для повышения точности классификации исходный набор количественных признаков был преобразован в категориальные, так как для описания класса важнее не само значение признака, а попадание этого значения в категорию (диапазон значения от и до), определяющую принадлежность к классу качества. Полученные категориальные признаки были преобразованы в бинарные, где каждый признак имел состояния (0 признак не принадлежит диапазону, принадлежит). В результате в базе данных количество признаков увеличилось с 7 до 37. С помощью корреляционного анализа в общей выборке было установлено, что признаки коррелируют на уровне значимости 0,0 с классом качества хлеба. В качестве наиболее информативных были отобраны признаки с коэффициентом корреляции превышающем 0,7. Т а б л и ц а Таблица информативных признаков Показатели класс класс 3 класс 4 класс Массовая доля клейковины 3-33 (Х 7) 0,84** -0,075-0,33** -0,367** Качество клейковины (Х ) 0,788** -0,30** -0,63-0,35** Качество клейковины (Х ) -0,79* -0,30* 0,7** -0,89** Газообразующая способность (Х 7) 0,74** -0,49* -0,45** -0,03 Кислотность мякиша 3 (Х 9) 0,764** -0,44* 0,38* 0,389* Пористость мякиша (Х 34) -0,8 0,806** 0,30* -0,300** Пористость мякиша (Х 35) 0,965** -0,48* -0,374** -0,3** Пористость мякиша ниже 63 (Х 37) -0,333** -0,75* -0, 0,705** Для класса было выявлено 5 информативных признаков (массовая доля клейковины 3-33, качество клейковины 66-75, газообразующая способность , кислотность мякиша 3, пористость мякиша 69-70), для которых коэффициент корреляции превышает 0,7. Для признаков r находится в диапазоне 0,64 до 0,684 по модулю, и имеет среднюю тесноту связи с классом качества. Во второй группе специфических признаков не обнаружено, значение r находится в диапазоне от 0,485 до 0,689. В группе 3 обнаружено специфических признака с теснотой связи от 0,7 до 0,806. Для 6 признаков коэффициент корреляции находится в диапазоне от 0,586 до 0,664 с средней теснотой связи. Класс 4 имеет один специфический признак (пористость мякиша) со значением коэффициента корреляции более 0,7; теснота связи сильная. Для 4 признаков в данной группе коэффициент корреляции r находится в диапазоне от 0,55 до 0,656, теснота связи средняя (больше 0,5). 70 Вестник ВГУИТ,, 03 На основании проведенного корреляционного анализа можно утверждать, что возможно выделение 4-х классов. С помощью двухэтапного кластерного анализа была получена четырехкластерная структура данных, представленная на рис.. Хлеб пшеничный разного качества Класс очень хорошего качества Класс плохого качества Класс 3 хорошего качества Класс 4 очень плохого качества Рис.. Четырехкластерная структура данных. К классу (,5 %) относится хлеб очень хорошего качества, к классу (30,0 %) хлеб плохого качества, 3 класс (,3 %) хлеб хорошего качества, класс 4 (6,3 %) хлеб очень плохого качества. Было допущено ошибок (3,75 %). Из них: 4 ошибки первого рода (5 %), класс плохого качества был ошибочно отнесен падания наблюдений плохого качества в очень плохое (6,5 %) не являются существенными для классификации, так как классы (3 и 4) не должны использоваться в хлебопечении. Следовательно, в классификации задан порог чувствительности выше необходимого. Результат классификации 86,5 %. к классу хорошего качества; Результаты двухэтапного кластерного ошибки второго рода (,5 %); 5 ошибок по- анализа представлены в табл.. Т а б л и ц а Результат двухэтапного кластерного анализа Распределение по кластерам N % объединенных % ошибок класс очень хорошего качества 8,5 % класс плохого качества 4 30,0 %,5 3 класс хорошего качества 7,3 % 5 4 класс очень плохого качества 6,3 % 6,5 Объединенный 80 00,0 % 3,75 Были построены дискриминантные функции и оценена их значимость по коэффициенту Уилкса (λ): D (X) -3,994+,06Х 7+3,390Х +0,43Х +3,486Х 7+,496Х 9+,8Х 30+,739Х 3; (3) D (X)-0,649-,69Х 7+,30Х +,987Х +3,034Х 7-,34Х 9-,475Х 30+4,353Х 3 ; (4) D 3(X)-,48-,754Х 7+,49Х +0,670Х +,098Х 7+,Х 9+3,69Х 30+0,967Х 3; (5) Результаты дискриминантного анализа Т а б л и ц а 3 Функция Собственное % объясненной Каноническая λ -Уилкса Хи-квадрат значение дисперсии корреляция D (X) 3,745 75,4 0,965 0, ,04 D (X) 3,07 6,6 0,867 0,0 68,45 D 3(X),450 8,0 0,769 0,408 65,864 По результатам дискриминантного анализа (таблица 3) было выявлено, что наибольший вклад в дискриминацию вносит функция D (X). На основании внутригрупповой корреляции между дискриминантными переменными и дискриминантными функциями было выявлено, что наибольший вклад в дискриминацию вносят переменные качество клейковины (X 7) 0,40*, газообразующая способность (Х ) 0,385* и кислотность мякиша 3 0,36*. 7 Вестник ВГУИТ,, 03 Результаты классификации методом дискриминантного анализа показали, что высокая точность достигнута в первой, третей и четвертой группах (00 %). Менее точные результаты получены во второй группе (8,75 %), где 5 наблюдений были ошибочно отнесены к плохому качеству (6,5 %), наблюдения (,5 %), классифицированные в базе данных как хорошее качество, были неправильно распознаны как очень плохое качество. Результаты классификации свидетельствуют о том, что для 9,5 % наблюдений классификация проведена корректно. Подводя итоги работы, можно сделать выводы: - был предложен трехэтапный анализ для отбора наиболее информативных признаков, где на первом этапе проводится корреляционный анализ, на втором двухэтапный кластерный анализ, на третьем дискриминантный анализ. Показано, что коэффициент корреляции между признаками и классом определяет точность классификации. - была предложена категориальная структура. Показано, что структура базы данных влияет на классификацию. - выполнена классификация качества хлеба. При использовании метода двухэтапного кластерного анализа было допущено ошибок (3,75 %): 4 ошибки первого рода (5 %), класс плохого качества был ошибочно отнесен к классу хорошего качества; ошибки второго рода (,5 %); 5 ошибок попадания наблюдений плохого качества в очень плохое (6,5 %), не являются существенными для классификации, так как классы (3 и 4) не должны использоваться в хлебопечении. Метод дискриминантного анализа классифицирует с точностью 9,3 %. Было допущено 7 ошибок: 5 наблюдений были ошибочно отнесены к плохому качеству (6,5 %), наблюдения (,5 %), классифицированные в базе данных как хорошее качество были неправильно распознаны как очень плохое качество. Бессокирная, Г. П. Дискриминантный анализ для отбора информативных переменных [Текст] / Г. П. Бессокирная // Статистические методы и анализ данных С Балашова, Е. А. Классификация качества хлеба методом двухэтапного кластерного анализа [Текст] / Е. А. Балашова, В. К. Битюков, Е. А. Журавлева. Сборник трудов конференции ММТТ-5. Волгоград: ВолгГТУ, 0. С Сидоренко, Е.А. Информационное описание и диагностика состояния иерархически организованных систем [Текст] / Е. А. Сидоренко. Воронеж,00. с Bacher, J. SPSS TwoStep Cluster A Frst Evaluaton [Text] / J. Bacher, K. Wenzg. Nurnberg: Unverstet Erlanger, 004. REFERENCES Byuyul, A. SPSS: art of treatent of nforaton, analyss of statstcal ata an renewal of the hen confortes to law [Text] / An. Byuyul, P. of Cefel. SPb.: LTD. «DaSoftYUp», p. Bessornaya, G.P. Dscrnant analyss for the selecton of nforatvevarables [Text]/ G.P. Bessornaya // the Statstcal ethos an analyss of ata P Balashova, E.A. Classfcaton of qualty of brea by the etho of a twostage cluster analyss [Text] / E.A. Balashova, V.K. Btyuov, E.A. Zhuravleva. t s Collecton of labours of conference of MMTT-5. - Volgogra: VolgGTU, 0. P Soreno, E.A. Inforatve escrpton an agnostcs of the state of the herarchcally organze systes [Text] / E.A. Soreno. Voronezh,00. p Bacher, J. SPSS TwoStep Cluster A Frst Evaluaton [Text] / J. Bacher, K. Wenzg. Nurnberg: Unverstet Erlanger, 004. ЛИТЕРАТУРА Бююль, А. SPSS: искусство обработки информации, анализ статистических данных и восстановление скрытых закономерностей [Текст] / А. Бююль, П. Цёфель. СПб.: ООО «ДиаСофтЮП», с. 7
Similar documents
View more...
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks